DIVERSITY IS GOOD
DIVERSITY IS GOOD

테크/Data Analysis

ADsP 3단원 데이터 분석 2장 통계분석1 정리

diversity is good 2025. 2. 18. 15:40
반응형

1. 통계 개요

전수조사, 표본조사

 

전수조사 : 전체를 다 조사, 시간 & 비용 ↑

표본조사 : 표본집단만 선별해 조사

 

표본 추출 방법

 

단순 랜덤 추출법 : n개의 데이터를 무작위로 추출

계통 추출법 : 모딥단의 원소에 차례대로 번호를 부여한 뒤 일정 간격을 두고 추출

집락 추출법(군집 추출법) : 군집은 서로 비슷하고, 군집 내 데이터는 서로 이직적

층화 추출법 : 군집이 서로 다르고 군집 내 데이터는 서로 동질적

복원 추출, 비복원 추출

 

척도

 

질적 척도 : 명목 척도, 순서 척도(서열 척도)

양적 척도 : 구간 척도(등간 척도), 비율 척도

 

기초 통계

 

평균 = 기댓값

중앙값

최빈값 : 가장 빈번하게 등장하는 겂

분산 : 자료들이 퍼진 정도

표준편차 : 분산의 제곱근

공분산 : 두 변수의 상관관계

$$Conv(X,\,Y)\, = \, E[(X-\mu_{X})(Y-\mu_{Y})]$$

    - 공분산 = 0 : 상관이 전혀 없는 상태

    - 공분산 > 0 : 양의 상관관계

    - 공분산 < 0 : 음의 상관관계

    - 어느 정도 관계가 있는지 정의가 불가능하기 때문에 상관계수를 사용

상관계수

$$r_{xy} \, = \, \frac{}Conv(X,\, Y){\sigma_{x} \sigma_{y}}$$

    - 상관정도 범위 : -1 ~ 1

    - 상관계수 = 1 : 정비례

    - 상관계수 = -1 : 반비례

 

확률

 

$$ P(A) = \frac{특정 사건 A의 개수}{전체 사건의 개수(표본공간)}

 

조건부 확률

 

$$P(B|A) = \frac{P(B\cap A)}{P(A)}$$

 

독립사건과 배반사건

 

독립사건 : 서로에게 영향을 주지 않는 두개의 사건

$$P(B|A) = P(B)$$

&&P(A\cap B) = P(A)P(B)&&

배반사건 : 절대로 같이 일어날 수 없는 사건

&&P(A\cap B) = \o&&

 

확률변수

 

특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수

이산확률변수, 연속확률변수

$$\sum P(X) = 1$$

$$이산\,확률 \, 변수의 \, 분산 \,: \,Var(X)\,=\,E[(X-E(X))^2]=E(X^2)-E(X)^2$$

$$연속\, 확률\, 변수의 \, 분산 \,: \,Var(X)\, =\, \int E[ ( X-E(X) )^2] f(x) dx = \int  x^2f(x)dx - (\int xf(x)dx)^2 $$

 

확률분포

 

확률변수와 대응되는 확률의 분포

 

 

2. 이산확률분포

이산확률변수

 

확률변수가 취할 수 있는 실수 값의 수를 셀수 있는 변수

 

이산 균등 분포

 

모든 곳에서 값이 일정한 분포

 

베르누이 분포

 

매 시행마다 오직 두가지의 결과만 도출하는 분포

일반적으로 한 번의 시행을 할 때 성공과 실패로 나눌 수 있는 성공할 확률이 P인 분포

 

$$P(X = x) = p^{x}(1-p)^{1-x} \, (단, \,x = 0,1)$$

$$E(X) = p$$

$$Var(X) = p(1-p)$$

 

이항 분포

 

n번의 베르누이 시행에서 k번 성공할 확률의 분포

$$P(X = k) =\binom{n}{k} p^{x}(1-p)^{1-x} \, (단, \,x = 0,1,2\cdots ,n)$$

$$E(X) = np$$

$$Var(X) = np(1-p)$$

 

 기하분포

 

성공 확률이 p 인 베르누이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포

$$P(X = k) =\binom{n}{k} p^{x}(1-p)^{1-x} \, (단, \,x = 0,1,2\cdots ,n)$$

$$E(X) = \frac{1}{p}$$

$$Var(X) = \frac{1-p}{p^{2}}$$

 

다항 분포

 

이항 분포를 활장한 개념으로 n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포
$$P(X=x) = \frac{n!}{x!y!z!}p_{1}^{x} p_{2}^{y} p_{3}^{z} \, (단, \, x+y+z=n)$$

 

포아송 분포

 

단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생 획수에 대한 확률분포

$$P(X = x) = \frac{e^{-\lambda}\dot\lambda^{x}}{x!} \, 단, \, \lambda는 \, 단위\,시간 \, 또는 \, 단위 \, 공간당 \, 사건 \, 발생 \, 비율)$$

$$E(X) = \lambda$$

$$Var(X) = \lambda $$

 

3.연속 확률 분포

정규 분포

 

$$ 확률밀도함수 \, = \, \frac{1}{\sqrt{2\sigma\pi}}e^{-\frac{(x-m)^2}{2\sigma^2}}$$

 

t분포

 

자유도가 n이고 평균이 0이고 좌우가 대칭

두 집단의 평균치 차이의 비교 검정 시 사용

데이터 개수가 30개 이상이면 정규성 검정 필요 X

 

카이제곱 분포

 

$Z_{1},\,Z_{2},\, Z_{3},\,, \cdots,\, Z_{n}$의 제곱의 합 X는 자유도가 n인 카이제곱 분포를 따름

모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용

 

F 분포

 

서로 독립인 두 카이제곱 분포를 따르는 확률 변수 $V_{1}\,\sim \,X^{2}(k_{1}),\, V_{2}\, \sim \, X^{2}(k_{2})$를 각각의 자유도로 나누었을 때 서로의 두 비율 X는 자유도가 $k_{1},\,k_{2}$인 F 분포를 따름

두 집단의 분산의 동일성 검정에 사용

 

 

4. 첨도와 왜도

첨도

 

확률분포의 표족한 정도를 나타내는 측도

점도 = 3 : 정규 분포 형태

기준을 -3을 해서 0으로 보는 경우도 있다.

값이 클수록 뾰족해진다.

 

왜도

 

확률분포의 비대칭 정도

0일 때 대칭

왜도 < 0 : 최빈값 > 중앙값 > 평균값

왜도 > 0 : 최빈값 < 중앙값 < 평균값

 

 

5. 추정과 가설검정

추정

 

표본으로부터 모집단을 추측하는 방법

 

점 추정 : 모집단이 특정한 값

구간 추정 : 모집단이 특정한 신뢰 구간 활용 → 95%, 99% 사용

 

가설검정

 

모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서 얻은 정보를 활용해 가설이 옳은지를 판정하는 것

 

귀무가설 $H_{0}$

 

일반적으로 생각하는 가설

실험, 연구를 통해 기각하고자 하는 가설

 

대립가설  $H_{1}$

 

귀무가설과 반대되는 가설

귀무가설이 틀렸다고 판단되면 채택되는 가설

실험, 연구를 통해 증명하고자 하는 가설

 

1종 오류, 2종 오류
  $H_{0}$ 채택 & ( H_{1} 기각) $H_{0}$ 기각 & ( H_{1} 채택)
$H_{0}$ 사실 올바른 결정 제 1종 오류
$H_{0}$ 거짓 제 2종 오류 올바른 결정

 

가설 검정 절차

 

1) 귀무가설 / 대립가설 설정

    - "차이가 없다", "동일하다" → 귀무가설

    - "같지 않다", "크다", "작다" → 대립가설

2) 유의 수준 결정

    - 0.01, 0.05, 0.1

3) 귀무가설 기각 or 채택

    - p-value < 유의수준 -> 귀무가설 기각, 대립가설 채택

    - p-value > 유의수준 -> 귀무가설 채택

 

모수 검정

 

표본이 정규성을 갖는다는 모수적 특성을 이용하는 통계 방법

 

비모수 검정

 

정규성 검정에서 정규분포를 따르지 않는다고 증명되거나 정규분포임을 가정할 수 없는 경우(작은 경우)

모수의 분포에 대해 어떠한 가정도 하지 않음

 

모수 검정과 비모수 검정의 차이
모수 검정(parametric test) 비모수 검정(nonparametric test)
등간척도, 비율척도 명목척도, 서열척도
평균 중앙값
피어슨 상관계수 스피어만 순위상관계수

 

반응형