1. 통계 개요
전수조사, 표본조사
전수조사 : 전체를 다 조사, 시간 & 비용 ↑
표본조사 : 표본집단만 선별해 조사
표본 추출 방법
단순 랜덤 추출법 : n개의 데이터를 무작위로 추출
계통 추출법 : 모딥단의 원소에 차례대로 번호를 부여한 뒤 일정 간격을 두고 추출
집락 추출법(군집 추출법) : 군집은 서로 비슷하고, 군집 내 데이터는 서로 이직적
층화 추출법 : 군집이 서로 다르고 군집 내 데이터는 서로 동질적
복원 추출, 비복원 추출
척도
질적 척도 : 명목 척도, 순서 척도(서열 척도)
양적 척도 : 구간 척도(등간 척도), 비율 척도
기초 통계
평균 = 기댓값
중앙값
최빈값 : 가장 빈번하게 등장하는 겂
분산 : 자료들이 퍼진 정도
표준편차 : 분산의 제곱근
공분산 : 두 변수의 상관관계
$$Conv(X,\,Y)\, = \, E[(X-\mu_{X})(Y-\mu_{Y})]$$
- 공분산 = 0 : 상관이 전혀 없는 상태
- 공분산 > 0 : 양의 상관관계
- 공분산 < 0 : 음의 상관관계
- 어느 정도 관계가 있는지 정의가 불가능하기 때문에 상관계수를 사용
상관계수
$$r_{xy} \, = \, \frac{}Conv(X,\, Y){\sigma_{x} \sigma_{y}}$$
- 상관정도 범위 : -1 ~ 1
- 상관계수 = 1 : 정비례
- 상관계수 = -1 : 반비례
확률
$$ P(A) = \frac{특정 사건 A의 개수}{전체 사건의 개수(표본공간)}
조건부 확률
$$P(B|A) = \frac{P(B\cap A)}{P(A)}$$
독립사건과 배반사건
독립사건 : 서로에게 영향을 주지 않는 두개의 사건
$$P(B|A) = P(B)$$
&&P(A\cap B) = P(A)P(B)&&
배반사건 : 절대로 같이 일어날 수 없는 사건
&&P(A\cap B) = \o&&
확률변수
특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수
이산확률변수, 연속확률변수
$$\sum P(X) = 1$$
$$이산\,확률 \, 변수의 \, 분산 \,: \,Var(X)\,=\,E[(X-E(X))^2]=E(X^2)-E(X)^2$$
$$연속\, 확률\, 변수의 \, 분산 \,: \,Var(X)\, =\, \int E[ ( X-E(X) )^2] f(x) dx = \int x^2f(x)dx - (\int xf(x)dx)^2 $$
확률분포
확률변수와 대응되는 확률의 분포
2. 이산확률분포
이산확률변수
확률변수가 취할 수 있는 실수 값의 수를 셀수 있는 변수
이산 균등 분포
모든 곳에서 값이 일정한 분포
베르누이 분포
매 시행마다 오직 두가지의 결과만 도출하는 분포
일반적으로 한 번의 시행을 할 때 성공과 실패로 나눌 수 있는 성공할 확률이 P인 분포
$$P(X = x) = p^{x}(1-p)^{1-x} \, (단, \,x = 0,1)$$
$$E(X) = p$$
$$Var(X) = p(1-p)$$
이항 분포
n번의 베르누이 시행에서 k번 성공할 확률의 분포
$$P(X = k) =\binom{n}{k} p^{x}(1-p)^{1-x} \, (단, \,x = 0,1,2\cdots ,n)$$
$$E(X) = np$$
$$Var(X) = np(1-p)$$
기하분포
성공 확률이 p 인 베르누이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포
$$P(X = k) =\binom{n}{k} p^{x}(1-p)^{1-x} \, (단, \,x = 0,1,2\cdots ,n)$$
$$E(X) = \frac{1}{p}$$
$$Var(X) = \frac{1-p}{p^{2}}$$
다항 분포
이항 분포를 활장한 개념으로 n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포
$$P(X=x) = \frac{n!}{x!y!z!}p_{1}^{x} p_{2}^{y} p_{3}^{z} \, (단, \, x+y+z=n)$$
포아송 분포
단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생 획수에 대한 확률분포
$$P(X = x) = \frac{e^{-\lambda}\dot\lambda^{x}}{x!} \, 단, \, \lambda는 \, 단위\,시간 \, 또는 \, 단위 \, 공간당 \, 사건 \, 발생 \, 비율)$$
$$E(X) = \lambda$$
$$Var(X) = \lambda $$
3.연속 확률 분포
정규 분포
$$ 확률밀도함수 \, = \, \frac{1}{\sqrt{2\sigma\pi}}e^{-\frac{(x-m)^2}{2\sigma^2}}$$
t분포
자유도가 n이고 평균이 0이고 좌우가 대칭
두 집단의 평균치 차이의 비교 검정 시 사용
데이터 개수가 30개 이상이면 정규성 검정 필요 X
카이제곱 분포
$Z_{1},\,Z_{2},\, Z_{3},\,, \cdots,\, Z_{n}$의 제곱의 합 X는 자유도가 n인 카이제곱 분포를 따름
모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용
F 분포
서로 독립인 두 카이제곱 분포를 따르는 확률 변수 $V_{1}\,\sim \,X^{2}(k_{1}),\, V_{2}\, \sim \, X^{2}(k_{2})$를 각각의 자유도로 나누었을 때 서로의 두 비율 X는 자유도가 $k_{1},\,k_{2}$인 F 분포를 따름
두 집단의 분산의 동일성 검정에 사용
4. 첨도와 왜도
첨도
확률분포의 표족한 정도를 나타내는 측도
점도 = 3 : 정규 분포 형태
기준을 -3을 해서 0으로 보는 경우도 있다.
값이 클수록 뾰족해진다.
왜도
확률분포의 비대칭 정도
0일 때 대칭
왜도 < 0 : 최빈값 > 중앙값 > 평균값
왜도 > 0 : 최빈값 < 중앙값 < 평균값
5. 추정과 가설검정
추정
표본으로부터 모집단을 추측하는 방법
점 추정 : 모집단이 특정한 값
구간 추정 : 모집단이 특정한 신뢰 구간 활용 → 95%, 99% 사용
가설검정
모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서 얻은 정보를 활용해 가설이 옳은지를 판정하는 것
귀무가설 $H_{0}$
일반적으로 생각하는 가설
실험, 연구를 통해 기각하고자 하는 가설
대립가설 $H_{1}$
귀무가설과 반대되는 가설
귀무가설이 틀렸다고 판단되면 채택되는 가설
실험, 연구를 통해 증명하고자 하는 가설
1종 오류, 2종 오류
$H_{0}$ 채택 & ( H_{1} 기각) | $H_{0}$ 기각 & ( H_{1} 채택) | |
$H_{0}$ 사실 | 올바른 결정 | 제 1종 오류 |
$H_{0}$ 거짓 | 제 2종 오류 | 올바른 결정 |
가설 검정 절차
1) 귀무가설 / 대립가설 설정
- "차이가 없다", "동일하다" → 귀무가설
- "같지 않다", "크다", "작다" → 대립가설
2) 유의 수준 결정
- 0.01, 0.05, 0.1
3) 귀무가설 기각 or 채택
- p-value < 유의수준 -> 귀무가설 기각, 대립가설 채택
- p-value > 유의수준 -> 귀무가설 채택
모수 검정
표본이 정규성을 갖는다는 모수적 특성을 이용하는 통계 방법
비모수 검정
정규성 검정에서 정규분포를 따르지 않는다고 증명되거나 정규분포임을 가정할 수 없는 경우(작은 경우)
모수의 분포에 대해 어떠한 가정도 하지 않음
모수 검정과 비모수 검정의 차이
모수 검정(parametric test) | 비모수 검정(nonparametric test) |
등간척도, 비율척도 | 명목척도, 서열척도 |
평균 | 중앙값 |
피어슨 상관계수 | 스피어만 순위상관계수 |
'테크 > Data Analysis' 카테고리의 다른 글
ADsP 3단원 데이터 분석 3장 회귀분석 정리 (0) | 2025.02.20 |
---|---|
ADsP 3단원 데이터 분석 2장 통계분석2 정리 (0) | 2025.02.20 |
ADsP 3단원 데이터 분석 1장 R과 데이터 마트 정리 (0) | 2025.02.16 |
ADsP 2단원 데이터 분석 기획 2장 분석 마스터플랜 정리 (0) | 2025.02.16 |
ADsP 2단원 데이터 분석 기획 1장 데이터 분석 기획 정리 (1) | 2025.02.15 |