ADsP 3단원 데이터 분석 2장 통계분석1 정리

테크/Data Analysis

ADsP 3단원 데이터 분석 2장 통계분석1 정리

diversity is good 2025. 2. 18. 15:40

1. 통계 개요

전수조사, 표본조사

전수조사 : 전체를 다 조사, 시간 & 비용 ↑

표본조사 : 표본집단만 선별해 조사

표본 추출 방법

단순 랜덤 추출법 : n개의 데이터를 무작위로 추출

계통 추출법 : 모딥단의 원소에 차례대로 번호를 부여한 뒤 일정 간격을 두고 추출

집락 추출법(군집 추출법) : 군집은 서로 비슷하고, 군집 내 데이터는 서로 이직적

층화 추출법 : 군집이 서로 다르고 군집 내 데이터는 서로 동질적

복원 추출, 비복원 추출

척도

질적 척도 : 명목 척도, 순서 척도(서열 척도)

양적 척도 : 구간 척도(등간 척도), 비율 척도

기초 통계

평균 = 기댓값

중앙값

최빈값 : 가장 빈번하게 등장하는 겂

분산 : 자료들이 퍼진 정도

표준편차 : 분산의 제곱근

공분산 : 두 변수의 상관관계

$$Conv(X,\,Y)\, = \, E[(X-\mu_{X})(Y-\mu_{Y})]$$

- 공분산 = 0 : 상관이 전혀 없는 상태

- 공분산 > 0 : 양의 상관관계

- 공분산 < 0 : 음의 상관관계

- 어느 정도 관계가 있는지 정의가 불가능하기 때문에 상관계수를 사용

상관계수

$$r_{xy} \, = \, \frac{}Conv(X,\, Y){\sigma_{x} \sigma_{y}}$$

- 상관정도 범위 : -1 ~ 1

- 상관계수 = 1 : 정비례

- 상관계수 = -1 : 반비례

확률

$$ P(A) = \frac{특정 사건 A의 개수}{전체 사건의 개수(표본공간)}

조건부 확률

$$P(B|A) = \frac{P(B\cap A)}{P(A)}$$

독립사건과 배반사건

독립사건 : 서로에게 영향을 주지 않는 두개의 사건

$$P(B|A) = P(B)$$

&&P(A\cap B) = P(A)P(B)&&

배반사건 : 절대로 같이 일어날 수 없는 사건

&&P(A\cap B) = \o&&

확률변수

특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수

이산확률변수, 연속확률변수

$$\sum P(X) = 1$$

$$이산\,확률 \, 변수의 \, 분산 \,: \,Var(X)\,=\,E[(X-E(X))^2]=E(X^2)-E(X)^2$$

$$연속\, 확률\, 변수의 \, 분산 \,: \,Var(X)\, =\, \int E[ ( X-E(X) )^2] f(x) dx = \int x^2f(x)dx - (\int xf(x)dx)^2 $$

확률분포

확률변수와 대응되는 확률의 분포

2. 이산확률분포

이산확률변수

확률변수가 취할 수 있는 실수 값의 수를 셀수 있는 변수

이산 균등 분포

모든 곳에서 값이 일정한 분포

베르누이 분포

매 시행마다 오직 두가지의 결과만 도출하는 분포

일반적으로 한 번의 시행을 할 때 성공과 실패로 나눌 수 있는 성공할 확률이 P인 분포

$$P(X = x) = p^{x}(1-p)^{1-x} \, (단, \,x = 0,1)$$

$$E(X) = p$$

$$Var(X) = p(1-p)$$

이항 분포

n번의 베르누이 시행에서 k번 성공할 확률의 분포

$$P(X = k) =\binom{n}{k} p^{x}(1-p)^{1-x} \, (단, \,x = 0,1,2\cdots ,n)$$

$$E(X) = np$$

$$Var(X) = np(1-p)$$

기하분포

성공 확률이 p 인 베르누이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포

$$P(X = k) =\binom{n}{k} p^{x}(1-p)^{1-x} \, (단, \,x = 0,1,2\cdots ,n)$$

$$E(X) = \frac{1}{p}$$

$$Var(X) = \frac{1-p}{p^{2}}$$

다항 분포

이항 분포를 활장한 개념으로 n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포
$$P(X=x) = \frac{n!}{x!y!z!}p_{1}^{x} p_{2}^{y} p_{3}^{z} \, (단, \, x+y+z=n)$$

포아송 분포

단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생 획수에 대한 확률분포

$$P(X = x) = \frac{e^{-\lambda}\dot\lambda^{x}}{x!} \, 단, \, \lambda는 \, 단위\,시간 \, 또는 \, 단위 \, 공간당 \, 사건 \, 발생 \, 비율)$$

$$E(X) = \lambda$$

$$Var(X) = \lambda $$

3.연속 확률 분포

정규 분포

$$ 확률밀도함수 \, = \, \frac{1}{\sqrt{2\sigma\pi}}e^{-\frac{(x-m)^2}{2\sigma^2}}$$

t분포

자유도가 n이고 평균이 0이고 좌우가 대칭

두 집단의 평균치 차이의 비교 검정 시 사용

데이터 개수가 30개 이상이면 정규성 검정 필요 X

카이제곱 분포

$Z_{1},\,Z_{2},\, Z_{3},\,, \cdots,\, Z_{n}$의 제곱의 합 X는 자유도가 n인 카이제곱 분포를 따름

모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용

F 분포

서로 독립인 두 카이제곱 분포를 따르는 확률 변수 $V_{1}\,\sim \,X^{2}(k_{1}),\, V_{2}\, \sim \, X^{2}(k_{2})$를 각각의 자유도로 나누었을 때 서로의 두 비율 X는 자유도가 $k_{1},\,k_{2}$인 F 분포를 따름

두 집단의 분산의 동일성 검정에 사용

4. 첨도와 왜도

첨도

확률분포의 표족한 정도를 나타내는 측도

점도 = 3 : 정규 분포 형태

기준을 -3을 해서 0으로 보는 경우도 있다.

값이 클수록 뾰족해진다.

왜도

확률분포의 비대칭 정도

0일 때 대칭

왜도 < 0 : 최빈값 > 중앙값 > 평균값

왜도 > 0 : 최빈값 < 중앙값 < 평균값

5. 추정과 가설검정

추정

표본으로부터 모집단을 추측하는 방법

점 추정 : 모집단이 특정한 값

구간 추정 : 모집단이 특정한 신뢰 구간 활용 → 95%, 99% 사용

가설검정

모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서 얻은 정보를 활용해 가설이 옳은지를 판정하는 것

귀무가설 $H_{0}$

일반적으로 생각하는 가설

실험, 연구를 통해 기각하고자 하는 가설

대립가설 $H_{1}$

귀무가설과 반대되는 가설

귀무가설이 틀렸다고 판단되면 채택되는 가설

실험, 연구를 통해 증명하고자 하는 가설

1종 오류, 2종 오류

	$H_{0}$ 채택 & ( H_{1} 기각)	$H_{0}$ 기각 & ( H_{1} 채택)
$H_{0}$ 사실	올바른 결정	제 1종 오류
$H_{0}$ 거짓	제 2종 오류	올바른 결정

가설 검정 절차

1) 귀무가설 / 대립가설 설정

- "차이가 없다", "동일하다" → 귀무가설

- "같지 않다", "크다", "작다" → 대립가설

2) 유의 수준 결정

- 0.01, 0.05, 0.1

3) 귀무가설 기각 or 채택

- p-value < 유의수준 -> 귀무가설 기각, 대립가설 채택

- p-value > 유의수준 -> 귀무가설 채택

모수 검정

표본이 정규성을 갖는다는 모수적 특성을 이용하는 통계 방법

비모수 검정

정규성 검정에서 정규분포를 따르지 않는다고 증명되거나 정규분포임을 가정할 수 없는 경우(작은 경우)

모수의 분포에 대해 어떠한 가정도 하지 않음

모수 검정과 비모수 검정의 차이

모수 검정(parametric test)	비모수 검정(nonparametric test)
등간척도, 비율척도	명목척도, 서열척도
평균	중앙값
피어슨 상관계수	스피어만 순위상관계수

'테크 > Data Analysis' 카테고리의 다른 글

ADsP 3단원 데이터 분석 3장 회귀분석 정리 (0)	2025.02.20
ADsP 3단원 데이터 분석 2장 통계분석2 정리 (0)	2025.02.20
ADsP 3단원 데이터 분석 1장 R과 데이터 마트 정리 (0)	2025.02.16
ADsP 2단원 데이터 분석 기획 2장 분석 마스터플랜 정리 (0)	2025.02.16
ADsP 2단원 데이터 분석 기획 1장 데이터 분석 기획 정리 (1)	2025.02.15

현재글ADsP 3단원 데이터 분석 2장 통계분석1 정리

주린이, 운동, 투자, 식단 계획, 운동 일기, 운동 계획, 일기, 주식, Python, 다이어트, 데이터, 데이터 분석, 식단, 웨이트 트레이닝, 웨이트, ADsP, 헬스, 데이터 사이언스, 자격증, 시험,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28