DIVERSITY IS GOOD
DIVERSITY IS GOOD

테크/Data Analysis

ADsP 3단원 데이터 분석 3장 회귀분석 정리

diversity is good 2025. 2. 20. 06:43
반응형

1. 회귀분석

회귀분석

 

독립변수들이 종속 변수에 얼마나 영향을 미치는지 추정

 

독립변수 : 원인 변수

종속변수 : 결과 변수

잔차 : 계산값과 예측값의 차이

 

회귀분석의 종류

 

단순회귀 : 1개의 독립변수와 종속변수

다중회귀 : 2개 이상의 독립변수와 종속변수

다항회귀 : 2개이 상의 독립변수와 종속변수가 2차 함수 관계를 이룸

릿지회귀 : L2 규제를 포함

라쏘회귀 : L1 규제를 포함

 

선형 회귀 분석의 분산분석표

 

요인 제곱 합 자유도 제곱평균 F
회귀 SSR k MSR = SSR/k  
잔차 SSE n-k-1 MSE = SSE/(n-k-1)  
SST = SSR + SSE n-1   MSR/MSE

$$SSR\, =\, \sum(\acute{Y}-Y)^2, \; SSE\, = \, \sum(Y-\acute{Y})^2$$ 

 

회귀 분석의 가정

 

선형성 : 독립변수와 종속변수가 선형적

독립성 : 잔차와 독립변수의 값이 서로 독립적

등분산성 : 잔차의 분산이 같음

정규성 : 잔차항이 정규분포 형태를 띰

 

회귀 계수 추정 방법

 

최소제곱법 : 잔차의 제곱합이 최소가 되는 회귀계수와 절편을 구하는 것

 

회귀 모형의 통계성 유의성 검증

 

F-value 를 통해 확인

F-value 가 크면 변수간의 유의미한 인과관계가 존재

F-value 가 크면 F-value 가 0 에서 얼마나 가까운지 확률적으로 측정한 값인 P-value가 상대적으로 작아짐

 

회귀계수의 유의성 검증

 

T-value으로 확인

T-value 가 크면 회귀계수도 커지고 회귀계수가 크므로 유의미해짐

 

회귀 모형의 설명력

 

결정계수 $R^{2}$ 을 사용 (0~1)

$$R^{2} = \frac{Q\, -\, Q_{e}}{Q}$$

$$R^{2} = \frac{SSR}{SST}= \frac{1-SSE}{SST} = \frac{1-SSE}{SSE+SSR} = \frac{회귀 모형에 의해 설명되는 변동}{총변동}$$

 

 

2. 단순선형회귀분석

다중선형회귀분석

 

독립변수가 2개 이상, 종속변수가 하나일 때 사용

 

다중공선성

 

회귀분석에서 독립변수 간에 강항 상관관계가 나타나는 문제

분산팽창요인(VIF) > 10 : 다중공선성이 있음

$$분산팽창요인(VIF) =  \frac{1}{1-R^{2}}$$

 

다중공선성 문제 해결법

 

주성분분석(PCA)을 통해 변수의 차원을 축소

선형판별분석(LDA)으로 차원을 축소

t-분포 확률적 임베딩(t-SNE)으로 차원을 축소

특잇값 분해(SVD)를 통해 차원을 축소

 

 

3. 최적 회귀방정식

단계별 선택법

 

전진선택법 : 변수를 하나씩 추가하면서 탐색

후진제거법 : 변수를 하나씩 제거하면서 탐색

 

성능 지표

 

AIC(아카이게 정보 기준) : MSE에 변수 수만큼 패널티를 주는 지표

$$AIC = -2Log\, L(\hat{\theta})\, + \, 2k $$

BIC(베이즈 정보 기준) : AIC가 표본(n)이 커질 때 부정확하다는 단점을 보완

$$AIC = -2Log\, L(\hat{\theta})\, + \, k\, log(n) $$

 

 

4. 고급 회귀분석

정규화 선형회귀

 

회귀분석에서 과적합되면 계수의 크기도 과도하게 증가하는 경향이있기 때문에 이를 방지하기 위해 계수의 크기를 제한

 

라쏘 회귀

 

L1 규제 : 가중치들의 절댓값의 합을 최소화하는 것을 제약조건으로 추가

 

릿지 회귀

 

L2 규제 : 가중치들의 제곱합을 최소화하는 것을 제약조건으로 추가

 

일반화 선형회귀(GRM, Generalized Linear Regression)

 

종속 변수를 적절한 함수로 정의한 다음 이 함수와 독립변수를 선형 결합

확률 요소, 선형 예측자, 연결함수로 이루어짐

로지스틱 회귀, 포아송 회귀가 있다

 

로지스틱 회귀

 

종속 변수가 범주형인 경우

 

포아송 회귀

 

종속 변수가 특정 시간 동안 발생한 사건으 ㅣ건수에 대한 도수 자료인 경우이면서 종속 변수가 정규분포를 따르지 않거나 등분산성을 만족하지 못하는 경우

반응형