DIVERSITY IS GOOD
DIVERSITY IS GOOD

테크/Data Analysis

ADsP 3단원 데이터 분석 7장 분류 분석 정리

diversity is good 2025. 2. 21. 21:02
반응형

1. 로지스틱 회귀 분석

로지스틱 회귀분석 

 

종속변수가 범주형 변수일 때 독립변수의 선형 결합을 이용해 사건의 발생 가능성을 분류 예측

각 범주에 포함될 확률값을 반환하여 분류한다.

 

오즈

 

성공할 확률이 실패할 확률의 몇 배인지

$$Odds\, =\, \frac{성공 확률(P)}{실패 확률(1-P)}$$

오즈는 두가지의 한계가 존재

    - 음수를 가질 수 없다

    - 확률값과 오즈의 그래프는 비대칭성을 보임

 

오즈에 의한 로지스틱 회귀분석 추정식

 

$$ln(\frac{P}{1-P})\, =\, \alpha + \beta_{1}X_{1} + \beta_{2}X_{2}+\cdots  + \beta_{k}X_{k}$$

 

로짓 변환

 

오즈에 로그값을 취한 것

독립변수X가 n 증가하면 확률이 $e^{n}$만큼 증가

$$log(Odds)\, =\, log(\frac{P}{1-P})$$

확률과 로그값의 그래프는 성공확률 0.5를 기준으로 대칭 형태를 띰

 

로짓변환에 의한 로지스틱 회귀분석 추정식

 

시그모이드 함수

 

로짓함수와 역함수 관계

$$P= \frac{1}{1+e^{-(\beta_{0}+ \beta_{1}X)}}$$

 

 

2. 의사결정나무

의사결정나무

 

자료를 학습하여 특정 분리 기준을 찾아내고 그에 따라 최종 분류 집단을 찾는 방법

종속변수가 연속형인 회귀트리와 종속변수가 이산형인 분류트리로 구분

 

    - 분류 기준

종속 변수 분류 기준 알고리즘
범주형 카이제곱 통계량 CHAID
범주형 지니 지수 $(1-\sum p^{2})$ CART
범주형 엔트로피 지수 $(-\sum P(log\, P))$ C4.5  or  C5.0
연속형 ANOVA F-통계량 CHAID
연속형 분산감소량 CART

 

학습 규제

 

정지규칙 : 분리를 더 이상 수행하지 않고 나무의 성장을 멈춤

가지치기 : 일부 가지를 제거하여 과대 적합을 방지

 

 

3. 앙상블 분석

앙상블 분석

 

모형의 예측력을 높이고자 다수의 모형을 결합해서 새로운 모형을 만듬

 

보팅(Voting)

 

다수결로 최종 모델을 선택

 

배깅(Bagging)

 

복원추출에 기반을 둔 부트스트랩을 생성하여 모델을 학습 후에 보팅으로 결합

 

부스팅(Boosting)

 

이전 모델을 구축한 뒤 다음 모델을 구축할 때 이전 분류기에 의해 잘못 분류된 데이터에 더 큰 가중치를 주어 부트스트랩을 구성

 

랜덤 포레스트(Random Forest)

 

배깅에 의사결정나무를 추가하는 방법으로 성능이 좋고 이상치에 강하다

OOB(Out of Bag) Score : 부트스트랩에 의해 올바르게 분류된 비율을 나타낸 값

 

 

4. 인공신경망

 인공신경망

 

인간의 뇌를 모방해 만들어진 학습 및 추론 모델

단층 신경망(단일 퍼셉트론) : 입력층 + 출력층

다층 신경망(다층 퍼셉트론) : 입력층 + 은닉층(n개) + 출력층

 

활성화 함수

 

인공신경망의 선형성을 극복

시그모이드 함수 : 0~1 사이의 확률값을 가지며, 로지스틱 회귀 분석과 유사

하이퍼볼릭 함수 : 확장된 형태의 시그모이드함수, 중심값은 0, -1~1값을 갖는다

ReLU 함수 : 최근 딥러닝에서 가장 많이 사용되는 삼수, 기울기 소실 문제를 해결, 0 또는 양수를 반환

소프트맥스 함수 : 출력 값이 여러 개로 주어지고 목표 데이터가 다범주인 경우 활용

 

 

5. 나이브베이즈 분류

 

통계학에서 확률은 크게 빈도 혹률과 베이지안 확률로 구분할 수 있다.

베이즈 이론은 확률을 해석하는 이론

 

베이즈 이론(베이지안 확률)

 

사전 확률과 우도 확률을 통해 사후 확률을 추정하는 정리

 

$$P(H|E) = ( \frac{P(E|H)P(H)}{P(E)} )$$

 

나이브 베이즈 분류 모델

 

베이즈 정리를 기반으로 한 지도학습 모델

데이터의 모든 특징 변수가 서로 동등하고 독립적이라는 가정 하에 분류를 실행

 

나이브 베이즈 알고리즘

 

이진 분류 데이터가 주어졌을 때 베이즈 이론을 통해 범주 a,b가 될 확률을 구하고 더 큰 확률값이 나오는 범주에 데이터를 할당

 

 

6. K-NN 알고리즘

K-NN 알고리즘

 

정답 라벨이 없는 새로운 데이터를 입력 받았을 때 그 데이터로부터 가장 가까이에 있는 데이터의 정담 라벨을 확인하여 새로운 데이터의 정답 라벨을 결정

 

 

7. 서포트벡터머신 (SVM : Support Vector Machine)

서포트벡터머신

 

분류할 때 가장 높은 마진을 가져가는 방향으로 분류

 

 

8. 분류 모델 평가

오분류표

 

  예측집단 True 예측집단 False
실제집단 True TP FN
실제집단 False FP TN

 

T : True → 예측과 실제가 같음

F : False → 예측과 실제가 다름 

P : Positive → 예측을 Positive로 함

N : Negative → 예측을 Negative로 함

 

평가지표

 

지표 계산식
정확도 $$\frac{TP+TN}{ TP+FN+FP+TN }$$
정밀도 $$ \frac{TP}{TP+FP}$$
오분류율(Error rate) $$\frac{FN+FP}{ TP+FN+FP+TN }$$
재현율 $$ \frac{TP}{TP+FN}$$
특이도 $$ \frac{TN}{FP+TN}$$
거짓긍정률(FPR : False Positive Rate) $$1- \frac{TN}{FP+TN} = \frac{FP}{FP+TN}$$
F-1 score $$ \frac{2 \times 정밀도 \times 재현율}{정밀도 + 재현율}$$

 

ROC 커브 

 

가로축을 FPR, 세로축을 TPR로 하는 그래프

RPC커브 아래 면적을 나타내는 AUROC의 값이 1에 가까울수록 모형의 성능이 우수

 

이익도표

 

임의로 나눈 각 등급별 반응검출율, 반응률 리프트 등의 정보를 산출한 도표

 

향상도 곡선

 

이익도표를 시각화한 곡선

반응형