1. 로지스틱 회귀 분석
로지스틱 회귀분석
종속변수가 범주형 변수일 때 독립변수의 선형 결합을 이용해 사건의 발생 가능성을 분류 예측
각 범주에 포함될 확률값을 반환하여 분류한다.
오즈
성공할 확률이 실패할 확률의 몇 배인지
$$Odds\, =\, \frac{성공 확률(P)}{실패 확률(1-P)}$$
오즈는 두가지의 한계가 존재
- 음수를 가질 수 없다
- 확률값과 오즈의 그래프는 비대칭성을 보임
오즈에 의한 로지스틱 회귀분석 추정식
$$ln(\frac{P}{1-P})\, =\, \alpha + \beta_{1}X_{1} + \beta_{2}X_{2}+\cdots + \beta_{k}X_{k}$$
로짓 변환
오즈에 로그값을 취한 것
독립변수X가 n 증가하면 확률이 $e^{n}$만큼 증가
$$log(Odds)\, =\, log(\frac{P}{1-P})$$
확률과 로그값의 그래프는 성공확률 0.5를 기준으로 대칭 형태를 띰
로짓변환에 의한 로지스틱 회귀분석 추정식
시그모이드 함수
로짓함수와 역함수 관계
$$P= \frac{1}{1+e^{-(\beta_{0}+ \beta_{1}X)}}$$
2. 의사결정나무
의사결정나무
자료를 학습하여 특정 분리 기준을 찾아내고 그에 따라 최종 분류 집단을 찾는 방법
종속변수가 연속형인 회귀트리와 종속변수가 이산형인 분류트리로 구분
- 분류 기준
종속 변수 | 분류 기준 | 알고리즘 |
범주형 | 카이제곱 통계량 | CHAID |
범주형 | 지니 지수 $(1-\sum p^{2})$ | CART |
범주형 | 엔트로피 지수 $(-\sum P(log\, P))$ | C4.5 or C5.0 |
연속형 | ANOVA F-통계량 | CHAID |
연속형 | 분산감소량 | CART |
학습 규제
정지규칙 : 분리를 더 이상 수행하지 않고 나무의 성장을 멈춤
가지치기 : 일부 가지를 제거하여 과대 적합을 방지
3. 앙상블 분석
앙상블 분석
모형의 예측력을 높이고자 다수의 모형을 결합해서 새로운 모형을 만듬
보팅(Voting)
다수결로 최종 모델을 선택
배깅(Bagging)
복원추출에 기반을 둔 부트스트랩을 생성하여 모델을 학습 후에 보팅으로 결합
부스팅(Boosting)
이전 모델을 구축한 뒤 다음 모델을 구축할 때 이전 분류기에 의해 잘못 분류된 데이터에 더 큰 가중치를 주어 부트스트랩을 구성
랜덤 포레스트(Random Forest)
배깅에 의사결정나무를 추가하는 방법으로 성능이 좋고 이상치에 강하다
OOB(Out of Bag) Score : 부트스트랩에 의해 올바르게 분류된 비율을 나타낸 값
4. 인공신경망
인공신경망
인간의 뇌를 모방해 만들어진 학습 및 추론 모델
단층 신경망(단일 퍼셉트론) : 입력층 + 출력층
다층 신경망(다층 퍼셉트론) : 입력층 + 은닉층(n개) + 출력층
활성화 함수
인공신경망의 선형성을 극복
시그모이드 함수 : 0~1 사이의 확률값을 가지며, 로지스틱 회귀 분석과 유사
하이퍼볼릭 함수 : 확장된 형태의 시그모이드함수, 중심값은 0, -1~1값을 갖는다
ReLU 함수 : 최근 딥러닝에서 가장 많이 사용되는 삼수, 기울기 소실 문제를 해결, 0 또는 양수를 반환
소프트맥스 함수 : 출력 값이 여러 개로 주어지고 목표 데이터가 다범주인 경우 활용
5. 나이브베이즈 분류
통계학에서 확률은 크게 빈도 혹률과 베이지안 확률로 구분할 수 있다.
베이즈 이론은 확률을 해석하는 이론
베이즈 이론(베이지안 확률)
사전 확률과 우도 확률을 통해 사후 확률을 추정하는 정리
$$P(H|E) = ( \frac{P(E|H)P(H)}{P(E)} )$$
나이브 베이즈 분류 모델
베이즈 정리를 기반으로 한 지도학습 모델
데이터의 모든 특징 변수가 서로 동등하고 독립적이라는 가정 하에 분류를 실행
나이브 베이즈 알고리즘
이진 분류 데이터가 주어졌을 때 베이즈 이론을 통해 범주 a,b가 될 확률을 구하고 더 큰 확률값이 나오는 범주에 데이터를 할당
6. K-NN 알고리즘
K-NN 알고리즘
정답 라벨이 없는 새로운 데이터를 입력 받았을 때 그 데이터로부터 가장 가까이에 있는 데이터의 정담 라벨을 확인하여 새로운 데이터의 정답 라벨을 결정
7. 서포트벡터머신 (SVM : Support Vector Machine)
서포트벡터머신
분류할 때 가장 높은 마진을 가져가는 방향으로 분류
8. 분류 모델 평가
오분류표
예측집단 True | 예측집단 False | |
실제집단 True | TP | FN |
실제집단 False | FP | TN |
T : True → 예측과 실제가 같음
F : False → 예측과 실제가 다름
P : Positive → 예측을 Positive로 함
N : Negative → 예측을 Negative로 함
평가지표
지표 | 계산식 |
정확도 | $$\frac{TP+TN}{ TP+FN+FP+TN }$$ |
정밀도 | $$ \frac{TP}{TP+FP}$$ |
오분류율(Error rate) | $$\frac{FN+FP}{ TP+FN+FP+TN }$$ |
재현율 | $$ \frac{TP}{TP+FN}$$ |
특이도 | $$ \frac{TN}{FP+TN}$$ |
거짓긍정률(FPR : False Positive Rate) | $$1- \frac{TN}{FP+TN} = \frac{FP}{FP+TN}$$ |
F-1 score | $$ \frac{2 \times 정밀도 \times 재현율}{정밀도 + 재현율}$$ |
ROC 커브
가로축을 FPR, 세로축을 TPR로 하는 그래프
RPC커브 아래 면적을 나타내는 AUROC의 값이 1에 가까울수록 모형의 성능이 우수
이익도표
임의로 나눈 각 등급별 반응검출율, 반응률 리프트 등의 정보를 산출한 도표
향상도 곡선
이익도표를 시각화한 곡선
'테크 > Data Analysis' 카테고리의 다른 글
ADsP 3단원 데이터 분석 9장 연관 분석 정리 (0) | 2025.02.22 |
---|---|
ADsP 3단원 데이터 분석 8장 군집 분석 정리 (0) | 2025.02.22 |
ADsP 3단원 데이터 분석 6장 데이터 마이닝 정리 (0) | 2025.02.21 |
ADsP 3단원 데이터 분석 5장 시계열 분석 정리 (0) | 2025.02.20 |
ADsP 3단원 데이터 분석 4장 다변량 분석 정리 (0) | 2025.02.20 |