DIVERSITY IS GOOD
DIVERSITY IS GOOD

테크/Data Analysis

ADsP 3단원 데이터 분석 6장 데이터 마이닝 정리

diversity is good 2025. 2. 21. 02:34
반응형

1. 데이터 마이닝

데이터 마이닝

 

데이터 속에서 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것

 

지도 학습 : 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것

    - 회귀 분석, 의사결정나무, 신경망

비지도 학습 : 정답을 알려주지 않고 학습하는 것

    - 군집 분석, 차원축소, 연관분석

 

데이터 마이닝 프로세스

 

목적 정의

데이터 준비

데이터 가공

데이터 마이닝 기법 적용

검증

 

데이터 분할

 

데이터 마이닝 기법을 적용하기에 앞서 데이터를 훈련용, 검정용 평가용의 세 가지 데이터로 분할

 

과대적합과 과소적합

 

과대적합 : 모델이 지나치게 데이터를 학습하여 매우 복잡해진 모델

과소적합 : 모델이 데이터를 충분히 설명하지 못하는 것

 

 

2. 데이터 분할을 통한 검증

홀드아웃

 

전체 데이터를 랜덤하게 추출해 학습 데이터와 테스트 데이터로 분리하는 방식

 

K-Fold 교차검증(cross-validation)

 

전체 데이터셋을 k개의 집단으로 구분한 뒤 k-1개를 훈련용으로 나머지 1개를 평가용으로 사용

 

LOOCV(Leave-One-Out Cross-Validation)

 

전체 N 값을 N으로 나눠 N-1개를 훈련용 데이터로 나머지 한개를 평가용으로 사용 K-Fold보다 더 느림

 

부트스트랩

 

복원 추출을 활용하여 데이터셋을 생성, 데이터셋 부족, 불균형 문제 해소

 

계층별 K-Fold 교차 검증

 

각 Fold가 갖는 레이블의 분포가 유사하도록 추출해 교차 검증을 실시

 

오버샘플링 & 언더샘플링

 

언더샘플링 : 특정 범주가 많은 데이터를 다른 범주와 균형을 맞추도록 데이터 셋을 축소시키는 것

오버샘플링 : 특정 범주가 적은 데이터를 데이터 셋의 크기를 확장시키는 작업

 

 

 

반응형