반응형
1. 데이터 마이닝
데이터 마이닝
데이터 속에서 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것
지도 학습 : 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것
- 회귀 분석, 의사결정나무, 신경망
비지도 학습 : 정답을 알려주지 않고 학습하는 것
- 군집 분석, 차원축소, 연관분석
데이터 마이닝 프로세스
목적 정의
데이터 준비
데이터 가공
데이터 마이닝 기법 적용
검증
데이터 분할
데이터 마이닝 기법을 적용하기에 앞서 데이터를 훈련용, 검정용 평가용의 세 가지 데이터로 분할
과대적합과 과소적합
과대적합 : 모델이 지나치게 데이터를 학습하여 매우 복잡해진 모델
과소적합 : 모델이 데이터를 충분히 설명하지 못하는 것
2. 데이터 분할을 통한 검증
홀드아웃
전체 데이터를 랜덤하게 추출해 학습 데이터와 테스트 데이터로 분리하는 방식
K-Fold 교차검증(cross-validation)
전체 데이터셋을 k개의 집단으로 구분한 뒤 k-1개를 훈련용으로 나머지 1개를 평가용으로 사용
LOOCV(Leave-One-Out Cross-Validation)
전체 N 값을 N으로 나눠 N-1개를 훈련용 데이터로 나머지 한개를 평가용으로 사용 K-Fold보다 더 느림
부트스트랩
복원 추출을 활용하여 데이터셋을 생성, 데이터셋 부족, 불균형 문제 해소
계층별 K-Fold 교차 검증
각 Fold가 갖는 레이블의 분포가 유사하도록 추출해 교차 검증을 실시
오버샘플링 & 언더샘플링
언더샘플링 : 특정 범주가 많은 데이터를 다른 범주와 균형을 맞추도록 데이터 셋을 축소시키는 것
오버샘플링 : 특정 범주가 적은 데이터를 데이터 셋의 크기를 확장시키는 작업
반응형
'테크 > Data Analysis' 카테고리의 다른 글
ADsP 3단원 데이터 분석 8장 군집 분석 정리 (0) | 2025.02.22 |
---|---|
ADsP 3단원 데이터 분석 7장 분류 분석 정리 (0) | 2025.02.21 |
ADsP 3단원 데이터 분석 5장 시계열 분석 정리 (0) | 2025.02.20 |
ADsP 3단원 데이터 분석 4장 다변량 분석 정리 (0) | 2025.02.20 |
ADsP 3단원 데이터 분석 3장 회귀분석 정리 (0) | 2025.02.20 |