ADsP 3단원 데이터 분석 6장 데이터 마이닝 정리

테크/Data Analysis

ADsP 3단원 데이터 분석 6장 데이터 마이닝 정리

diversity is good 2025. 2. 21. 02:34

1. 데이터 마이닝

데이터 마이닝

데이터 속에서 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것

지도 학습 : 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것

- 회귀 분석, 의사결정나무, 신경망

비지도 학습 : 정답을 알려주지 않고 학습하는 것

- 군집 분석, 차원축소, 연관분석

데이터 마이닝 프로세스

목적 정의

데이터 준비

데이터 가공

데이터 마이닝 기법 적용

검증

데이터 분할

데이터 마이닝 기법을 적용하기에 앞서 데이터를 훈련용, 검정용 평가용의 세 가지 데이터로 분할

과대적합과 과소적합

과대적합 : 모델이 지나치게 데이터를 학습하여 매우 복잡해진 모델

과소적합 : 모델이 데이터를 충분히 설명하지 못하는 것

2. 데이터 분할을 통한 검증

홀드아웃

전체 데이터를 랜덤하게 추출해 학습 데이터와 테스트 데이터로 분리하는 방식

K-Fold 교차검증(cross-validation)

전체 데이터셋을 k개의 집단으로 구분한 뒤 k-1개를 훈련용으로 나머지 1개를 평가용으로 사용

LOOCV(Leave-One-Out Cross-Validation)

전체 N 값을 N으로 나눠 N-1개를 훈련용 데이터로 나머지 한개를 평가용으로 사용 K-Fold보다 더 느림

부트스트랩

복원 추출을 활용하여 데이터셋을 생성, 데이터셋 부족, 불균형 문제 해소

계층별 K-Fold 교차 검증

각 Fold가 갖는 레이블의 분포가 유사하도록 추출해 교차 검증을 실시

오버샘플링 & 언더샘플링

언더샘플링 : 특정 범주가 많은 데이터를 다른 범주와 균형을 맞추도록 데이터 셋을 축소시키는 것

오버샘플링 : 특정 범주가 적은 데이터를 데이터 셋의 크기를 확장시키는 작업

'테크 > Data Analysis' 카테고리의 다른 글

ADsP 3단원 데이터 분석 8장 군집 분석 정리 (0)	2025.02.22
ADsP 3단원 데이터 분석 7장 분류 분석 정리 (0)	2025.02.21
ADsP 3단원 데이터 분석 5장 시계열 분석 정리 (0)	2025.02.20
ADsP 3단원 데이터 분석 4장 다변량 분석 정리 (0)	2025.02.20
ADsP 3단원 데이터 분석 3장 회귀분석 정리 (0)	2025.02.20

현재글ADsP 3단원 데이터 분석 6장 데이터 마이닝 정리

주린이, 데이터, 투자, 운동 일기, 운동 계획, 데이터 사이언스, 시험, 웨이트, 헬스, 주식, Python, 일기, 식단 계획, 식단, ADsP, 운동, 웨이트 트레이닝, 다이어트, 자격증, 데이터 분석,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30