Loading [MathJax]/jax/output/CommonHTML/jax.js
DIVERSITY IS GOOD
DIVERSITY IS GOOD

테크/Data Analysis

ADsP 3단원 데이터 분석 8장 군집 분석 정리

diversity is good 2025. 2. 22. 03:42
반응형

1. 군집 분석

군집 분석

 

비지도 학습

데이터 사이의 유사성을 측정하고 유사한 자료들끼리 군집을 묶고 다변량 분석을 활용하여 각 군집에 대한 특징을 파악

 

거리 측도

 

연속형

유클리디안 거리 두 점 사이의 거리 d(x,y)=ni=1(xiyi)2
맨하튼 거리 변수들의 차이의 합 d(x,y)=ni=1|xiyi|
체비셰프 거리 변수 간 거리 차이 중 최댓값 d(x,y)=max|xiyi|
표준화 거리 유클리디안 거리를 표준편차고 나눔 d=ni=1(xiμiσi)2
마할라노비스 거리 표준화 거리에서 변수 간 상관성까지 고려 d=(xμ)TS1(xμ)
민코프스키 거리 유클리디안 거리와 맨하튼 거리를 한번에 표현 d=(ni=1|xiyi|p)1p

 

범주형 

단순 일치 계수 두 객체 i와 j 간의 상이성을 불일치 비율로 계산
자카드 지수 두 집합 사이의 유사도를 측정
코사인 유사도 크기가 아닌 방향성을 측정

 

실루엣 계수

 

군집 분석을 평가하는 지표로 응집도와 분리도를 계산하여 같은 군집 간에 가깝고, 다른 군집 간의 먼 정도를 판단

값이 1에 가까울수록 완벽하게 분리되었다고 판단

 

2. 계층적 군집 분석

계층적 군집 분석

 

병합적 방법 : 각 데이터를 하나의 군집으로 간주하고 가까운 데이터부터 순차적으로 병합

분할적 방법 : 전체 데이터를 하나의 군집으로 간주하고 각각의 관측치가 하나의 군집이 될 떄까지 순차적으로 분할

병합적 방법을 주로 사용

가장 유사한 두 데이터를 한 군집으로 묶은 후 새로운 군집과 다른 데이터 간의 거리를 새로 측정해야 함

덴드로그램 : 계층적 군집 분석의 시각화 그래프 

 

거리 측정 방법
단일 연결법(최단 연결법) 군집간의 가장 가까운 데이터
완전 연결법(최장 연결법) 군집간의 가장 먼 데이터
평균 연결법 생성된 군집과 기존 데이터들간의 거리를 군집 내 평균 데이터로 계산
중심 연결법 각 군집의 중심점 사이의 거리를 거리로 정의
와드 연결법 군집 내 오차가 최소가 되는 데이터로 계산

 

k-means 군집

 

비계층적 군집으로 군집의 수를 사전에 설정한 뒤 군집 내 동질성과 집단 간 이질성이 보두 높게 분할

중심점이 변경되면 군집이 변할 수 있음

 

k-medoids

 

이상에 민감한 k-means를 보완

각 클러스터에서 새로운 seed를 추출할 모든 데이터와 거리를 측정해야 하므로 많은 시간이 필요

 

DBSCAN

 

밀도 기반 군집 분석의 한 방법으로 개체들이 밀접한 정도에 기초해 군집을 형성

초기 군집 수를 설정할 필요X

 

 

3. 혼합 분포 군집

혼합 분포 군집

 

여러 개의 확률분포로부터 추출되었다는 가정하에 같은 확률분포에서 추출된 데이터들끼리 군집화

 

EM(Expectation Maximization) 알고리즘

 

확률 모델의 최대가능도를 갖는 모수와 함꼐 그 확률 모델의 가중치를 추정

 

EM 알고리즘 과정

 

E-step

1단계 초기 파라미터 값 임의 설정
2단계 파라미터 값 활용하여 기댓값 계산

 

M-step

3단계 기댓값으로부터 확률분포의 파라미터값 설정
4단계 2단계부터 반복 수행

 

 

4. 자기조직화지도

자기조직화지도

 

코호넨 맵이라고도 불림

인공신경망 기반 차원축소와 군집화를 동시에 수행

은닉층 없이 입력층과 출력층으로 구성

순전파 방식만 사용

모든 데이터는 모든 출력층 노드와 완전 연결되어 있음

 

반응형