DIVERSITY IS GOOD
DIVERSITY IS GOOD

테크/Data Analysis

[데이터 분석] EDA의 개념

diversity is good 2024. 8. 14. 00:46

AI를 활용하기 위해서는 우선적으로 데이터와 친밀해지는 것이 매우 좋다. 데이터를 잘 다루기 위해서는 진행 과정에 대해 알 필요성이 있다.

 

 

EDA(Exploratory Data Analysis)는 벨연구소의 수학자인 존 튜키가 개발한 데이터분석에 대한 개념으로, 데이터를 분석하고 결과까지의 과정 중에 어떻게 데이터를 이해하고 활용하는지에 대해서 알려주고 있다.

이 과정중에서 데이터를 이해하고 의미 있는 관계를 찾아내기 위해 데이터의 통계값과 분포 등을 시각화하고 분석하는 방법에 대해서도 알 수 있다.

 

이는 데이터 분석에 있어서 초기 분석 단계이며 데이터를 분석하고 결과를 내는 과정에 있어 가장 기본적인 단계이기 때문에 매우 중요한 단계이다

.

EDA의 필요성

데이터에서 어떠한 insight를 얻기 위해서는 데이터 수집 -> 데이터 전처리 -> EDA라는 과정을 거친다. 이때 잘 정제된 데이터를 통해서 잠재적인 문제를 발견하고, 다양한 데이터 패턴을 발견할 수 있고, 이를 통해 추가적인 자료 수집을 위한 근거를 마련할 수 있다.

EDA의 종류

  1. 시각화 : 차트나 그림을 활용하여 시각적으로 바로 파악이 가능하다. 따라서 데이터를 한눈에 파악하여 직관적인 결론 도출이 가능하다.
  2. 비시각화 :정확한 수치를 활용한 Tabular Data analysis를 진행한다. 따라서 정확한 값의 파악이 가능하여 구체적인 근거를 마련할 수 있다.

EDA의 순서

  1. 전체적인 데이터 분석
  • 데이터가 잘 추출되었는지 여부를 파악
  • 분석의 목적과 목적에 맞는 변수를 파악
  • 데이터의 속성들이 적절한 범위와 분포를 갖는지 파악
  • 아니라면 원인을 파악하고 혹은 그 이상값이 도출해내는 인사이트 파악

 

  1. 데이터의 개별 속성값 관찰
  • 개별 데이터를 관찰하며 전체적인 추세와 특이사항 관찰
  • 적절한 요약통계 지표 사용(평균, 중앙값, 분산 등)

 

  1. 속성 간의 관계 분석
  • 개별 속성값 관찰에서 찾지 못한 속성 간의 패턴 확인
  • 상관계수를 통한 상관관계 확인
  • 그래프를 통해 시각화

 

이를 통해 EDA는 데이터의 개별 속성값을 관찰한 후에 전체적으로 속성 간의 관계를 분석하여 데이터를 이해하는 과정임을 알 수 있다.

반응형