DIVERSITY IS GOOD
DIVERSITY IS GOOD

테크/Data Analysis

ADsP 3단원 데이터 분석 1장 R과 데이터 마트 정리

diversity is good 2025. 2. 16. 19:03
반응형

R은 이제 잘 안나오는 추세라고 하니 간단하게 하고 넘어갑니다.

 

1. R

 

대입연산자, 비교 연산자, 산술 연산자

정규분포, 표본추출

 

R 데이터 구조

 

벡터, 행렬, 배열, 리스트, 데이터 프레임

 

데이터 전처리

 

요약변수

파생변수

 

R에서의 데이터 전처리 패키지

 

reshape : melt로 데이터를 녹이고 cast로 재구조화

sqldf : sql로 데이터를 다룸

plyt : apply 함수 기반

data.table : table 데이터 구조

 

 

2. 데이터 마트

 

데이터 마트

 

작은 규모의 데이터 웨어하우스로 사용자가 원하는 방향으로 데이터를 수집, 변형, 적재한 것

 

3. EDA(탐색적 자료 분석)

 

EDA

 

데이터를 이해하고 의미있는 관계를 찾아내기 위해 시각화하고 파악하는 것

 

결측값

 

존재하지 않는 데이터

NA, Null, 공백 등으로 표현

 

결측값 대치 방법

 

1) 단순 대치법 : 결측값이 존재하는 데이터를 삭제

    - complete, cases함수로 결측값 제거

2) 평균 대치법 : 평균 혹은 중앙값으로 결측값을 대치

3) 단순 확률 대치법 : 가까운 값으로 변경

4) 다중 대치법 : 결측값 대치 → 분석 → 결합

 

이상값

 

다른 데이터와 비교했을 때 극단적으로 크거나 극단적으로 작은 값

 

이상값 판단

 

ESD : 평균으로부터 표준편차 3만큼 떨어진 값들을 이상값으로 인식

사분위수 : Q1 - 1.5 IQR 이하, Q3 + 1.5 IQR 이상을 이상값으로 간주

반응형