반응형
R은 이제 잘 안나오는 추세라고 하니 간단하게 하고 넘어갑니다.
1. R
대입연산자, 비교 연산자, 산술 연산자
정규분포, 표본추출
R 데이터 구조
벡터, 행렬, 배열, 리스트, 데이터 프레임
데이터 전처리
요약변수
파생변수
R에서의 데이터 전처리 패키지
reshape : melt로 데이터를 녹이고 cast로 재구조화
sqldf : sql로 데이터를 다룸
plyt : apply 함수 기반
data.table : table 데이터 구조
2. 데이터 마트
데이터 마트
작은 규모의 데이터 웨어하우스로 사용자가 원하는 방향으로 데이터를 수집, 변형, 적재한 것
3. EDA(탐색적 자료 분석)
EDA
데이터를 이해하고 의미있는 관계를 찾아내기 위해 시각화하고 파악하는 것
결측값
존재하지 않는 데이터
NA, Null, 공백 등으로 표현
결측값 대치 방법
1) 단순 대치법 : 결측값이 존재하는 데이터를 삭제
- complete, cases함수로 결측값 제거
2) 평균 대치법 : 평균 혹은 중앙값으로 결측값을 대치
3) 단순 확률 대치법 : 가까운 값으로 변경
4) 다중 대치법 : 결측값 대치 → 분석 → 결합
이상값
다른 데이터와 비교했을 때 극단적으로 크거나 극단적으로 작은 값
이상값 판단
ESD : 평균으로부터 표준편차 3만큼 떨어진 값들을 이상값으로 인식
사분위수 : Q1 - 1.5 IQR 이하, Q3 + 1.5 IQR 이상을 이상값으로 간주
반응형
'테크 > Data Analysis' 카테고리의 다른 글
ADsP 3단원 데이터 분석 2장 통계분석2 정리 (0) | 2025.02.20 |
---|---|
ADsP 3단원 데이터 분석 2장 통계분석1 정리 (0) | 2025.02.18 |
ADsP 2단원 데이터 분석 기획 2장 분석 마스터플랜 정리 (0) | 2025.02.16 |
ADsP 2단원 데이터 분석 기획 1장 데이터 분석 기획 정리 (1) | 2025.02.15 |
ADsP 1과목 데이터 이해 2장 빅데이터의 이해 정리 (0) | 2025.02.13 |