DIVERSITY IS GOOD
DIVERSITY IS GOOD
반응형

ADsP 12

ADsP 3단원 데이터 분석 6장 데이터 마이닝 정리

1. 데이터 마이닝데이터 마이닝 데이터 속에서 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것 지도 학습 : 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것    - 회귀 분석, 의사결정나무, 신경망비지도 학습 : 정답을 알려주지 않고 학습하는 것    - 군집 분석, 차원축소, 연관분석 데이터 마이닝 프로세스 목적 정의데이터 준비데이터 가공데이터 마이닝 기법 적용검증 데이터 분할 데이터 마이닝 기법을 적용하기에 앞서 데이터를 훈련용, 검정용 평가용의 세 가지 데이터로 분할 과대적합과 과소적합 과대적합 : 모델이 지나치게 데이터를 학습하여 매우 복잡해진 모델과소적합 : 모델이 데이터를 충분히 설명하지 못하는 것  2. 데이터 분할을 통한 검증홀드아웃 전체 데이터를 랜덤하게 추출해 학습..

ADsP 3단원 데이터 분석 5장 시계열 분석 정리

1.  시계열 분석시계열 분석 일정 시간 간격으로 기록된 자료들에 대하여 특성을 파악하고 미래를 예측하는 분석시계열은 추세요인, 계절요인, 순환요인, 불규칙 요인 등으로 구성 정상성 모든 시점에 일정한 평균과 분산을 갖는 것시계열 예측에 필수 정상성 확보 방법 차분 : 현 시점의 자료 값에서 이전 시점의 자료 값을 빼는 것분산 크기 일정 : 지수 변환, 로그 변환으로 일정하게 만들어야 함 자기상관계수(ACF : Autocorrelation Function) '시간의 흐름'에 따른 변수 간의 상관관계 변화 부분자기상관계수(PACF : Partial Autocorrelation Function) 자기상관함수는 두 시계열 확률변수 간의 상관관계를 보여주지만, 부분자기상관함수는 두 시계열 확률 변수 간에 다른 ..

ADsP 3단원 데이터 분석 4장 다변량 분석 정리

1. 다차원 척도법 (MDS : MultiDimensional Scaling) 다차원 척도법 객체 간의 근접성을 시각화데이터를 축소하는 목적으로 사용$$Stress = \sqrt{\frac{\sum(실제거리\, - \, 추정거리)^{2}}{\sum(실제거리^{2})}}$$Stress는 0~1의 값을 갖고 0에 가까울수록 적합도가 높음 계량적 MDS : 양적척도 활용비계량적 MDS : 순서척도(서열척도) 활용   2. 주성분 분석 (PCA, Principal Components주성분 분석 상관성 높은 변수들의 선형 결합으로 차원을 축소하여 새로운 변수 생성  스크리 플롯 (Scree plot) x축은 성분의 개수, y축은 분산변화로 설정하여 주성분의 개수를 선택하는데 도움을 준다. 바이 플롯 (Biplot..

ADsP 3단원 데이터 분석 3장 회귀분석 정리

1. 회귀분석회귀분석 독립변수들이 종속 변수에 얼마나 영향을 미치는지 추정 독립변수 : 원인 변수종속변수 : 결과 변수잔차 : 계산값과 예측값의 차이 회귀분석의 종류 단순회귀 : 1개의 독립변수와 종속변수다중회귀 : 2개 이상의 독립변수와 종속변수다항회귀 : 2개이 상의 독립변수와 종속변수가 2차 함수 관계를 이룸릿지회귀 : L2 규제를 포함라쏘회귀 : L1 규제를 포함 선형 회귀 분석의 분산분석표 요인제곱 합자유도제곱평균F회귀SSRkMSR = SSR/k 잔차SSEn-k-1MSE = SSE/(n-k-1) 총SST = SSR + SSEn-1 MSR/MSE$$SSR\, =\, \sum(\acute{Y}-Y)^2, \; SSE\, = \, \sum(Y-\acute{Y})^2$$  회귀 분석의 가정 선형성 : ..

ADsP 3단원 데이터 분석 2장 통계분석2 정리

1. t-검정 일 표본 t-검정 (One sample t-test) 하나의 모집단의 평균(n)값을 특정 값과 비교하는 경우 사용 일 표본 단측 t-검정 모수값이 "~보다 크다" 혹은 "~보다 작다"와 같이 한쪽의 방향성을 갖는 경우 수행 일 표본 양측 t-검정 모수값이 "~이다" 혹은 "~이 아니다"와 같이 방향성이 없는 경우 수행 이(독립) 표본 t-검정(Independent sample t-test) 서로 독립적인 두 개의 집단에 대하여 모수(모평균)의 값이 같은 값을 갖는지 통계적으로 검정하는 방법 이 표본 단측 t-검정 두 집단에 대하여 모수 비교를 할 때 "~이 ~보다 크다" 혹은 "~이 ~보다 작다"와 같이 두 집단 사이에 대소가 있는 경우 수행 이 표본 양측 t-검정 두 집단에 대하여 모수 ..

ADsP 3단원 데이터 분석 2장 통계분석1 정리

1. 통계 개요전수조사, 표본조사 전수조사 : 전체를 다 조사, 시간 & 비용 ↑표본조사 : 표본집단만 선별해 조사 표본 추출 방법 단순 랜덤 추출법 : n개의 데이터를 무작위로 추출계통 추출법 : 모딥단의 원소에 차례대로 번호를 부여한 뒤 일정 간격을 두고 추출집락 추출법(군집 추출법) : 군집은 서로 비슷하고, 군집 내 데이터는 서로 이직적층화 추출법 : 군집이 서로 다르고 군집 내 데이터는 서로 동질적복원 추출, 비복원 추출 척도 질적 척도 : 명목 척도, 순서 척도(서열 척도)양적 척도 : 구간 척도(등간 척도), 비율 척도 기초 통계 평균 = 기댓값중앙값최빈값 : 가장 빈번하게 등장하는 겂분산 : 자료들이 퍼진 정도표준편차 : 분산의 제곱근공분산 : 두 변수의 상관관계$$Conv(X,\,Y)\,..

ADsP 3단원 데이터 분석 1장 R과 데이터 마트 정리

R은 이제 잘 안나오는 추세라고 하니 간단하게 하고 넘어갑니다. 1. R 대입연산자, 비교 연산자, 산술 연산자정규분포, 표본추출 R 데이터 구조 벡터, 행렬, 배열, 리스트, 데이터 프레임 데이터 전처리 요약변수파생변수 R에서의 데이터 전처리 패키지 reshape : melt로 데이터를 녹이고 cast로 재구조화sqldf : sql로 데이터를 다룸plyt : apply 함수 기반data.table : table 데이터 구조  2. 데이터 마트 데이터 마트 작은 규모의 데이터 웨어하우스로 사용자가 원하는 방향으로 데이터를 수집, 변형, 적재한 것 3. EDA(탐색적 자료 분석) EDA 데이터를 이해하고 의미있는 관계를 찾아내기 위해 시각화하고 파악하는 것 결측값 존재하지 않는 데이터NA, Null, 공백..

ADsP 2단원 데이터 분석 기획 2장 분석 마스터플랜 정리

1. 마스터 플랜 수립 분석 마스터 플랜 어떤 하나의 분석 프로젝트를 위한 전체 설계도수립 → 수행 과제 도출 및 우선순위 평가 → 이행 계획 수립 분석 마스터 플랜 수립 프레임 워크우선 순위 고려 요소전략적 중요도비즈니스 성과 / ROI실행 용이성↓적용 우선순위 설정↓적용 범위 / 방식 고려 요소업무 내재화 적용 수준분석 데이터 적용 수준기술 적용 수준 수행 과제 도출 및 우선순위 평가 1) 일반적인 IT 프로젝트 우선 순위 평가    - 전략적 중요도, 실행 용이성을 고려 2) 빅데이터의 특징을 고려한 분석 ROI 요소    - 투자 비용 요소 : 3V (Volume 크기, Variety 다양성, Velocity 속도)    - 비즈니스 효과 : Value 가치 3) 우선 순위 평가 기준    - 난..

ADsP 2단원 데이터 분석 기획 1장 데이터 분석 기획 정리

1. 분석 기획 분석 기획의 정의 실제 분석을 수행하기 전 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 관리하는 방안을 사전에 계획하는 것 분석 주제 분석 대상분석 방법발견XX통찰XO솔루션OX최적화OO 분석 기획 시 고려사항 1) 가용 데이터 고려2) 적절한 활용 방안과 유스케이스의 탐색3) 장애요소에 대한 사전 계획 수립  분석 방법론 주어진 과제를 해결하기 위해 조직이 어떠한 절차로 작업을 수행할 것인지 일련의 절차를 정의 분석 방법론 구성 요소 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물 분석 방법론 모델 폭포수 모델프로토타입 모델나선형 모델계층적 프로세스 모델 KDD 분석 방법론 데이터셋 선택 → 데이터 전처리 → 데이터 변환 → 데이터 마이닝 → 데이터 마이닝 평가 C..

ADsP 1과목 데이터 이해 2장 빅데이터의 이해 정리

1. 빅데이터의 이해 빅데이터의 정의 큰 용량과 복잡성으로 기존 툴로는 다루기 어려운 데이터셋의 집합 빅데이터의 특징 3V + 4V3V : 양(Volume), 유형(Variety), 증가(Velocity)4V : 가치(Value), 정확성(Veracity), 시각화(Visualization), 가변성(Variablility) 빅데이터의 출현 배경 과학기술의 발달과 스마트폰의 보급, 클라우드 환경과 분산 컴퓨팅을 통한 비용 절감, 산업계와 학계의 발전과 변화 빅데이터의 기능 및 기대 비유 21세기 원유, 렌즈, 플랫폼 빅데이터가 만들어내는 변화전후표본조사전수조사사전처리사후처리질양인과관계상관관계 빅데이터 가치 산정이 어려운 이유데이터 활용 방식특정 데이터를 누가, 언제, 어떻게, 어디서 활용하는지 알 수 없..

반응형