Processing math: 100%
DIVERSITY IS GOOD
DIVERSITY IS GOOD
반응형

테크/Data Analysis 21

탐색적 데이터 분석(EDA) 한눈에 끝내기: 인사이트를 여는 첫 관문

왜 ‘탐색적 데이터 분석(EDA)’이 중요한가? 분석 프로젝트를 시작할 때, EDA는 ‘지도 없이 떠나는 여행’에 나침반을 쥐어주는 과정과도 같습니다. 데이터의 분포, 이상치, 변수 간 관계를 모른 채 모델링에 돌입하면, 잘못된 가정으로 인해 결과가 왜곡될 수 있습니다. EDA는 통계·시각화·도메인 지식을 접목하여 데이터의 본질을 직관적으로 이해하도록 돕으며, 이후 분석 방향·모델 선택·피처 엔지니어링 전략에 결정적 힌트를 제공합니다.기술적 기반: 통계 기초(평균·분산·분포), 시각화 라이브러리(Matplotlib, Seaborn, Plotly), 상관 분석(Pearson·Spearman), 차원 축소(PCA) 등 기초 ▶ 응용, 예시로 쉽게 이해하기 1. 데이터의 특성과 분포 파악하기 기법 목적 Py..

데이터 수집 · 전처리 : 깨끗한 데이터의 시작

왜 ‘데이터 수집과 전처리’가 중요한가? “분석 시간의 80%는 전처리에 쓰인다”는 말은 일반적으로 통용됩니다. 잘못 수집된 데이터, 혹은 정제되지 않은 데이터는 멋진 모델도 한순간에 무력화합니다. 데이터 수집·전처리는 분석·머신러닝 파이프라인의 토대이며, 이 단계에서 품질이 결정됩니다.또한 API, 크롤러, ETL 파이프라인 등 기술 스택을 이해해야 ‘재현 가능한 데이터 파이프라인’을 구축할 수 있습니다. 기초 ▶ 응용, 예시로 쉽게 이해하기 1. 데이터 수집 방법 총정리수집 방식 주요 도구/라이브러리 한 줄 팁APIrequests, httpxREST API 문서의 Rate Limit 확인 필수웹 크롤링BeautifulSoup, Selenium동적 페이지는 Selenium, 정적은 BS4로 속도 ↑D..

분석의 첫 단추, 문제 정의와 가설 설정 완전 정복

왜 ‘분석 문제 정의·가설 설정’이 중요한가? 데이터 분석은 결국 “무엇이 문제인가?” 를 정확히 짚어내는 순간부터 시작됩니다. 문제 정의가 흐릿하면 분석은 방향을 잃고, 잘못 세운 가설은 시간을 낭비하게 합니다. 반대로 명확한 문제 정의와 검증 가능한 가설은 분석 속도를 높이고, 인사이트의 질을 극대화 합니다. 이는 통계·실험 설계·비즈니스 도메인 이해가 결합된 기술적 토대 위에서 이루어집니다. 기초 ▶ 응용으로 쉽게 이해하기 1. 비즈니스 문제와 분석 문제 분리·정의하기 단계 질문 예시비즈니스 문제“월 매출이 줄어드는 원인이 무엇인가?”이커머스 3월 매출이 전년 동월 대비 12% 감소분석 문제“어떤 고객 세그먼트가 구매 빈도·AOV가 감소했는가?”VIP 등급 고객의 방문·결제 전환률 추세 분석TIP:..

데이터 분석의 첫걸음, 명확하게 이해하고 시작하기

왜 데이터 분석이 사용되고 기반이 되는 기술적 이해는 무엇인가? 현대 사회에서 데이터 분석은 기업과 조직의 경쟁력을 높이기 위한 필수적인 요소가 되었습니다. 다양한 산업 분야에서 수많은 데이터가 생산되면서, 데이터를 정확히 분석하고 이를 통해 인사이트를 얻는 능력이 매우 중요해졌습니다. 데이터 분석은 비즈니스 성과 개선, 고객 경험 향상, 리스크 관리 등에 폭넓게 활용됩니다. 이러한 데이터 분석을 효과적으로 수행하기 위해서는 기초적인 기술과 환경에 대한 이해가 필수적입니다. 데이터 분석의 기초와 기술적 준비 1. 데이터 분석이란 무엇인가?데이터 분석은 수집된 데이터에서 유의미한 패턴과 정보를 찾아 비즈니스 의사결정을 돕는 과정입니다. 이 과정은 데이터 수집, 정제, 변형, 모델링, 시각화 등 다양한 작업..

ADsP 3단원 데이터 분석 9장 연관 분석 정리

1. 연관분석의 개요 및 측도연관 분석 조건과 결과로 이루어진 패턴을 분석조건에 따른 결과의 형태로 해석 (IF~ THEN~)품목의 수가 증가하면 분석 계산이 기하급수적으로 증가 측도지지도두 개의 품목이 동시에 포함된 거래의 비율P(AB)=N(AB)(AB)신뢰도어떤 하나의 품목이 구매되었을 때 다른 품목이 구매될 확률P(B|A)=P(AB)P(A)P(A|B)=P(AB)P(B)향상도품목 A가 주어지지 않았을 때 품목 B가 구매될 확률 대비 A가 구매될 때 B가 구매될 확률(AB)=(AB)P(B)..

ADsP 3단원 데이터 분석 8장 군집 분석 정리

1. 군집 분석군집 분석 비지도 학습데이터 사이의 유사성을 측정하고 유사한 자료들끼리 군집을 묶고 다변량 분석을 활용하여 각 군집에 대한 특징을 파악 거리 측도 연속형유클리디안 거리두 점 사이의 거리d(x,y)=ni=1(xiyi)2맨하튼 거리변수들의 차이의 합d(x,y)=ni=1|xiyi|체비셰프 거리변수 간 거리 차이 중 최댓값d(x,y)=max|xiyi|표준화 거리유클리디안 거리를 표준편차고 나눔$d = \sqrt{\sum_{i=1}^{n} \left(\frac{x_i - \mu_i}{\sigma_i}\right)^2}..

ADsP 3단원 데이터 분석 7장 분류 분석 정리

1. 로지스틱 회귀 분석로지스틱 회귀분석  종속변수가 범주형 변수일 때 독립변수의 선형 결합을 이용해 사건의 발생 가능성을 분류 예측각 범주에 포함될 확률값을 반환하여 분류한다. 오즈 성공할 확률이 실패할 확률의 몇 배인지Odds=(P)(1P)오즈는 두가지의 한계가 존재    - 음수를 가질 수 없다    - 확률값과 오즈의 그래프는 비대칭성을 보임 오즈에 의한 로지스틱 회귀분석 추정식 ln(P1P)=α+β1X1+β2X2++βkXk 로짓 변환 오즈에 로그값을 취한 것독립변수X가 n 증가하면 확률이 en만큼 증가$$log(O..

ADsP 3단원 데이터 분석 6장 데이터 마이닝 정리

1. 데이터 마이닝데이터 마이닝 데이터 속에서 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것 지도 학습 : 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것    - 회귀 분석, 의사결정나무, 신경망비지도 학습 : 정답을 알려주지 않고 학습하는 것    - 군집 분석, 차원축소, 연관분석 데이터 마이닝 프로세스 목적 정의데이터 준비데이터 가공데이터 마이닝 기법 적용검증 데이터 분할 데이터 마이닝 기법을 적용하기에 앞서 데이터를 훈련용, 검정용 평가용의 세 가지 데이터로 분할 과대적합과 과소적합 과대적합 : 모델이 지나치게 데이터를 학습하여 매우 복잡해진 모델과소적합 : 모델이 데이터를 충분히 설명하지 못하는 것  2. 데이터 분할을 통한 검증홀드아웃 전체 데이터를 랜덤하게 추출해 학습..

ADsP 3단원 데이터 분석 5장 시계열 분석 정리

1.  시계열 분석시계열 분석 일정 시간 간격으로 기록된 자료들에 대하여 특성을 파악하고 미래를 예측하는 분석시계열은 추세요인, 계절요인, 순환요인, 불규칙 요인 등으로 구성 정상성 모든 시점에 일정한 평균과 분산을 갖는 것시계열 예측에 필수 정상성 확보 방법 차분 : 현 시점의 자료 값에서 이전 시점의 자료 값을 빼는 것분산 크기 일정 : 지수 변환, 로그 변환으로 일정하게 만들어야 함 자기상관계수(ACF : Autocorrelation Function) '시간의 흐름'에 따른 변수 간의 상관관계 변화 부분자기상관계수(PACF : Partial Autocorrelation Function) 자기상관함수는 두 시계열 확률변수 간의 상관관계를 보여주지만, 부분자기상관함수는 두 시계열 확률 변수 간에 다른 ..

ADsP 3단원 데이터 분석 4장 다변량 분석 정리

1. 다차원 척도법 (MDS : MultiDimensional Scaling) 다차원 척도법 객체 간의 근접성을 시각화데이터를 축소하는 목적으로 사용Stress=()2(2)Stress는 0~1의 값을 갖고 0에 가까울수록 적합도가 높음 계량적 MDS : 양적척도 활용비계량적 MDS : 순서척도(서열척도) 활용   2. 주성분 분석 (PCA, Principal Components주성분 분석 상관성 높은 변수들의 선형 결합으로 차원을 축소하여 새로운 변수 생성  스크리 플롯 (Scree plot) x축은 성분의 개수, y축은 분산변화로 설정하여 주성분의 개수를 선택하는데 도움을 준다. 바이 플롯 (Biplot..

반응형