DIVERSITY IS GOOD
DIVERSITY IS GOOD
반응형

테크 40

탐색적 데이터 분석(EDA) 한눈에 끝내기: 인사이트를 여는 첫 관문

왜 ‘탐색적 데이터 분석(EDA)’이 중요한가? 분석 프로젝트를 시작할 때, EDA는 ‘지도 없이 떠나는 여행’에 나침반을 쥐어주는 과정과도 같습니다. 데이터의 분포, 이상치, 변수 간 관계를 모른 채 모델링에 돌입하면, 잘못된 가정으로 인해 결과가 왜곡될 수 있습니다. EDA는 통계·시각화·도메인 지식을 접목하여 데이터의 본질을 직관적으로 이해하도록 돕으며, 이후 분석 방향·모델 선택·피처 엔지니어링 전략에 결정적 힌트를 제공합니다.기술적 기반: 통계 기초(평균·분산·분포), 시각화 라이브러리(Matplotlib, Seaborn, Plotly), 상관 분석(Pearson·Spearman), 차원 축소(PCA) 등 기초 ▶ 응용, 예시로 쉽게 이해하기 1. 데이터의 특성과 분포 파악하기 기법 목적 Py..

데이터 수집 · 전처리 : 깨끗한 데이터의 시작

왜 ‘데이터 수집과 전처리’가 중요한가? “분석 시간의 80%는 전처리에 쓰인다”는 말은 일반적으로 통용됩니다. 잘못 수집된 데이터, 혹은 정제되지 않은 데이터는 멋진 모델도 한순간에 무력화합니다. 데이터 수집·전처리는 분석·머신러닝 파이프라인의 토대이며, 이 단계에서 품질이 결정됩니다.또한 API, 크롤러, ETL 파이프라인 등 기술 스택을 이해해야 ‘재현 가능한 데이터 파이프라인’을 구축할 수 있습니다. 기초 ▶ 응용, 예시로 쉽게 이해하기 1. 데이터 수집 방법 총정리수집 방식 주요 도구/라이브러리 한 줄 팁APIrequests, httpxREST API 문서의 Rate Limit 확인 필수웹 크롤링BeautifulSoup, Selenium동적 페이지는 Selenium, 정적은 BS4로 속도 ↑D..

분석의 첫 단추, 문제 정의와 가설 설정 완전 정복

왜 ‘분석 문제 정의·가설 설정’이 중요한가? 데이터 분석은 결국 “무엇이 문제인가?” 를 정확히 짚어내는 순간부터 시작됩니다. 문제 정의가 흐릿하면 분석은 방향을 잃고, 잘못 세운 가설은 시간을 낭비하게 합니다. 반대로 명확한 문제 정의와 검증 가능한 가설은 분석 속도를 높이고, 인사이트의 질을 극대화 합니다. 이는 통계·실험 설계·비즈니스 도메인 이해가 결합된 기술적 토대 위에서 이루어집니다. 기초 ▶ 응용으로 쉽게 이해하기 1. 비즈니스 문제와 분석 문제 분리·정의하기 단계 질문 예시비즈니스 문제“월 매출이 줄어드는 원인이 무엇인가?”이커머스 3월 매출이 전년 동월 대비 12% 감소분석 문제“어떤 고객 세그먼트가 구매 빈도·AOV가 감소했는가?”VIP 등급 고객의 방문·결제 전환률 추세 분석TIP:..

데이터 분석의 첫걸음, 명확하게 이해하고 시작하기

왜 데이터 분석이 사용되고 기반이 되는 기술적 이해는 무엇인가? 현대 사회에서 데이터 분석은 기업과 조직의 경쟁력을 높이기 위한 필수적인 요소가 되었습니다. 다양한 산업 분야에서 수많은 데이터가 생산되면서, 데이터를 정확히 분석하고 이를 통해 인사이트를 얻는 능력이 매우 중요해졌습니다. 데이터 분석은 비즈니스 성과 개선, 고객 경험 향상, 리스크 관리 등에 폭넓게 활용됩니다. 이러한 데이터 분석을 효과적으로 수행하기 위해서는 기초적인 기술과 환경에 대한 이해가 필수적입니다. 데이터 분석의 기초와 기술적 준비 1. 데이터 분석이란 무엇인가?데이터 분석은 수집된 데이터에서 유의미한 패턴과 정보를 찾아 비즈니스 의사결정을 돕는 과정입니다. 이 과정은 데이터 수집, 정제, 변형, 모델링, 시각화 등 다양한 작업..

SQL에서 Window 함수란? – 실무에서 꼭 필요한 핵심 함수들

✅ 왜 Window 함수가 필요한가요?SQL은 데이터 분석, 집계, 정렬에 매우 강력한 도구입니다. 그러나 기존의 집계 함수(SUM, AVG, COUNT 등)는 하나의 그룹 단위로만 결과를 반환하기 때문에, 원본 행과 함께 누적합, 순위, 이동평균 등의 정보를 동시에 보고자 할 경우 제약이 존재합니다.이러한 상황에서 Window 함수(Window Function)는 같은 결과 집합 내에서 원본 행은 그대로 유지하면서, 그 위에 추가적인 계산 값을 제공할 수 있어 데이터 분석에 매우 효과적입니다.💡 핵심 기술 개념:OVER 절을 기반으로 특정 "윈도우 범위" 내에서의 연산 수행서브쿼리나 조인 없이 행 단위 연산과 그룹 단위 연산의 절묘한 조화PostgreSQL, MySQL 8.0 이상, BigQuery,..

테크/MySQL 2025.04.18

서브쿼리의 진화, CTE(Common Table Expression) 완전 정리!

CTE(Common Table Expression)는 SQL에서 쿼리의 가독성을 높이고 복잡한 쿼리를 구조적으로 작성할 수 있도록 도와주는 기능입니다. 특히 재귀적 쿼리나 여러 단계로 나뉘어진 연산이 필요한 경우 유용하게 사용됩니다.✅ 왜 CTE가 필요한가?SQL을 사용하다 보면, 서브쿼리(subquery)가 중첩되거나 동일한 쿼리를 반복 작성해야 하는 상황이 자주 발생합니다.이럴 때 코드의 가독성은 떨어지고 유지보수가 어려워지게 됩니다.CTE는 이러한 문제를 해결하고자 도입된 기능으로, 쿼리 내에서 임시 결과 테이블을 정의하고, 이후 쿼리에서 그 테이블을 사용하는 방식입니다.💡 주요 기술적 기반:SQL 표준 (특히 WITH 구문 사용)임시 테이블과 유사하나 메모리 상에서만 존재함뷰(view)와 비슷하..

테크/MySQL 2025.04.18

[MySQL] root 비밀번호 잊어버렸을 때 초기화 방법

우선 서비스에 들어가서 현재 가동되어 있는 mysql의 이름을 확인해야 합니다.mysql로 되어 있을 수도 있고 저처럼 mysql80으로 되어 있을 수도 있습니다.서비스에서 중단할 수도 있습니다.하지만 시작하려면 프롬프트에서 해야 해서 프롬프트에서 진행하였습니다1. net stop mysql이 명령어는 MySQL 서비스를 중지합니다. MySQL을 중지하는 이유는 초기화 작업이나 설정 변경을 위해 안전하게 MySQL 인스턴스를 종료해야 하기 때문입니다.2. mysqld --initialize --console이 명령어는 MySQL 데이터 디렉터리를 초기화합니다. 초기화 작업은 다음의 경우에 필요할 수 있습니다:새로운 MySQL 서버를 설치했을 때데이터베이스를 완전히 재설치하거나 복구할 때root 계정의 암..

테크/MySQL 2025.02.25

ADsP 3단원 데이터 분석 9장 연관 분석 정리

1. 연관분석의 개요 및 측도연관 분석 조건과 결과로 이루어진 패턴을 분석조건에 따른 결과의 형태로 해석 (IF~ THEN~)품목의 수가 증가하면 분석 계산이 기하급수적으로 증가 측도지지도두 개의 품목이 동시에 포함된 거래의 비율$$P(A\cap B)=\frac{N(A\cap B )(A와\, B가\, 동시에\, 포함된\, 거래\, 수)}{전체\, 거래수}$$신뢰도어떤 하나의 품목이 구매되었을 때 다른 품목이 구매될 확률$$P(B|A) = \frac{P(A\cap B)}{P(A)}$$$$P(A|B) = \frac{P(A\cap B)}{P(B)}$$향상도품목 A가 주어지지 않았을 때 품목 B가 구매될 확률 대비 A가 구매될 때 B가 구매될 확률$$향상도(A→B) = \frac{신뢰도(A→B)}{P(B)}$$..

ADsP 3단원 데이터 분석 8장 군집 분석 정리

1. 군집 분석군집 분석 비지도 학습데이터 사이의 유사성을 측정하고 유사한 자료들끼리 군집을 묶고 다변량 분석을 활용하여 각 군집에 대한 특징을 파악 거리 측도 연속형유클리디안 거리두 점 사이의 거리$d(x,\, y) = \sqrt{\sum_{i=1}^{n} (x_{i}-y_{i})^2}$맨하튼 거리변수들의 차이의 합$d(x, y) = \sum_{i=1}^{n} \left | x_{i}-y_{i} \right | $체비셰프 거리변수 간 거리 차이 중 최댓값$d(x,\, y) = max \left | x_{i}-y_{i} \right | $표준화 거리유클리디안 거리를 표준편차고 나눔$d = \sqrt{\sum_{i=1}^{n} \left(\frac{x_i - \mu_i}{\sigma_i}\right)^2}..

ADsP 3단원 데이터 분석 7장 분류 분석 정리

1. 로지스틱 회귀 분석로지스틱 회귀분석  종속변수가 범주형 변수일 때 독립변수의 선형 결합을 이용해 사건의 발생 가능성을 분류 예측각 범주에 포함될 확률값을 반환하여 분류한다. 오즈 성공할 확률이 실패할 확률의 몇 배인지$$Odds\, =\, \frac{성공 확률(P)}{실패 확률(1-P)}$$오즈는 두가지의 한계가 존재    - 음수를 가질 수 없다    - 확률값과 오즈의 그래프는 비대칭성을 보임 오즈에 의한 로지스틱 회귀분석 추정식 $$ln(\frac{P}{1-P})\, =\, \alpha + \beta_{1}X_{1} + \beta_{2}X_{2}+\cdots  + \beta_{k}X_{k}$$ 로짓 변환 오즈에 로그값을 취한 것독립변수X가 n 증가하면 확률이 $e^{n}$만큼 증가$$log(O..

반응형