728x90
반응형
SMALL
데이터 탐색
1. 데이터 탐색 기초
1.1 EDA (Exploratory Data Analysis, 탐색적 자료 분석)
- EDA는 데이터의 숨겨진 의미를 찾기 위해 통계적 방법과 시각화를 활용하는 탐색적 분석 기법
- EDA의 4대 주제
- 저항성의 강조
- 잔차 계산
- 자료변수의 재표현
- 그래프를 통한 현시성
2. 상관관계 분석
| 구분 | 설명 | 활용 상황 |
| 피어슨 상관분석 | 연속형 수치형 변수 간의 선형 관계 측정 | 키-몸무게, 공부시간-점수 |
| 스피어만 상관분석 | 서열/순서형 변수의 상관성, 비선형도 가능 | 등수-만족도 등 서열형 자료 |
💡 상관계수 r
- +1: 완전 양의 상관
- 0: 무상관
- –1: 완전 음의 상관

3. 기초 통계량 이해
| 지표 | 설명 |
| 평균 | 값들의 총합 ÷ 개수 |
| 중앙값 | 정렬했을 때 중앙에 있는 값 |
| 최빈값 | 가장 자주 등장한 값 |
| 분산 | 값들이 평균에서 얼마나 떨어져 있는가 |
| 표준편차 | 분산의 제곱근 |
| 공분산 | 두 변수의 변화 방향성 |
| 상관계수 | 공분산을 정규화한 값 (-1 ~ 1) |
📌 기댓값 & 분산 계산 예시
서로 독립인 X, Y가 각각 정규분포 N(20, 2^2)와 N(27, 1^2)을 따른다고 할 때, 확률변수 Z = 5X–7Y+15일 경우의 Z의 기댓값과 분산의 계산
1) Z의 기댓값
: E(Z) = E(5X - 7Y + 15) = 5 * 20 - 7 * 27 + 15 = -74
2) Z의 분산
: V(Z) = V(5X - 7Y + 15) = V(5X - 7Y) = 25 * V(X) + 49 * V(Y) = 25 * 2^2 +49 * 1^2 = 149
(상수는 분산에 영향 없음)
4. 첨도와 왜도
4.1 첨도 (Kurtosis)
- 분포의 뾰족함
- 정규분포는 0 또는 3 (기준에 따라 다름)

4.2 왜도 (Skewness)
- 분포의 비대칭 정도
- 왜도 > 0: 오른쪽 꼬리
- 왜도 < 0: 왼쪽 꼬리
⮕ 평균은 꼬리를 따라간다!

5. Summary 함수 결과 해석
| Age | Survived |
||
| Min | 0.17 | 0 | 266 |
| 1st Qu. | 21.00 | 1 | 152 |
| Median | 27.00 | ||
| Mean | 30.27 | ||
| 3rd Qu. | 39.00 | ||
| Max | 76.00 | ||
| Na's | 86 | ||
- Age 변수
- Mean, Median 등 존제 -> 수치형 변수
- 25% 지점: 21.00, 75% 지점: 39.00
- Median < Mean -> 왜도 > 0
- 결측치(Na's) 개수 : 86개
- Survived 변수
- 집단의 변도 수 -> 범주형 변수
- 범주 0과 1이 클래스 불균형 상태
- 0을 다운샘플링 하거나, 1을 오버샘플링
6. 시각적 데이터 탐색
6.1 히스토그램 (Histogram)
- 데이터를 구간별로 나눠 막대그래프로 나타낸 분포도
- 단변량 데이터의 분포 형태 파악
- 분포, 왜도, 첨도, 이상값 탐지
- 예: 점수 분포, 매출 금액 분포

6.2 박스플롯 (Boxplot)
- 중앙값, 사분위수, 이상값 등을 표시하는 그래프
- 이상값 탐지, 범위 비교
- 요약 정보 제공, 이상치 시각화
- 예: 부서별 급여 분포 비교

6.3 산점도 (Scatter Plot)
- 두 변수 간의 관계를 점으로 표현
- 상관관계, 군집 여부 시각화
- 관계 방향성, 이상 데이터 확인
- 예: 공부시간-점수, 키-몸무게

6.4 페어플롯 (Pair Plot)
- 여러 변수들의 산점도와 히스토그램을 동시에 표시
- 다변량 관계성 탐색
- 변수 간 전반적 관계 확인
- 예: 변수 간 연관성 확인

6.5 히트맵 (Heatmap)
- 상관계수 등 수치형 정보를 색상으로 표현
- 상관계수 시각화
- 한눈에 관계 파악 가능
- 예: 변수 간 상관 분석

6.6 시계열 그래프 (Time Series Plot)
- 시간 흐름에 따른 데이터 변화 표시
- 추세, 계절성, 주기성 탐색
- 흐름과 변동 포팍
- 예: 주식, 기온, 방문자수 변화

6.7 바이올린 플롯 (Violin Plot)
- 박스플롯 + KDE를 합친 형태
- 분포 + 밀도 파악
- 대칭성/비대칭성 시각화
- 예: 카테고리별 분포 비교

고급 데이터 탐색
1. 시공간 데이터 탐색
- 시간 + 공간 요소가 결합된 데이터
- 패턴 분석
- 지도 기반 탐색
- 격자 기반 분석
2. 다변량 데이터 탐색
- 2개 이상의 변수들을 함께 분석하여 고차원 공간의 관계성 파
| 기법 | 설명 | 특징 | 활용 예시 |
| PCA (주성분 분석) |
상관관계가 높은 변수들을 선형결합하여 분산이 최대인 축으로 투영 | - 차원 축소 - 해석 쉬움 - 데이터 압축 |
이미지 압축, 시각화 전처리, 노이즈 제거 |
| MDS (다차원척도법) |
데이터 간 거리(유사도)를 시각적으로 보존하여 저차원 공간에 표현 | - 비선형 거리 보존 가능 - 2D/3D 시각화 유용 |
고객 간 심리적 거리, 시장 조사 응답 유사도 |
| LLE (로컬선형임베딩) |
데이터의 국소 구조(이웃 관계)를 유지하며 비선형 차원 축소 | - 복잡한 데이터 구조 보존 - 고차원 데이터에 적합 |
얼굴 인식, 음성 패턴 분석, 고차원 센서데이터 시각화 |
📌 간단한 비교
| 비교 항목 | PCA | MDS | LLE |
| 차원 축소 방식 | 선형 | 비선형 | 비선형 (로컬 기반) |
| 데이터 구조 보존 | 전역적 구조 | 거리(유사도) | 국소적 구조 |
| 계산 복잡도 | 낮음 | 중간 | 다소 높음 |
| 해석 가능성 | 높음 | 중간 | 낮음 |
3. 비정형 데이터 탐색
- 정형화되지 않은 텍스트, 이미지, 오디오, 영상 등을 분석하는 과정
📌 비정형 데이터 종류
- 텍스트: 뉴스, 블로그, SNS, 이메일 등
- 이미지: 사진, 그림, 의료영상 등
- 오디오: 녹음, 통화, 음성 파일 등
- 비디오: CCTV, 유튜브 영상 등
📌 주요 분석 기법
| 기법 | 설명 | 특징 | 활용 예시 |
| 데이터 마이닝 | 대용량 데이터에서 유의미한 패턴, 규칙, 예측모델을 찾아냄 | 다양한 데이터 유형에 적용 가능 통계·AI 기술 기반 |
고객 세분화, 이탈 예측, 구매 패턴 분석 |
| 텍스트 마이닝 | 문서·문장에서 키워드, 토픽, 의미 등을 추출하는 분석 | 자연어처리(NLP) 기술 기반 비정형 → 정형으로 변환 |
상품 리뷰 분석, 문서 분류, 키워드 추출 |
| 오피니언 마이닝 (감성 분석) |
문장 속 감정, 긍정·부정 의견, 평판 등을 분석 | 텍스트 마이닝의 세부 영역 소셜미디어에 최적 |
SNS 감정분석, 영화 리뷰, 브랜드 평판 분석 |
728x90
반응형
LIST