자격증/빅데이터분석기사

[빅데이터분석기사] 빅데이터 탐색 - 데이터 탐색

glorypang 2025. 3. 31. 01:21
728x90
반응형
SMALL

데이터 탐색

1. 데이터 탐색 기초

1.1 EDA (Exploratory Data Analysis, 탐색적 자료 분석)

  • EDA는 데이터의 숨겨진 의미를 찾기 위해 통계적 방법과 시각화를 활용하는 탐색적 분석 기법
  • EDA의 4대 주제
    • 저항성의 강조
    • 잔차 계산
    • 자료변수의 재표현
    • 그래프를 통한 현시성

2. 상관관계 분석

구분  설명  활용 상황
피어슨 상관분석 연속형 수치형 변수 간의 선형 관계 측정 키-몸무게, 공부시간-점수
스피어만 상관분석 서열/순서형 변수의 상관성, 비선형도 가능 등수-만족도 등 서열형 자료

💡 상관계수 r

  • +1: 완전 양의 상관
  • 0: 무상관
  • –1: 완전 음의 상관

1에 가까울수록 직선에 근접


3. 기초 통계량 이해

지표  설명
평균 값들의 총합 ÷ 개수
중앙값 정렬했을 때 중앙에 있는 값
최빈값 가장 자주 등장한 값
분산 값들이 평균에서 얼마나 떨어져 있는가
표준편차 분산의 제곱근
공분산 두 변수의 변화 방향성
상관계수 공분산을 정규화한 값 (-1 ~ 1)

 

📌 기댓값 & 분산 계산 예시

서로 독립인 X, Y가 각각 정규분포 N(20, 2^2)와 N(27, 1^2)을 따른다고 할 때, 확률변수 Z = 5X–7Y+15일 경우의 Z의 기댓값과 분산의 계산

1) Z의 기댓값
: E(Z) = E(5X - 7Y + 15) = 5 * 20 - 7 * 27 + 15 = -74

2) Z의 분산
: V(Z) = V(5X - 7Y + 15) = V(5X - 7Y) = 25 * V(X) + 49 * V(Y) = 25 * 2^2 +49 * 1^2 = 149
 (상수는 분산에 영향 없음)

4. 첨도와 왜도

4.1 첨도 (Kurtosis)

  • 분포의 뾰족함
  • 정규분포는 0 또는 3 (기준에 따라 다름)

 

4.2 왜도 (Skewness)

  • 분포의 비대칭 정도
  • 왜도 > 0: 오른쪽 꼬리
  • 왜도 < 0: 왼쪽 꼬리

⮕ 평균은 꼬리를 따라간다!

 

 


5. Summary 함수 결과 해석

Age Survived
Min 0.17 0  266
1st Qu. 21.00 1 152
Median 27.00  
Mean 30.27
3rd Qu. 39.00
Max 76.00
Na's 86

 

  • Age 변수
    • Mean, Median 등 존제 -> 수치형 변수
    • 25% 지점: 21.00, 75% 지점: 39.00
    • Median < Mean -> 왜도 > 0
    • 결측치(Na's) 개수 : 86개
  • Survived 변수
    • 집단의 변도 수 -> 범주형 변수
    • 범주 0과 1이 클래스 불균형 상태
    • 0을 다운샘플링 하거나, 1을 오버샘플링

6. 시각적 데이터 탐색

6.1 히스토그램 (Histogram)

  • 데이터를 구간별로 나눠 막대그래프로 나타낸 분포도
  • 단변량 데이터의 분포 형태 파악
  • 분포, 왜도, 첨도, 이상값 탐지
  • 예: 점수 분포, 매출 금액 분포

 

6.2 박스플롯 (Boxplot)

  • 중앙값, 사분위수, 이상값 등을 표시하는 그래프
  • 이상값 탐지, 범위 비교
  • 요약 정보 제공, 이상치 시각화
  • 예: 부서별 급여 분포 비교

 

6.3 산점도 (Scatter Plot)

  • 두 변수 간의 관계를 점으로 표현
  • 상관관계, 군집 여부 시각화
  • 관계 방향성, 이상 데이터 확인
  • 예: 공부시간-점수, 키-몸무게

 

 

6.4 페어플롯 (Pair Plot)

  • 여러 변수들의 산점도와 히스토그램을 동시에 표시
  • 다변량 관계성 탐색
  • 변수 간 전반적 관계 확인
  • 예: 변수 간 연관성 확인

 

 

6.5 히트맵 (Heatmap)

  • 상관계수 등 수치형 정보를 색상으로 표현
  • 상관계수 시각화
  • 한눈에 관계 파악 가능
  • 예: 변수 간 상관 분석

 

 

6.6 시계열 그래프 (Time Series Plot)

  • 시간 흐름에 따른 데이터 변화 표시
  • 추세, 계절성, 주기성 탐색
  • 흐름과 변동 포팍
  • 예: 주식, 기온, 방문자수 변화

 

 

6.7 바이올린 플롯 (Violin Plot)

  • 박스플롯 + KDE를 합친 형태
  • 분포 + 밀도 파악
  • 대칭성/비대칭성 시각화
  • 예: 카테고리별 분포 비교

 


 고급 데이터 탐색

1. 시공간 데이터 탐색

  • 시간 + 공간 요소가 결합된 데이터
  • 패턴 분석
  • 지도 기반 탐색
  • 격자 기반 분석

2. 다변량 데이터 탐색

  • 2개 이상의 변수들을 함께 분석하여 고차원 공간의 관계성 파
기법 설명 특징 활용 예시
PCA
(주성분 분석)
상관관계가 높은 변수들을 선형결합하여 분산이 최대인 축으로 투영 - 차원 축소
- 해석 쉬움
- 데이터 압축
이미지 압축, 시각화 전처리, 노이즈 제거
MDS
(다차원척도법)
데이터 간 거리(유사도)를 시각적으로 보존하여 저차원 공간에 표현 - 비선형 거리 보존 가능
- 2D/3D 시각화 유용
고객 간 심리적 거리, 시장 조사 응답 유사도
LLE
(로컬선형임베딩)
데이터의 국소 구조(이웃 관계)를 유지하며 비선형 차원 축소 - 복잡한 데이터 구조 보존
- 고차원 데이터에 적합
얼굴 인식, 음성 패턴 분석, 고차원 센서데이터 시각화

 

📌 간단한 비교

비교 항목 PCA MDS LLE
차원 축소 방식 선형 비선형 비선형 (로컬 기반)
데이터 구조 보존 전역적 구조 거리(유사도) 국소적 구조
계산 복잡도 낮음 중간 다소 높음
해석 가능성 높음 중간 낮음

3. 비정형 데이터 탐색

  • 정형화되지 않은 텍스트, 이미지, 오디오, 영상 등을 분석하는 과정

📌  비정형 데이터 종류

  • 텍스트: 뉴스, 블로그, SNS, 이메일 등
  • 이미지: 사진, 그림, 의료영상 등
  • 오디오: 녹음, 통화, 음성 파일 등
  • 비디오: CCTV, 유튜브 영상 등

 

 

📌  주요 분석 기법

기법 설명 특징 활용 예시
데이터 마이닝 대용량 데이터에서 유의미한 패턴, 규칙, 예측모델을 찾아냄 다양한 데이터 유형에 적용 가능
통계·AI 기술 기반
고객 세분화, 이탈 예측, 구매 패턴 분석
텍스트 마이닝 문서·문장에서 키워드, 토픽, 의미 등을 추출하는 분석 자연어처리(NLP) 기술 기반
비정형 → 정형으로 변환
상품 리뷰 분석, 문서 분류, 키워드 추출
오피니언 마이닝
(감성 분석)
문장 속 감정, 긍정·부정 의견, 평판 등을 분석 텍스트 마이닝의 세부 영역
소셜미디어에 최적
SNS 감정분석, 영화 리뷰, 브랜드 평판 분석
728x90
반응형
LIST