[빅데이터분석기사] 빅데이터 모델링

자격증/빅데이터분석기사

[빅데이터분석기사] 빅데이터 모델링 - 분석기법 적용 (2)

glorypang 2025. 3. 31. 17:49

728x90

SMALL

고급 분석기법

1. 범주형 자료 분석

1.1 분할표 (Contingency Table)

두 개 이상의 범주형 변수 간의 관계를 요약하는 표
각 셀(Cell)은 해당 조합의 빈도(Frequency)를 나타냄
주로 카이제곱 검정(χ²)과 함께 사용
예: 백신 접종 여부와 감염 여부의 관계

	감염(O)	감염(X)	합계
접종자	a	b	a + b
미접종자	c	d	c + d
합계	a + c	b + d	N

1.2 상대위험도 (Relative Risk, RR)

두 집단 간 특정 사건의 발생 위험을 비교
공식: RR = P₁ / P₂ = (a/(a+b))/(c/(c+b))
해석:
- RR = 1: 위험 동일
- RR > 1: 1번 집단이 더 높은 위험
- RR < 1: 2번 집단이 더 높은 위험

1.3 오즈비 (Odds Ratio, OR)

오즈(확률 / 실패확률) 간 비율로 사건 간 연관성 측정
공식: OR = (a/b) / (c/d) = (a*d) / (b*c)
해석:
- OR = 1: 연관성 없음
- OR > 1: 양의 연관성
- OR < 1: 음의 연관성

1.4 예시 비교

감염 여부와 집단 간 위험 비교

집단	감염자 수	총 인원	감염확률 (P)	오즈 (P / 1-P)
A군	40명	100명	0.4	0.4 / 0.6 = 0.667
B군	20명	100명	0.2	0.2 / 0.8 = 0.25

RR 계산:RR=0.4/0.2=2.0 → A군이 B군보다 감염 위험이 2배
OR 계산:OR=0.667/0.25=2.67 → 오즈 기준 A군이 2.67배 더 감염되기 쉬움

1.5 RR vs OR 비교표

항목	RR (Relative Risk)	OR (Odds Ratio)
비교 방식	확률(P)의 비	오즈의 비
직관성	해석 쉬움	약간 어려움
적합한 분석	실험, 코호트 연구	케이스-컨트롤 연구
사건 발생 확률이 작을 때	RR ≈ OR	유사함
사건 발생 확률이 클 때	OR이 RR보다 과장됨	주의 필요

2. KNN (K-Nearest Neighbors)

항목	설명
기법 개요	새로운 데이터를 기존 데이터 중 가장 가까운 K개의 이웃과 비교하여, 다수결(분류) 또는 평균(회귀)으로 예측하는 방법
모델 유형	비모수적 분류/회귀 모델, 훈련과정 없이 예측 시점에 계산 수행
기본 개념	"가까운 데이터는 비슷한 특성을 가진다"는 가정에 기반

2.1 주요 특징

Lazy Learning: 훈련 과정이 없고, 예측 시점에 계산
단순하고 직관적
모델의 복잡도 = 데이터 양
비선형 분류 가능
K 값 설정에 민감 (과소/과적합 문제 발생 가능)
거리 측도에 의존적 (스케일링 필요)

2.2 거리 측정 방식 (Distance Metric)

거리 종류	설명
유클리디안 거리	일반적인 직선 거리 (연속형 변수에 주로 사용)
맨해튼 거리	축을 따라 이동한 거리의 합
마할라노비스 거리	변수 간 상관관계 고려
자카드 유사도	이진/범주형 데이터 간 유사도
코사인 유사도	벡터 간 각도 기반 (문서 유사도 등)

2.3 K값 설정에 따른 영향

K값	특징
작을수록 (K ↓)	경계가 세밀해짐- 과적합 위험 증가
클수록 (K ↑)	경계가 부드러워짐- 과소적합 위험 증가

2.4 예시

"고객이 프리미엄 상품을 구매할 것인가?"를 예측

입력 데이터: 나이, 구매횟수, 소득 등
기존 고객 중 가장 가까운 K명의 고객을 찾고 다수의 행동을 따라 예측

2.5 한계 및 보완점

단점	보완 방법
계산 비용 큼 (예측 시점에 거리계산)	KD-Tree, Ball-Tree 등으로 속도 개선
차원의 저주(Curse of Dimensionality)	PCA 등으로 차원 축소
이상치에 민감	가중 KNN으로 거리 멀수록 영향 줄이기

3. 다변량 분석

3.1 분산분석 (ANOVA)

기법	설명	예시
일원분산분석 (One-Way ANOVA)	한 개의 독립변수(요인)에 따라 집단 간 평균 차이 검정	마케팅 채널(광고A, 광고B, 광고C)에 따라 매출 차이 존재 여부
이원분산분석 (Two-Way ANOVA)	두 개의 독립변수가 종속변수에 미치는 영향을 분석 + 상호작용 효과 포함	제품 종류와 지역이 만족도에 영향을 미치는지 검정
다변량분산분석 (MANOVA)	두 개 이상의 종속변수를 동시에 고려하여 평균 차이를 검정	마케팅 전략에 따라 매출 + 고객 수 함께 분석

✅ 사용 조건

종속변수는 연속형, 독립변수는 범주형
정규성, 등분산성, 독립성 가정 필요

3.2 요인분석 (Factor Analysis)

항목	설명
목적	변수들 간의 상관관계를 이용해, 공통된 요인(Factor)을 추출하여 차원을 축소
활용	심리 검사, 설문 분석, 지능지수, 마케팅 세분화 등에서 잠재 요인 도출

✅ 요인 추출법 (Factor Extraction Methods)

기법	설명
주성분분석 (PCA)	전체 분산을 기준으로 요인을 추출 (차원 축소 목적에 많이 사용)
주축요인분석 (Principal Axis Factoring)	공통 분산(공통성)만을 고려하여 요인 추출
최소제곱요인분석	잔차의 제곱합을 최소화하는 방식

✅ 요인 회전 (Factor Rotation)

회전을 통해 해석 가능한 구조로 변환
→ 회전은 요인의 분산 비율은 그대로, 해석력은 증가

구분	방법	특징
직각 회전	VARIMAX, QUARTIMAX, EQUAMAX	요인 간 독립성 유지
사각 회전	OBLIMIN, PROMAX	요인 간 상관관계 허용

✅ 요인분석의 결과 해석

요인 적재량 (Factor Loading): 각 변수와 요인 간의 상관계수
→ 0.4 이상이면 해당 요인과 유의한 관계
공통성 (Communality): 각 변수의 분산 중 요인으로 설명되는 비율
→ 1에 가까울수록 설명력이 높음
고유값 (Eigenvalue): 각 요인이 설명하는 총 분산량
→ 일반적으로 고유값 > 1인 요인을 선택

4. 시계열 분석

4.1 시계열의 기본 개념

항목	설명
정상성 (Stationarity)	평균과 분산이 시간에 따라 변하지 않는 성질 → 대부분의 시계열 모델은 정상성 가정을 전제로 함
백색잡음 (White Noise)	평균 = 0, 분산 = 일정, 자기상관이 없는 오차항 → 예측 불가능한 무작위 요소
정상화 기법	비정상 시계열 데이터를 정상화 하기 위한 기법 • 차분(Differencing): 연속된 시점 간 차이 • 이동평균(SMA): 일정 기간의 평균 • 지수평활(Exponential Smoothing): 최근값에 가중치 부여 • 로그, Box-Cox 변환: 분산 안정화

4.2 시계열 모형

모델	설명	차수 결정 기준	활용 포인트
AR(p) (자기회귀)	과거 관측값들의 선형결합으로 현재값 예측	PACF → p+1 시점 이후 급격히 감소	자기 상관 구조를 가진 데이터에 유용
MA(q) (이동평균)	과거 오차항의 선형결합으로 현재값 예측	ACF → q+1 시점 이후 급격히 감소	오차의 구조를 설명하고자 할 때
ARMA(p,q)	AR + MA 혼합 모형 (정상 시계열에 사용)	PACF → AR 차수 / ACF → MA 차수	정상성 만족하는 시계열 데이터에 적합
ARIMA(p,d,q)	ARMA에 비정상성을 제거하기 위한 차분(d) 추가	ARMA에 비정상성을 제거하기 위한 차분(d) 추가	비정상 시계열 데이터(추세 포함)에 사용
분해 시계열 모델 (Decomposition)	시계열을 네 가지 요인으로 분해: 1) 추세(Trend) 2) 계절성(Seasonality) 3) 순환성(Cyclic) 4) 불규칙성(Irregular)	-	각 요소의 영향력 분석 및 제거 후 예측에 활용

4.3 시계열 구성 요소

구성	요소 설명	예시
추세 (Trend)	장기적으로 증가 또는 감소하는 방향성	인구 증가, 매출 증가 추세
계절성 (Seasonality)	일정한 주기를 가진 패턴	여름철 아이스크림 매출 증가
순환성 (Cycle)	경기, 산업 변화 등 비정기적 반복 패턴	경기 침체/호황 주기
불규칙성 (Irregular)	설명할 수 없는 일시적 요인	자연재해, 사건 사고

✅ 기억법: “추·계·순·불”
→ "추운 계절이 순환되며 불규칙하게 반복된다"

5. 베이지안 분석

5.1 베이즈 정리 (Bayes' Theorem)

정의: 새로운 정보(조건부 확률)를 이용해 기존 가설의 확률(사전확률)을 사후확률로 갱신
공식:
- P(A|B) = P(B|A) ⋅ P(A) / P(B)

P(A∣B): 사건 B가 발생한 후 A가 발생할 사후확률
P(B∣A): A가 일어났을 때 B가 일어날 조건부 확률
P(A): 사건 A의 사전확률
P(B): 사건 B의 전체 확률 (정규화 역할)

📌 예시: 의학 검사 문제

어떤 질병의 유병률이 1%이고,
검사의 정확도는 99%라 할 때,
검사 양성 결과가 나왔을 때 실제로 질병이 있을 확률은?

P(질병)=0.01
P(양성∣질병)=0.99
P(양성∣비질병)=0.01
P(비질병)=0.99

P(질병∣양성)= (0.99 ⋅ 0.01) / (0.99 ⋅ 0.01 + 0.01 ⋅ 0.99) = 0.0099 / (0.0099 +0.0099) = 0.5

📌 결과: 양성이어도 실제 질병일 확률은 50%에 불과
→ 베이즈 정리의 직관적 중요성

5.2 나이브 베이즈 (Naive Bayes Classifier)

정의: 베이즈 정리 기반 분류기로, 모든 특성이 독립이라는 가정 하에 조건부 확률 계산을 단순화
가정: 모든 입력 변수(X₁, X₂, ..., Xₙ)는 독립적으로 종속변수 Y에 영향을 준다는 전제
→ 현실에서는 완벽한 독립은 불가능하나, 실무 성능은 우수

✅ 나이브 베이즈 종류

분류기	특징	활용 예
Gaussian Naive Bayes	연속형 변수, 정규분포 가정	수치형 센서 데이터
Multinomial Naive Bayes	단어 등장 횟수 기반, 문서 분류	뉴스/메일 분류
Bernoulli Naive Bayes	이진형 변수 (0/1)	스팸메일 여부, 설문 데이터

6. 딥러닝 분석

6.1딥러닝 핵심 모델 비교

모델	주요 특징	구조	대표 활용
DNN (Deep Neural Network)	일반적인 다층 신경망, 정형·비정형 데이터 처리 가능	입력층 → 다층 은닉층 → 출력층	기본 예측/분류 모델
CNN (Convolutional Neural Network)	이미지에 특화, 공간 정보 보존	Convolution → Pooling → Fully Connected	이미지 분류, 객체 탐지
RNN (Recurrent Neural Network)	순차 데이터(텍스트, 음성, 시계열)에 적합- 기억 유지 구조	순환 구조 (이전 출력 → 현재 입력)	번역, 음성 인식, 주가 예측
오토인코더 (Autoencoder)	입력을 압축해 복원하는 비지도 모델	Encoder → Latent → Decoder	이상탐지, 생성 모델, 데이터 압축

6.2 DNN (Deep Neural Network)

다층 퍼셉트론(MLP)의 확장
은닉층이 2개 이상인 기본형 신경망
일반적인 구조로, 텍스트/정형 데이터에서도 사용 가능
과적합 방지를 위한
- Dropout
- Batch Normalization
- L1/L2 정규화

6.3 CNN (Convolutional Neural Network)

구성	설명
Convolution Layer	필터(커널)를 통해 지역 특징 추출
Pooling Layer	크기를 축소하며 주요 정보 유지 (Max/Average)
Flatten + Fully Connected	이미지 → 벡터화 후 분류

✅ Feature Map 크기 계산

출력 크기=((N+2P−F)/S)+1
N: 입력 이미지의 한쪽 길이 (예: 5×5 → N=5)
F: 필터 크기 (예: 3×3 → F=3)
P: 패딩 수 (보통 0 또는 1)
S: 스트라이드 (움직이는 간격, 기본 1)
예시
- 입력: 5×5
- 필터: 3×3
- 패딩: 0
- 스트라이드: 1
  → 출력 Feature Map 크기: 3×3

※ Pooling Layer는 보통 크기를 절반으로 줄임
예: MaxPooling(2×2, stride=2) → 3×3 → 1×1

✅ 대표 모델

LeNet, AlexNet, VGG, ResNet, EfficientNet 등

✅ 활용 분야

이미지 분류, 얼굴 인식, 객체 탐지(YOLO, RCNN)
자율주행 시스템

6.4 RNN (Recurrent Neural Network)

항목	설명
순환 구조	이전 시간의 출력을 현재 입력과 함께 사용
단점	긴 시퀀스에서 장기 의존성 문제 발생
개선 모델	LSTM, GRU→ 게이트 방식으로 중요한 정보 유지
주요 응용	번역, 텍스트 생성, 주가 예측, 음성 인식

6.5 오토인코더 (Autoencoder)

구성	설명
Encoder	고차원 입력을 저차원 잠재벡터(Latent Vector)로 압축
Latent Vector (잠재 벡터)	데이터의 핵심 특징만을 담고 있는 벡터 표현
Decoder	잠재 벡터를 다시 원래 입력으로 복원(디코딩)
비지도 학습	입력 = 정답 → 정답 없이도 학습 가능 (입력을 스스로 재생산)
활용	이상탐지(정상만 학습 → 이상 판단), 차원축소, 데이터 복원

✅ 오토인코더의 핵심 포인트

입력과 출력이 동일하게 되도록 학습 (입력을 입력 자체로 복원)
중간의 잠재 공간이 의미 있는 압축 정보
손실 함수(Loss): 보통 MSE (입력과 복원값의 차이 최소화)

✅ 생성형 오토인코더 확장 모델

모델	설명
VAE (Variational AutoEncoder)	확률 분포를 기반으로 데이터 생성 (연속 공간에서 샘플링 가능)
GAN (Generative Adversarial Network)	생성자 vs 판별자 구조 → 경쟁을 통한 진짜 같은 데이터 생성
DCGAN	GAN + CNN 구조 → 고해상도 이미지 생성 가능

7. 비정형 데이터 분석

7.1 주요 기법 요약

기법	설명	대표 활용
Word2Vec	단어를 벡터 공간에 임베딩하여 의미 유사성 반영CBOW, Skip-Gram 방식 사용	유사 단어 추천, 문서 클러스터링
TF-IDF	단어의 빈도와 전체 문서에서의 희귀도를 곱해 단어의 중요도 산출	텍스트 분류, 키워드 추출, 검색엔진
Seq2Seq	입력 시퀀스를 인코더-디코더 구조로 출력 시퀀스로 변환	기계 번역, 요약, 질의응답
Transformer	Self-Attention 기반 병렬 구조입출력 시퀀스 처리에 강력	BERT, GPT 등 자연어 처리, 생성형 AI 등

7.2 Word2Vec

항목	설명
목적	단어를 수치 벡터로 표현해 의미 기반 연산 가능하게 함
구조	CBOW: 주변 단어 → 중심 단어 예측Skip-Gram: 중심 단어 → 주변 단어 예측
특징	의미 유사 단어는 가까운 벡터 위치 → King - Man + Woman = Queen
활용	유사 단어 탐색, 클러스터링, 추천 시스템 등

7.3 TF-IDF (Term Frequency – Inverse Document Frequency)

요소	설명
TF	특정 문서에서의 단어 빈도
IDF	해당 단어가 전체 문서에서 얼마나 희귀한지log⁡(N/df)
특징	자주 등장하지만 전체적으로는 드문 단어에 높은 가중치 부여
활용	키워드 추출, 문서 중요도 평가, 검색엔진 랭킹 등

7.4 Seq2Seq (Sequence-to-Sequence)

항목	설명
구조	Encoder: 입력 시퀀스를 컨텍스트 벡터로 압축Decoder: 그 벡터로 출력 시퀀스 생성
특징	입력과 출력 길이가 달라도 처리 가능
단점	긴 시퀀스 처리 시 정보 손실 우려
개선	Attention 기법으로 문맥 보완
활용	기계번역, 텍스트 요약, 챗봇 응답 생성 등

7.5 Transformer

항목	설명
구조	Self-Attention 기반으로 인코더/디코더 병렬 처리
특징	RNN과 달리 순차 처리 없이 병렬 학습 가능긴 문장 처리에 강함
핵심 구성	Positional Encoding, Multi-Head Attention, Feed Forward, LayerNorm
대표 모델	BERT (인코더 기반, 문맥 이해)GPT (디코더 기반, 생성 특화)T5, BART (양방향 모델)
활용	번역, 요약, 문서 분류, 생성형 AI 등

8. 기타 기법(기타 고급 분석 기법)

8.1 유전자 알고리즘 (Genetic Algorithm, GA)항목 설명

항목	설명
정의	진화 이론을 기반으로 한 최적화 알고리즘복잡한 문제에 대해 점진적으로 최적 해를 찾음
목적	최적의 해(solution)를 자연 선택 방식으로 진화시켜 발견
활용 분야	경로 최적화, 스케줄링, 광고 타겟 최적화, 머신러닝 파라미터 튜닝 등

✅핵심 절차

초기화: 여러 개의 해를 염색체로 표현 (이진, 순열, 실수 등)
적합도 평가: 해의 우수성 평가
선택: 높은 적합도의 염색체 선택 (룰렛, 토너먼트 등)
교차 (Crossover): 부모의 유전정보 결합
변이 (Mutation): 다양성 확보를 위한 유전자 일부 변경
대체: 자손과 기존 세대 중 우수한 해 선발

8.2 소셜 네트워크 분석 (Social Network Analysis, SNA)항목 설명

항목	설명
정의	노드(개체)와 엣지(관계)로 구성된 사회 연결망 분석
분석 목적	관계 구조 파악, 영향력 있는 사람 탐색, 정보 흐름 분석
활용 분야	SNS 사용자 분석, 마케팅 타겟, 바이럴 전파 예측 등

✅중심성 지표

연결 중심성: 연결 수가 많은 노드
근접 중심성: 전체와의 평균 거리
매개 중심성: 경로상에서 브릿지 역할을 하는 정도
위세 중심성: 연결된 노드의 영향력까지 반영

8.3 감정 분석 (Sentiment Analysis)항목 설명

정의: 문장 내의 감정을 긍정/부정/중립으로 분류하는 기법

✅ 기법 유형

사전 기반: 감정 단어 사전 (긍/부정 단어 리스트 활용)
기계학습 기반: SVM, 로지스틱 회귀, Naive Bayes 등
딥러닝 기반: LSTM, BERT 등

✅ 활용 분야

상품 리뷰 분석, 여론 분석, 소셜 미디어 평판 추적, 챗봇 감성 대응 등

9. 앙상블 기법

9.1 주요 기법 비교표

기법	설명	특징	대표 알고리즘
Voting	여러 모델의 예측 결과를 다수결 또는 평균으로 결합	병렬 방식, 단순 조합	Soft Voting, Hard Voting
Bagging	복원추출(bootstrap)로 여러 데이터를 만들고, 각각 모델 훈련 후 결합	병렬 학습, 분산 감소	Random Forest
Boosting	이전 모델의 오분류 데이터에 가중치를 부여하며 순차적으로 학습	순차 학습, 편향 감소, 민감함	AdaBoost, Gradient Boosting, XGBoost, LightGBM
Stacking	여러 모델의 예측 결과를 메타 모델이 다시 학습하여 최종 예측	이질 모델 조합, 학습 복합도 ↑	Logistic + Tree + NN 조합 등

9.2 Voting (투표 방식)

서로 다른 알고리즘의 예측값을 결합
Hard Voting: 다수결 (가장 많이 나온 클래스 선택)
Soft Voting: 예측 확률 평균 후 가장 높은 확률 선택
예: SVM + KNN + Decision Tree 결과를 다수결로 결합

9.3 Bagging (Bootstrap Aggregating)

훈련 데이터를 복원추출하여 여러 학습셋 생성
각 모델은 병렬로 독립 학습 → 결과를 평균 또는 투표로 결합
과적합 방지, 분산 감소에 효과적
대표 모델: Random Forest (여러 개의 의사결정트리 + 앙상블)

9.4 Boosting

약한 학습기를 순차적으로 연결해 성능 향상
오분류된 샘플에 더 큰 가중치를 부여
과소적합 개선, 하지만 이상치에 민감
대표 알고리즘:
- AdaBoost: 가중치 조정 기반
- Gradient Boosting (GBM): 잔차를 예측
- XGBoost: 정규화 + 속도 개선
- LightGBM: 대용량 고속 처리 (리프 기반 성장)

9.5 Stacking

서로 다른 모델의 예측값을 기반으로 다시 학습
레벨 0: 여러 개의 기반 모델
레벨 1: 메타 모델 (ex. Logistic Regression 등)
학습 흐름:
1. 기본 모델들이 예측
2. 예측값을 새로운 피처로 사용
3. 최종 메타모델이 결과 예측
강력한 성능 가능, 다만 과적합 방지 주의

10. 비모수 통계(Non-parametric Statistics)

정의: 모집단의 분포(예: 정규성 등)를 가정하지 않고 수행하는 통계 기법

✅ 사용 조건

데이터가 정규분포를 따르지 않음
표본 수가 적고 이상치 존재
장점
- 순위, 서열, 범주형 데이터 사용 시 유리
- 적용 범위 넓음
- 이상치와 편향에 덜 민감함
- 계산이 비교적 간단
단점
- 정규 분포 시에는 모수 검정보다 덜 효율적
- 통계적 검정력 낮을 수 있음

10.1 대표 기법

기법	설명	대응 모수 기법	적용 상황
부호 검정	중위수를 기준으로 값이 위/아래에 있는지 부호로 검정	단일표본 t-검정	한 그룹의 전/후 비교 (부호만 사용)
윌콕슨 부호순위 검정 (Wilcoxon Signed-Rank)	두 관련 집단의 순위 차이를 이용한 검정 (쌍으로 된 대응표본)	대응표본 t-검정	약 복용 전후, 교육 전후 성적 등
U-검정 (Mann–Whitney U)	두 독립 집단 간의 순위 차이 비교 (비대응)	독립표본 t-검정	남녀 간 만족도 비교 등
크루스칼–왈리스 검정	세 개 이상의 독립 집단 간 순위 차이 비교	일원분산분석 (One-way ANOVA)	학년별 성취도 비교 등
카이제곱 검정	관측 빈도와 기대 빈도의 차이 검정 (적합도, 독립성 검정)	범주형 자료 전용	성별과 구매여부 간 독립성 검정 등
프리드먼 검정	세 개 이상의 반복 측정된 순위 데이터 비교	반복측정 분산분석 (Repeated ANOVA)	시간대별 만족도 변화 (같은 대상 반복 측정)

728x90

LIST

현재글[빅데이터분석기사] 빅데이터 모델링 - 분석기법 적용 (2)