자격증/빅데이터분석기사

[빅데이터분석기사] 빅데이터 결과 해석 - 분석모형 평가 및 개선

glorypang 2025. 3. 31. 20:33
728x90
반응형
SMALL

분석모형 평가

1. 분석모형 평가지표

1.1 분류모델 평가지표

실제  \ 예측 Positive (예측 O)   Negative (예측 X)
Positive (정답) TP (True Positive) FN (False Negative)
Negative (오답) FP (False Positive) TN (True Negative)

 

📌 정리

  • 예측이 맞으면 → True
  • 예측 결과가 Positive이면 → Positive

✅주요 평가 지표  

지표 수식 의미
정확도 (Accuracy) (TP + TN) / (TP + TN + FP + FN) 전체 예측 정확도
정밀도 (Precision) TP / (TP + FP) Positive로 예측한 것 중 실제 Positive 비율
재현율 (Recall)
(= 민감도, TPR, Hit Rate)
TP / (TP + FN) 실제 Positive 중에서 잘 맞춘 비율
F1 Score 2 × (Precision × Recall) / (Precision + Recall) Precision과 Recall의 조화 평균
Fβ Score (1 + β²) × PR / (β² × P + R) β > 1: Recall 중시, β < 1: Precision 중시
ROC Curve X축: 1 - 특이도 (FPR)
Y축: 민감도 (TPR)
AUC(면적)이 1에 가까울수록 좋은 모델
AUC(면적)이 0.5에 가까울수록 랜덤 선택
Lift Chart(이익 도표) 등급별 반응률 시각화 마케팅 등 반응 예측 성능 확인

 

1.2 회귀모델 평가지표

지표  수식  설명
MSE(Mean Squared Error) (1/n) ∑(y - ŷ)² 오차의 제곱 평균, 큰 오차에 민감
RMSE(Root MSE) √MSE MSE의 루트 → 실제 단위로 해석 가능
MAE(Mean Absolute Error) (1/n) ∑ y - ŷ
MAPE(Mean Absolute Percentage Error) (1/n) ∑ (y - ŷ) / y
결정계수 R² 1 - SSE / SST 모델이 전체 변동을 얼마나 설명하는지
Adjusted R² 1 - [(n - 1) × MSE] / SST 변수 수를 고려해 조정된 R²

 

1.3 군집모델 평가지표지표 수식 / 설명

  • 실루엣 계수
    • S(i) = (b(i) - a(i)) / max(a(i), b(i))
    • a(i): 같은 군집 내 다른 점들과의 평균 거리
    • b(i): 가장 가까운 다른 군집과의 평균 거리
    • 범위: -1 ~ 1 (1에 가까울수록 군집 잘 됨) 

  • WCSS(Within-Cluster Sum of Squares)   
    • WCSS = ∑∑ distance(di, ck)² 
    • ck: 군집 중심점
         작을수록 응집력 높은 군집 
    • di: 군집 내 데이터

2. 분석모형 진단 및 개선

2.1 과대적합 vs 과소적합

구분 설명  원인
과대적합(Overfitting) 학습 데이터에 과도하게 적합 → 테스트 성능 저하 고차 모델, 변수 과다, 훈련 과잉
과소적합(Underfitting) 너무 단순해 패턴을 포착 못함 모델이 단순함, 특징 정보 부족

📌 가장 이상적인 모델
편향(Bias)과 분산(Variance)이 모두 낮은 모델!

 

2.2 교차 검증 (Cross Validation)

기법  설명
Hold-out 데이터를 학습/검증용으로 단순 분리 (예: 8:2 비율), 재표본추출 수행 하지 않음
K-fold 전체 데이터를 K등분 → 매 회차마다 하나를 검증용으로, 나머지는 학습용 사용
LOOCV Leave-One-Out: n개의 데이터 중 1개를 검증용으로, 나머지를 학습용으로 (n회 반복)
Bootstrap 복원추출을 통해 여러 샘플링 → 통계적 추정량의 분포 파악, 편향 보정 효과

 

2.3 적합도 검정

기법  설명
Q-Q Plot 정규분포의 분위수와 실제 데이터 비교 → 대각선에 가까울수록 정규성 만족
샤피로-윌크 검정 정규성 검정용 통계량 기반, 소표본에 적합
콜모고로프-스미르노프 연속형 데이터의 누적분포 함수 차이를 통해 정규성 여부 검정
카이제곱 적합도 검정 범주형 데이터에서 기대값과 관측값 간의 차이를 검정 (분포의 적합도 검정)

 

2.4 통계적 유의성 검정

검정 기법 목적 적용 예시
Z-검정 모집단 평균의 유의성 검정 모집단의 σ(표준편차)를 아는 경우
T-검정 두 집단의 평균 차이 검정 실험군 vs 대조군 비교 등
ANOVA 세 집단 이상의 평균 차이 검정 교육수준에 따른 시험 성적 차이 등
F-검정 두 집단의 분산 동일성 검정 모델 간 잔차의 분산 비교
카이제곱 검정 범주형 변수의 독립성 / 적합성 검정 성별과 직업 간의 관계성 파악 등

3. 분석모형 개선

3.1 과적합 방지 기법(Overfitting Prevention)

  • 복잡도 감소: 모델 구조를 단순화(예: 은닉층 수 감소, 작은 모델 사용)
  • 정규화(규제): 가중치에 패널티 부여하여 모델 복잡도 제어
    • L1(라쏘):  가중치의 절댓값 합을 최소화 → 희소 모델 생성 (특성 선택 효과)
    • L2(릿지): 가중치의 제곱합을 최소화 가중치를 작게 유지하여 과적합 방지
  • 드롭아웃(Dropout): 학습 시 일부 노드를 랜덤하게 제거 → 특정 노드에 의존하는 것 방지
  • 조기 종료(Early Stopping): 검증 손실 증가 시 학습을 조기 종료하여 과적합 방지
  • 데이터 증강: 이미지 회전/왜곡, 텍스트 변형 등으로 데이터 다양성 확보

 

3.2 매개변수 최적화

항목  설명
파라미터(Parameter) 학습으로 자동 조정되는 모델 내부 계수
하이퍼파라미터(Hyperparameter) 사용자가 미리 지정해야 하는 외부 설정값 (예: 학습률, 배치 크기, 은닉층 수 등)
경사하강법 (Gradient Descent) 손실함수를 최소화하는 방향으로 파라미터를 반복적으로 조정하는 최적화 기법
  • 학습률이 너무 크면 → 발산 가능
  • 너무 작으면 → 수렴 속도 느림

 

3.3 하이퍼파라미터 튜닝 방법

방법  설명
Manual Search 경험에 기반한 수동 탐색
Grid Search 지정된 범위의 모든 조합을 체계적으로 탐색
Random Search 설정된 범위 내에서 무작위 조합을 시도
Bayesian Optimization 이전 결과 기반으로 확률 모델을 세워 가장 유망한 조합을 선택 (효율적)

 

3.4 용어 정리

용어  설명
Batch Size 한 번의 파라미터 업데이트에 사용하는 데이터 묶음 크기
Epoch 전체 데이터를 1회 학습한 횟수 (반복 횟수)
Iteration 1 Epoch 동안 반복되는 배치 학습 횟수
  • 총 Iteration 수 = 전체 데이터 수 / Batch Size
728x90
반응형
LIST