자격증/빅데이터분석기사
[빅데이터분석기사] 빅데이터 결과 해석 - 분석모형 평가 및 개선
glorypang
2025. 3. 31. 20:33
728x90
반응형
SMALL
분석모형 평가
1. 분석모형 평가지표
1.1 분류모델 평가지표
| 실제 \ 예측 | Positive (예측 O) | Negative (예측 X) |
| Positive (정답) | TP (True Positive) | FN (False Negative) |
| Negative (오답) | FP (False Positive) | TN (True Negative) |
📌 정리
- 예측이 맞으면 → True
- 예측 결과가 Positive이면 → Positive
✅주요 평가 지표
| 지표 | 수식 | 의미 |
| 정확도 (Accuracy) | (TP + TN) / (TP + TN + FP + FN) | 전체 예측 정확도 |
| 정밀도 (Precision) | TP / (TP + FP) | Positive로 예측한 것 중 실제 Positive 비율 |
| 재현율 (Recall) (= 민감도, TPR, Hit Rate) |
TP / (TP + FN) | 실제 Positive 중에서 잘 맞춘 비율 |
| F1 Score | 2 × (Precision × Recall) / (Precision + Recall) | Precision과 Recall의 조화 평균 |
| Fβ Score | (1 + β²) × PR / (β² × P + R) | β > 1: Recall 중시, β < 1: Precision 중시 |
| ROC Curve | X축: 1 - 특이도 (FPR) Y축: 민감도 (TPR) |
AUC(면적)이 1에 가까울수록 좋은 모델 AUC(면적)이 0.5에 가까울수록 랜덤 선택 |
| Lift Chart(이익 도표) | 등급별 반응률 시각화 | 마케팅 등 반응 예측 성능 확인 |
1.2 회귀모델 평가지표
| 지표 | 수식 | 설명 |
| MSE(Mean Squared Error) | (1/n) ∑(y - ŷ)² | 오차의 제곱 평균, 큰 오차에 민감 |
| RMSE(Root MSE) | √MSE | MSE의 루트 → 실제 단위로 해석 가능 |
| MAE(Mean Absolute Error) | (1/n) ∑ | y - ŷ |
| MAPE(Mean Absolute Percentage Error) | (1/n) ∑ | (y - ŷ) / y |
| 결정계수 R² | 1 - SSE / SST | 모델이 전체 변동을 얼마나 설명하는지 |
| Adjusted R² | 1 - [(n - 1) × MSE] / SST | 변수 수를 고려해 조정된 R² |
1.3 군집모델 평가지표지표 수식 / 설명
- 실루엣 계수
- S(i) = (b(i) - a(i)) / max(a(i), b(i))
- a(i): 같은 군집 내 다른 점들과의 평균 거리
- b(i): 가장 가까운 다른 군집과의 평균 거리
- 범위: -1 ~ 1 (1에 가까울수록 군집 잘 됨)
- WCSS(Within-Cluster Sum of Squares)
- WCSS = ∑∑ distance(di, ck)²
- ck: 군집 중심점
→ 작을수록 응집력 높은 군집 - di: 군집 내 데이터
2. 분석모형 진단 및 개선
2.1 과대적합 vs 과소적합
| 구분 | 설명 | 원인 |
| 과대적합(Overfitting) | 학습 데이터에 과도하게 적합 → 테스트 성능 저하 | 고차 모델, 변수 과다, 훈련 과잉 |
| 과소적합(Underfitting) | 너무 단순해 패턴을 포착 못함 | 모델이 단순함, 특징 정보 부족 |
📌 가장 이상적인 모델은
→ 편향(Bias)과 분산(Variance)이 모두 낮은 모델!
2.2 교차 검증 (Cross Validation)
| 기법 | 설명 |
| Hold-out | 데이터를 학습/검증용으로 단순 분리 (예: 8:2 비율), 재표본추출 수행 하지 않음 |
| K-fold | 전체 데이터를 K등분 → 매 회차마다 하나를 검증용으로, 나머지는 학습용 사용 |
| LOOCV | Leave-One-Out: n개의 데이터 중 1개를 검증용으로, 나머지를 학습용으로 (n회 반복) |
| Bootstrap | 복원추출을 통해 여러 샘플링 → 통계적 추정량의 분포 파악, 편향 보정 효과 |
2.3 적합도 검정
| 기법 | 설명 |
| Q-Q Plot | 정규분포의 분위수와 실제 데이터 비교 → 대각선에 가까울수록 정규성 만족 |
| 샤피로-윌크 검정 | 정규성 검정용 통계량 기반, 소표본에 적합 |
| 콜모고로프-스미르노프 | 연속형 데이터의 누적분포 함수 차이를 통해 정규성 여부 검정 |
| 카이제곱 적합도 검정 | 범주형 데이터에서 기대값과 관측값 간의 차이를 검정 (분포의 적합도 검정) |
2.4 통계적 유의성 검정
| 검정 기법 | 목적 | 적용 예시 |
| Z-검정 | 모집단 평균의 유의성 검정 | 모집단의 σ(표준편차)를 아는 경우 |
| T-검정 | 두 집단의 평균 차이 검정 | 실험군 vs 대조군 비교 등 |
| ANOVA | 세 집단 이상의 평균 차이 검정 | 교육수준에 따른 시험 성적 차이 등 |
| F-검정 | 두 집단의 분산 동일성 검정 | 모델 간 잔차의 분산 비교 |
| 카이제곱 검정 | 범주형 변수의 독립성 / 적합성 검정 | 성별과 직업 간의 관계성 파악 등 |
3. 분석모형 개선
3.1 과적합 방지 기법(Overfitting Prevention)
- 복잡도 감소: 모델 구조를 단순화(예: 은닉층 수 감소, 작은 모델 사용)
- 정규화(규제): 가중치에 패널티 부여하여 모델 복잡도 제어
- L1(라쏘): 가중치의 절댓값 합을 최소화 → 희소 모델 생성 (특성 선택 효과)
- L2(릿지): 가중치의 제곱합을 최소화 → 가중치를 작게 유지하여 과적합 방지
- 드롭아웃(Dropout): 학습 시 일부 노드를 랜덤하게 제거 → 특정 노드에 의존하는 것 방지
- 조기 종료(Early Stopping): 검증 손실 증가 시 학습을 조기 종료하여 과적합 방지
- 데이터 증강: 이미지 회전/왜곡, 텍스트 변형 등으로 데이터 다양성 확보
3.2 매개변수 최적화
| 항목 | 설명 |
| 파라미터(Parameter) | 학습으로 자동 조정되는 모델 내부 계수 |
| 하이퍼파라미터(Hyperparameter) | 사용자가 미리 지정해야 하는 외부 설정값 (예: 학습률, 배치 크기, 은닉층 수 등) |
| 경사하강법 (Gradient Descent) | 손실함수를 최소화하는 방향으로 파라미터를 반복적으로 조정하는 최적화 기법 |
- 학습률이 너무 크면 → 발산 가능
- 너무 작으면 → 수렴 속도 느림
3.3 하이퍼파라미터 튜닝 방법
| 방법 | 설명 |
| Manual Search | 경험에 기반한 수동 탐색 |
| Grid Search | 지정된 범위의 모든 조합을 체계적으로 탐색 |
| Random Search | 설정된 범위 내에서 무작위 조합을 시도 |
| Bayesian Optimization | 이전 결과 기반으로 확률 모델을 세워 가장 유망한 조합을 선택 (효율적) |
3.4 용어 정리
| 용어 | 설명 |
| Batch Size | 한 번의 파라미터 업데이트에 사용하는 데이터 묶음 크기 |
| Epoch | 전체 데이터를 1회 학습한 횟수 (반복 횟수) |
| Iteration | 1 Epoch 동안 반복되는 배치 학습 횟수 |
- 총 Iteration 수 = 전체 데이터 수 / Batch Size
728x90
반응형
LIST