728x90
반응형
SMALL
고급 분석기법
1. 범주형 자료 분석
1.1 분할표 (Contingency Table)
- 두 개 이상의 범주형 변수 간의 관계를 요약하는 표
- 각 셀(Cell)은 해당 조합의 빈도(Frequency)를 나타냄
- 주로 카이제곱 검정(χ²)과 함께 사용
- 예: 백신 접종 여부와 감염 여부의 관계
| 감염(O) | 감염(X) | 합계 | |
| 접종자 | a | b | a + b |
| 미접종자 | c | d | c + d |
| 합계 | a + c | b + d | N |
1.2 상대위험도 (Relative Risk, RR)
- 두 집단 간 특정 사건의 발생 위험을 비교
- 공식: RR = P₁ / P₂ = (a/(a+b))/(c/(c+b))
- 해석:
- RR = 1: 위험 동일
- RR > 1: 1번 집단이 더 높은 위험
- RR < 1: 2번 집단이 더 높은 위험
1.3 오즈비 (Odds Ratio, OR)
- 오즈(확률 / 실패확률) 간 비율로 사건 간 연관성 측정
- 공식: OR = (a/b) / (c/d) = (a*d) / (b*c)
- 해석:
- OR = 1: 연관성 없음
- OR > 1: 양의 연관성
- OR < 1: 음의 연관성
1.4 예시 비교
- 감염 여부와 집단 간 위험 비교
| 집단 | 감염자 수 | 총 인원 | 감염확률 (P) | 오즈 (P / 1-P) |
| A군 | 40명 | 100명 | 0.4 | 0.4 / 0.6 = 0.667 |
| B군 | 20명 | 100명 | 0.2 | 0.2 / 0.8 = 0.25 |
- RR 계산:RR=0.4/0.2=2.0 → A군이 B군보다 감염 위험이 2배
- OR 계산:OR=0.667/0.25=2.67 → 오즈 기준 A군이 2.67배 더 감염되기 쉬움
1.5 RR vs OR 비교표
| 항목 | RR (Relative Risk) | OR (Odds Ratio) |
| 비교 방식 | 확률(P)의 비 | 오즈의 비 |
| 직관성 | 해석 쉬움 | 약간 어려움 |
| 적합한 분석 | 실험, 코호트 연구 | 케이스-컨트롤 연구 |
| 사건 발생 확률이 작을 때 | RR ≈ OR | 유사함 |
| 사건 발생 확률이 클 때 | OR이 RR보다 과장됨 | 주의 필요 |
2. KNN (K-Nearest Neighbors)
| 항목 | 설명 |
| 기법 개요 | 새로운 데이터를 기존 데이터 중 가장 가까운 K개의 이웃과 비교하여, 다수결(분류) 또는 평균(회귀)으로 예측하는 방법 |
| 모델 유형 | 비모수적 분류/회귀 모델, 훈련과정 없이 예측 시점에 계산 수행 |
| 기본 개념 | "가까운 데이터는 비슷한 특성을 가진다"는 가정에 기반 |
2.1 주요 특징
- Lazy Learning: 훈련 과정이 없고, 예측 시점에 계산
- 단순하고 직관적
- 모델의 복잡도 = 데이터 양
- 비선형 분류 가능
- K 값 설정에 민감 (과소/과적합 문제 발생 가능)
- 거리 측도에 의존적 (스케일링 필요)
2.2 거리 측정 방식 (Distance Metric)
| 거리 종류 | 설명 |
| 유클리디안 거리 | 일반적인 직선 거리 (연속형 변수에 주로 사용) |
| 맨해튼 거리 | 축을 따라 이동한 거리의 합 |
| 마할라노비스 거리 | 변수 간 상관관계 고려 |
| 자카드 유사도 | 이진/범주형 데이터 간 유사도 |
| 코사인 유사도 | 벡터 간 각도 기반 (문서 유사도 등) |
2.3 K값 설정에 따른 영향
| K값 | 특징 |
| 작을수록 (K ↓) | 경계가 세밀해짐- 과적합 위험 증가 |
| 클수록 (K ↑) | 경계가 부드러워짐- 과소적합 위험 증가 |
2.4 예시
"고객이 프리미엄 상품을 구매할 것인가?"를 예측
- 입력 데이터: 나이, 구매횟수, 소득 등
- 기존 고객 중 가장 가까운 K명의 고객을 찾고 다수의 행동을 따라 예측
2.5 한계 및 보완점
| 단점 | 보완 방법 |
| 계산 비용 큼 (예측 시점에 거리계산) | KD-Tree, Ball-Tree 등으로 속도 개선 |
| 차원의 저주(Curse of Dimensionality) | PCA 등으로 차원 축소 |
| 이상치에 민감 | 가중 KNN으로 거리 멀수록 영향 줄이기 |
3. 다변량 분석
3.1 분산분석 (ANOVA)
| 기법 | 설명 | 예시 |
| 일원분산분석 (One-Way ANOVA) |
한 개의 독립변수(요인)에 따라 집단 간 평균 차이 검정 | 마케팅 채널(광고A, 광고B, 광고C)에 따라 매출 차이 존재 여부 |
| 이원분산분석 (Two-Way ANOVA) |
두 개의 독립변수가 종속변수에 미치는 영향을 분석 + 상호작용 효과 포함 | 제품 종류와 지역이 만족도에 영향을 미치는지 검정 |
| 다변량분산분석 (MANOVA) |
두 개 이상의 종속변수를 동시에 고려하여 평균 차이를 검정 | 마케팅 전략에 따라 매출 + 고객 수 함께 분석 |
✅ 사용 조건
- 종속변수는 연속형, 독립변수는 범주형
- 정규성, 등분산성, 독립성 가정 필요
3.2 요인분석 (Factor Analysis)
| 항목 | 설명 |
| 목적 | 변수들 간의 상관관계를 이용해, 공통된 요인(Factor)을 추출하여 차원을 축소 |
| 활용 | 심리 검사, 설문 분석, 지능지수, 마케팅 세분화 등에서 잠재 요인 도출 |
✅ 요인 추출법 (Factor Extraction Methods)
| 기법 | 설명 |
| 주성분분석 (PCA) | 전체 분산을 기준으로 요인을 추출 (차원 축소 목적에 많이 사용) |
| 주축요인분석 (Principal Axis Factoring) | 공통 분산(공통성)만을 고려하여 요인 추출 |
| 최소제곱요인분석 | 잔차의 제곱합을 최소화하는 방식 |
✅ 요인 회전 (Factor Rotation)
- 회전을 통해 해석 가능한 구조로 변환
→ 회전은 요인의 분산 비율은 그대로, 해석력은 증가
| 구분 | 방법 | 특징 |
| 직각 회전 | VARIMAX, QUARTIMAX, EQUAMAX | 요인 간 독립성 유지 |
| 사각 회전 | OBLIMIN, PROMAX | 요인 간 상관관계 허용 |
✅ 요인분석의 결과 해석
- 요인 적재량 (Factor Loading): 각 변수와 요인 간의 상관계수
→ 0.4 이상이면 해당 요인과 유의한 관계 - 공통성 (Communality): 각 변수의 분산 중 요인으로 설명되는 비율
→ 1에 가까울수록 설명력이 높음 - 고유값 (Eigenvalue): 각 요인이 설명하는 총 분산량
→ 일반적으로 고유값 > 1인 요인을 선택
4. 시계열 분석
4.1 시계열의 기본 개념
| 항목 | 설명 |
| 정상성 (Stationarity) |
평균과 분산이 시간에 따라 변하지 않는 성질 → 대부분의 시계열 모델은 정상성 가정을 전제로 함 |
| 백색잡음 (White Noise) |
평균 = 0, 분산 = 일정, 자기상관이 없는 오차항 → 예측 불가능한 무작위 요소 |
| 정상화 기법 | 비정상 시계열 데이터를 정상화 하기 위한 기법 • 차분(Differencing): 연속된 시점 간 차이 • 이동평균(SMA): 일정 기간의 평균 • 지수평활(Exponential Smoothing): 최근값에 가중치 부여 • 로그, Box-Cox 변환: 분산 안정화 |
4.2 시계열 모형
| 모델 | 설명 | 차수 결정 기준 |
활용 포인트 |
| AR(p) (자기회귀) |
과거 관측값들의 선형결합으로 현재값 예측 | PACF → p+1 시점 이후 급격히 감소 | 자기 상관 구조를 가진 데이터에 유용 |
| MA(q) (이동평균) |
과거 오차항의 선형결합으로 현재값 예측 | ACF → q+1 시점 이후 급격히 감소 | 오차의 구조를 설명하고자 할 때 |
| ARMA(p,q) | AR + MA 혼합 모형 (정상 시계열에 사용) | PACF → AR 차수 / ACF → MA 차수 | 정상성 만족하는 시계열 데이터에 적합 |
| ARIMA(p,d,q) | ARMA에 비정상성을 제거하기 위한 차분(d) 추가 | ARMA에 비정상성을 제거하기 위한 차분(d) 추가 | 비정상 시계열 데이터(추세 포함)에 사용 |
| 분해 시계열 모델 (Decomposition) |
시계열을 네 가지 요인으로 분해: 1) 추세(Trend) 2) 계절성(Seasonality) 3) 순환성(Cyclic) 4) 불규칙성(Irregular) |
- | 각 요소의 영향력 분석 및 제거 후 예측에 활용 |
4.3 시계열 구성 요소
| 구성 | 요소 설명 | 예시 |
| 추세 (Trend) | 장기적으로 증가 또는 감소하는 방향성 | 인구 증가, 매출 증가 추세 |
| 계절성 (Seasonality) | 일정한 주기를 가진 패턴 | 여름철 아이스크림 매출 증가 |
| 순환성 (Cycle) | 경기, 산업 변화 등 비정기적 반복 패턴 | 경기 침체/호황 주기 |
| 불규칙성 (Irregular) | 설명할 수 없는 일시적 요인 | 자연재해, 사건 사고 |
✅ 기억법: “추·계·순·불”
→ "추운 계절이 순환되며 불규칙하게 반복된다"
5. 베이지안 분석
5.1 베이즈 정리 (Bayes' Theorem)
- 정의: 새로운 정보(조건부 확률)를 이용해 기존 가설의 확률(사전확률)을 사후확률로 갱신
- 공식:
- P(A|B) = P(B|A) ⋅ P(A) / P(B)
- P(A∣B): 사건 B가 발생한 후 A가 발생할 사후확률
- P(B∣A): A가 일어났을 때 B가 일어날 조건부 확률
- P(A): 사건 A의 사전확률
- P(B): 사건 B의 전체 확률 (정규화 역할)
📌 예시: 의학 검사 문제
어떤 질병의 유병률이 1%이고,
검사의 정확도는 99%라 할 때,
검사 양성 결과가 나왔을 때 실제로 질병이 있을 확률은?
- P(질병)=0.01
- P(양성∣질병)=0.99
- P(양성∣비질병)=0.01
- P(비질병)=0.99
P(질병∣양성)= (0.99 ⋅ 0.01) / (0.99 ⋅ 0.01 + 0.01 ⋅ 0.99) = 0.0099 / (0.0099 +0.0099) = 0.5
📌 결과: 양성이어도 실제 질병일 확률은 50%에 불과
→ 베이즈 정리의 직관적 중요성
5.2 나이브 베이즈 (Naive Bayes Classifier)
- 정의: 베이즈 정리 기반 분류기로, 모든 특성이 독립이라는 가정 하에 조건부 확률 계산을 단순화
- 가정: 모든 입력 변수(X₁, X₂, ..., Xₙ)는 독립적으로 종속변수 Y에 영향을 준다는 전제
→ 현실에서는 완벽한 독립은 불가능하나, 실무 성능은 우수
✅ 나이브 베이즈 종류
| 분류기 | 특징 | 활용 예 |
| Gaussian Naive Bayes | 연속형 변수, 정규분포 가정 | 수치형 센서 데이터 |
| Multinomial Naive Bayes | 단어 등장 횟수 기반, 문서 분류 | 뉴스/메일 분류 |
| Bernoulli Naive Bayes | 이진형 변수 (0/1) | 스팸메일 여부, 설문 데이터 |
6. 딥러닝 분석
6.1딥러닝 핵심 모델 비교
| 모델 | 주요 특징 | 구조 | 대표 활용 |
| DNN (Deep Neural Network) |
일반적인 다층 신경망, 정형·비정형 데이터 처리 가능 | 입력층 → 다층 은닉층 → 출력층 | 기본 예측/분류 모델 |
| CNN (Convolutional Neural Network) |
이미지에 특화, 공간 정보 보존 | Convolution → Pooling → Fully Connected | 이미지 분류, 객체 탐지 |
| RNN (Recurrent Neural Network) |
순차 데이터(텍스트, 음성, 시계열)에 적합- 기억 유지 구조 | 순환 구조 (이전 출력 → 현재 입력) | 번역, 음성 인식, 주가 예측 |
| 오토인코더 (Autoencoder) |
입력을 압축해 복원하는 비지도 모델 | Encoder → Latent → Decoder | 이상탐지, 생성 모델, 데이터 압축 |
6.2 DNN (Deep Neural Network)
- 다층 퍼셉트론(MLP)의 확장
- 은닉층이 2개 이상인 기본형 신경망
- 일반적인 구조로, 텍스트/정형 데이터에서도 사용 가능
- 과적합 방지를 위한
- Dropout
- Batch Normalization
- L1/L2 정규화
6.3 CNN (Convolutional Neural Network)
| 구성 | 설명 |
| Convolution Layer | 필터(커널)를 통해 지역 특징 추출 |
| Pooling Layer | 크기를 축소하며 주요 정보 유지 (Max/Average) |
| Flatten + Fully Connected | 이미지 → 벡터화 후 분류 |
✅ Feature Map 크기 계산
- 출력 크기=((N+2P−F)/S)+1
- N: 입력 이미지의 한쪽 길이 (예: 5×5 → N=5)
- F: 필터 크기 (예: 3×3 → F=3)
- P: 패딩 수 (보통 0 또는 1)
- S: 스트라이드 (움직이는 간격, 기본 1)
- 예시
- 입력: 5×5
- 필터: 3×3
- 패딩: 0
- 스트라이드: 1
→ 출력 Feature Map 크기: 3×3
※ Pooling Layer는 보통 크기를 절반으로 줄임
예: MaxPooling(2×2, stride=2) → 3×3 → 1×1
✅ 대표 모델
- LeNet, AlexNet, VGG, ResNet, EfficientNet 등
✅ 활용 분야
- 이미지 분류, 얼굴 인식, 객체 탐지(YOLO, RCNN)
- 자율주행 시스템
6.4 RNN (Recurrent Neural Network)
| 항목 | 설명 |
| 순환 구조 | 이전 시간의 출력을 현재 입력과 함께 사용 |
| 단점 | 긴 시퀀스에서 장기 의존성 문제 발생 |
| 개선 모델 | LSTM, GRU→ 게이트 방식으로 중요한 정보 유지 |
| 주요 응용 | 번역, 텍스트 생성, 주가 예측, 음성 인식 |
6.5 오토인코더 (Autoencoder)
| 구성 | 설명 |
| Encoder | 고차원 입력을 저차원 잠재벡터(Latent Vector)로 압축 |
| Latent Vector (잠재 벡터) |
데이터의 핵심 특징만을 담고 있는 벡터 표현 |
| Decoder | 잠재 벡터를 다시 원래 입력으로 복원(디코딩) |
| 비지도 학습 | 입력 = 정답 → 정답 없이도 학습 가능 (입력을 스스로 재생산) |
| 활용 | 이상탐지(정상만 학습 → 이상 판단), 차원축소, 데이터 복원 |
✅ 오토인코더의 핵심 포인트
- 입력과 출력이 동일하게 되도록 학습 (입력을 입력 자체로 복원)
- 중간의 잠재 공간이 의미 있는 압축 정보
- 손실 함수(Loss): 보통 MSE (입력과 복원값의 차이 최소화)
✅ 생성형 오토인코더 확장 모델
| 모델 | 설명 |
| VAE (Variational AutoEncoder) | 확률 분포를 기반으로 데이터 생성 (연속 공간에서 샘플링 가능) |
| GAN (Generative Adversarial Network) | 생성자 vs 판별자 구조 → 경쟁을 통한 진짜 같은 데이터 생성 |
| DCGAN | GAN + CNN 구조 → 고해상도 이미지 생성 가능 |
7. 비정형 데이터 분석
7.1 주요 기법 요약
| 기법 | 설명 | 대표 활용 |
| Word2Vec | 단어를 벡터 공간에 임베딩하여 의미 유사성 반영CBOW, Skip-Gram 방식 사용 | 유사 단어 추천, 문서 클러스터링 |
| TF-IDF | 단어의 빈도와 전체 문서에서의 희귀도를 곱해 단어의 중요도 산출 | 텍스트 분류, 키워드 추출, 검색엔진 |
| Seq2Seq | 입력 시퀀스를 인코더-디코더 구조로 출력 시퀀스로 변환 | 기계 번역, 요약, 질의응답 |
| Transformer | Self-Attention 기반 병렬 구조입출력 시퀀스 처리에 강력 | BERT, GPT 등 자연어 처리, 생성형 AI 등 |
7.2 Word2Vec
| 항목 | 설명 |
| 목적 | 단어를 수치 벡터로 표현해 의미 기반 연산 가능하게 함 |
| 구조 | CBOW: 주변 단어 → 중심 단어 예측Skip-Gram: 중심 단어 → 주변 단어 예측 |
| 특징 | 의미 유사 단어는 가까운 벡터 위치 → King - Man + Woman = Queen |
| 활용 | 유사 단어 탐색, 클러스터링, 추천 시스템 등 |
7.3 TF-IDF (Term Frequency – Inverse Document Frequency)
| 요소 | 설명 |
| TF | 특정 문서에서의 단어 빈도 |
| IDF | 해당 단어가 전체 문서에서 얼마나 희귀한지log(N/df) |
| 특징 | 자주 등장하지만 전체적으로는 드문 단어에 높은 가중치 부여 |
| 활용 | 키워드 추출, 문서 중요도 평가, 검색엔진 랭킹 등 |
7.4 Seq2Seq (Sequence-to-Sequence)
| 항목 | 설명 |
| 구조 | Encoder: 입력 시퀀스를 컨텍스트 벡터로 압축Decoder: 그 벡터로 출력 시퀀스 생성 |
| 특징 | 입력과 출력 길이가 달라도 처리 가능 |
| 단점 | 긴 시퀀스 처리 시 정보 손실 우려 |
| 개선 | Attention 기법으로 문맥 보완 |
| 활용 | 기계번역, 텍스트 요약, 챗봇 응답 생성 등 |
7.5 Transformer
| 항목 | 설명 |
| 구조 | Self-Attention 기반으로 인코더/디코더 병렬 처리 |
| 특징 | RNN과 달리 순차 처리 없이 병렬 학습 가능긴 문장 처리에 강함 |
| 핵심 구성 | Positional Encoding, Multi-Head Attention, Feed Forward, LayerNorm |
| 대표 모델 | BERT (인코더 기반, 문맥 이해)GPT (디코더 기반, 생성 특화)T5, BART (양방향 모델) |
| 활용 | 번역, 요약, 문서 분류, 생성형 AI 등 |
8. 기타 기법(기타 고급 분석 기법)
8.1 유전자 알고리즘 (Genetic Algorithm, GA)항목 설명
| 항목 | 설명 |
| 정의 | 진화 이론을 기반으로 한 최적화 알고리즘복잡한 문제에 대해 점진적으로 최적 해를 찾음 |
| 목적 | 최적의 해(solution)를 자연 선택 방식으로 진화시켜 발견 |
| 활용 분야 | 경로 최적화, 스케줄링, 광고 타겟 최적화, 머신러닝 파라미터 튜닝 등 |
✅핵심 절차
- 초기화: 여러 개의 해를 염색체로 표현 (이진, 순열, 실수 등)
- 적합도 평가: 해의 우수성 평가
- 선택: 높은 적합도의 염색체 선택 (룰렛, 토너먼트 등)
- 교차 (Crossover): 부모의 유전정보 결합
- 변이 (Mutation): 다양성 확보를 위한 유전자 일부 변경
- 대체: 자손과 기존 세대 중 우수한 해 선발
8.2 소셜 네트워크 분석 (Social Network Analysis, SNA)항목 설명
| 항목 | 설명 |
| 정의 | 노드(개체)와 엣지(관계)로 구성된 사회 연결망 분석 |
| 분석 목적 | 관계 구조 파악, 영향력 있는 사람 탐색, 정보 흐름 분석 |
| 활용 분야 | SNS 사용자 분석, 마케팅 타겟, 바이럴 전파 예측 등 |
- ✅중심성 지표
- 연결 중심성: 연결 수가 많은 노드
- 근접 중심성: 전체와의 평균 거리
- 매개 중심성: 경로상에서 브릿지 역할을 하는 정도
- 위세 중심성: 연결된 노드의 영향력까지 반영
8.3 감정 분석 (Sentiment Analysis)항목 설명
- 정의: 문장 내의 감정을 긍정/부정/중립으로 분류하는 기법
✅ 기법 유형
- 사전 기반: 감정 단어 사전 (긍/부정 단어 리스트 활용)
- 기계학습 기반: SVM, 로지스틱 회귀, Naive Bayes 등
- 딥러닝 기반: LSTM, BERT 등
✅ 활용 분야
- 상품 리뷰 분석, 여론 분석, 소셜 미디어 평판 추적, 챗봇 감성 대응 등
9. 앙상블 기법
9.1 주요 기법 비교표
| 기법 | 설명 | 특징 | 대표 알고리즘 |
| Voting | 여러 모델의 예측 결과를 다수결 또는 평균으로 결합 | 병렬 방식, 단순 조합 | Soft Voting, Hard Voting |
| Bagging | 복원추출(bootstrap)로 여러 데이터를 만들고, 각각 모델 훈련 후 결합 | 병렬 학습, 분산 감소 | Random Forest |
| Boosting | 이전 모델의 오분류 데이터에 가중치를 부여하며 순차적으로 학습 | 순차 학습, 편향 감소, 민감함 | AdaBoost, Gradient Boosting, XGBoost, LightGBM |
| Stacking | 여러 모델의 예측 결과를 메타 모델이 다시 학습하여 최종 예측 | 이질 모델 조합, 학습 복합도 ↑ | Logistic + Tree + NN 조합 등 |
9.2 Voting (투표 방식)
- 서로 다른 알고리즘의 예측값을 결합
- Hard Voting: 다수결 (가장 많이 나온 클래스 선택)
- Soft Voting: 예측 확률 평균 후 가장 높은 확률 선택
- 예: SVM + KNN + Decision Tree 결과를 다수결로 결합
9.3 Bagging (Bootstrap Aggregating)
- 훈련 데이터를 복원추출하여 여러 학습셋 생성
- 각 모델은 병렬로 독립 학습 → 결과를 평균 또는 투표로 결합
- 과적합 방지, 분산 감소에 효과적
- 대표 모델: Random Forest (여러 개의 의사결정트리 + 앙상블)
9.4 Boosting
- 약한 학습기를 순차적으로 연결해 성능 향상
- 오분류된 샘플에 더 큰 가중치를 부여
- 과소적합 개선, 하지만 이상치에 민감
- 대표 알고리즘:
- AdaBoost: 가중치 조정 기반
- Gradient Boosting (GBM): 잔차를 예측
- XGBoost: 정규화 + 속도 개선
- LightGBM: 대용량 고속 처리 (리프 기반 성장)
9.5 Stacking
- 서로 다른 모델의 예측값을 기반으로 다시 학습
- 레벨 0: 여러 개의 기반 모델
- 레벨 1: 메타 모델 (ex. Logistic Regression 등)
- 학습 흐름:
- 기본 모델들이 예측
- 예측값을 새로운 피처로 사용
- 최종 메타모델이 결과 예측
- 강력한 성능 가능, 다만 과적합 방지 주의
10. 비모수 통계(Non-parametric Statistics)
정의: 모집단의 분포(예: 정규성 등)를 가정하지 않고 수행하는 통계 기법
✅ 사용 조건
- 데이터가 정규분포를 따르지 않음
- 표본 수가 적고 이상치 존재
- 장점
- 순위, 서열, 범주형 데이터 사용 시 유리
- 적용 범위 넓음
- 이상치와 편향에 덜 민감함
- 계산이 비교적 간단
- 단점
- 정규 분포 시에는 모수 검정보다 덜 효율적
- 통계적 검정력 낮을 수 있음
10.1 대표 기법
| 기법 | 설명 | 대응 모수 기법 | 적용 상황 |
| 부호 검정 | 중위수를 기준으로 값이 위/아래에 있는지 부호로 검정 | 단일표본 t-검정 | 한 그룹의 전/후 비교 (부호만 사용) |
| 윌콕슨 부호순위 검정 (Wilcoxon Signed-Rank) |
두 관련 집단의 순위 차이를 이용한 검정 (쌍으로 된 대응표본) |
대응표본 t-검정 | 약 복용 전후, 교육 전후 성적 등 |
| U-검정 (Mann–Whitney U) |
두 독립 집단 간의 순위 차이 비교 (비대응) | 독립표본 t-검정 | 남녀 간 만족도 비교 등 |
| 크루스칼–왈리스 검정 | 세 개 이상의 독립 집단 간 순위 차이 비교 | 일원분산분석 (One-way ANOVA) |
학년별 성취도 비교 등 |
| 카이제곱 검정 | 관측 빈도와 기대 빈도의 차이 검정 (적합도, 독립성 검정) |
범주형 자료 전용 | 성별과 구매여부 간 독립성 검정 등 |
| 프리드먼 검정 | 세 개 이상의 반복 측정된 순위 데이터 비교 | 반복측정 분산분석 (Repeated ANOVA) |
시간대별 만족도 변화 (같은 대상 반복 측정) |
728x90
반응형
LIST