728x90
반응형
SMALL
통계 기법 이해
1. 기술 통계 (Descriptive Statistics)
1.1 표본 추출
| 구분 | 설명 | 특징/활용 | 예시 |
| 전수조사 | 모집단 전체 조사 | 시간/비용 소모 큼, 정확성 ↑ | 인구총조사, 전국 학생 학업성취도 평가 |
| 표본조사 | 일부만 추출해 전체 추론 | 현실적으로 더 많이 사용됨 |
선거 여론조사, 소비자 만족도 조사
|
1.2 표본 추출 방법
| 기법 | 설명 | 특징 | 예시 |
| 랜덤 추출 | 무작위 추출 | 표본 오차 최소화 | 1000명 중 컴퓨터 난수로 100명 추출 |
| 계통 추출 | 일정 간격으로 추출 | 리스트 번호 필요 | 1000명 명단에서 10명 간격으로 추출 (1, 11, 21...) |
| 집락 추출 | 여러 군집 중 일부만 추출 | 계층 내 이질성, 계층 간 동질성 | 전국 학교 중 5개 학교를 무작위로 선택해 전 학생 조사 |
| 층화 추출 | 추출된 표본을 다시 포함시켜 추출 반복 | 계층 내 동질성, 계층 간 이질성 | 남녀 비율 6:4인 모집단에서 남자 60%, 여자 40% 비율로 추출 |
| 복원 추출 | 추출된 표본의 재사용 여부 | 확률이 동일하게 유지됨, 중복 표본 가능 | 동전 던지기 결과로 다시 표본에 포함 |
| 비복원 추출 | 추출된 표본은 다시 포함되지 않음 | 현실 조사에서 더 일반적 사용 | 설문 참여자는 한 번만 응답 |
- 집락 추출: “학교, 병원, 도시 등 덩어리 단위”로 뽑음
- 층화 추출: “성별, 지역, 연령 등 특성에 따라 나누고 비율 유지”
- 계통 추출: “명단에서 간격으로 쭉쭉”
- 랜덤 추출: “무작위지만 전체를 고르게”
2. 확률 이론 및 분포
2.1 기초 확률 이론
| 개념 | 수식 | 예시 |
| 조건부 확률 | P(A|B) = P(A∩B) / P(B) | 사건 B가 일어났다는 전제 하에, 사건 A가 일어날 확률 예: 백신을 맞은 사람 중 감기에 걸릴 확률 |
| 독립 사건 | P(A|B) = P(A) P(B) | 두 사건이 서로 영향을 주지 않음 예: 두 개의 주사위 결과 |
| 배반 사건 | A ∩ B = ∅ | 두 사건이 동시에 발생 불가 예: 동전 던졌을 때 앞면과 뒷면 |
| 베이즈 정리 | P(A|B) = P(B|A)P(A)/P(B) | 사후 확률 구하기 어떤 결과가 발생한 후, 그 원인이 무엇일지 확률을 역으로 계산 예: 양성 진단 결과를 받았을 때 실제로 질병일 화귤 |
2.2 확률 분포
✅이산 확률 분포 (Discrete) (결과값을 셀 수 있으면)
| 분포 | 설명 | 예시 |
| 이산균등분포 | 모든 값이 동일한 확률 | 주사위, 동전 |
| 베르누이 분포 | 한 번의 시행, 성공/실패 | 동전 한 번 던지기 |
| 이항 분포 | n번 시행, 성공 확률 p | 10명 중 감염자 수 |
| 기하 분포 | 첫 성공까지 시도 횟수 | 첫 판매 성공까지 몇 번 시도? |
| 다항 분포 | 여러 범주 중 하나 선택 반복 | 주사위 3번 던져 1, 2, 3이 각각 몇 번? |
| 포아송 분포 | 일정 시간/공간에서 발생 건수 | 시간당 고객 수, 하루 교통사고 수 |
✅ 연속 확률 분포 (Continuous) (결과값이 구간 내 실수면)
| 분포 | 설명 | 활용 |
| 정규 분포(Z-분포) | 평균 중심 분포, 종모양 | Z-검정, 시험 점수, 키, IQ |
| t-분포 | 정규 분포와 유사, 표본 수 적을 때 사용 | 평균 비교(n<30), t-검정 |
| 카이제곱 분포 | 범주형 분석, 비대칭, 양수만 존재 | 분산 비교, 교차표 분석, 적합도 검정 |
| F-분포 | 두 분산의 비율 비교 | 분산분석(ANOVA), F-검정 |
| 지수 분포 | 사건 간 시간 간격 모델링 | 고객 도착 간격, 기계 고장 주기 |
- 정규성 가정이 없는 경우에는 t-분포, 카이제곱 분포 , F-분포가 유용
✅ 분포 간 관계 및 요약
| 분포 | 파생 또는 유도관계 |
| 포아송 분포 | 이항 분포의 극한 근사 |
| t-분포 | 정규 분포 기반 + 표본 표준편차 |
| 카이제곱 분포 | 표준 정규분포의 제곱합 |
| F-분포 | 두 카이제곱 분포의 비율 |
| 지수 분포 | 포아송 분포의 간격 모델링에 해당 |
✅ 기댓값과 분산
- 이산 확률변수:
- E(X)=∑xi⋅P(xi)
- 각 값에 확률 곱한 총합
- 연속 확률변수:
- E(X)=∫xf(x)dx
- 확률 밀도 함수에 대해 적분
- 분산 (Var)
- Var(X)=E(X^2)−[E(X)]^2
- 평균으로부터 떨어진 정도
3. 표본분포
3.1 표본 분포(Sampling Distribution)
- 같은 크기의 표본을 여러 번 추출했을 때, 표본 통계량(예: 평균, 분산 등)이 이루는 분포
- 표본평균의 분포는 통계적 추론의 핵심 기반
3.2 표본평균 기댓값
- E(x̄)=μ
- 표본평균의 평균은 모집단의 평균과 같다 (편향 없음)
- 예: 전체 고등학생 평균 키가 170cm라면, 여러 번 표본조사를 통해 얻은 평균 키들의 평균도 결국 170cm에 수렴
| 개념 | 수식 | 설명 |
| 표본평균 기대값 | E(x̄)=μ | 모집단 평균과 같음 |
| 표본평균 분산 | V(x̄)=σ²/n | 표본 크기 ↑ → 분산 ↓ |
| 중심극한정리 | x̄∼N(μ,σ²/n) | 표본 크기 n ≥ 30이면 분포가 정규분포에 가까워짐 |
3.3 표본평균 분산
- V(x̄)= (σ²)/n
- 표본 크기 n이 커질수록, 평균의 분산은 작아짐 (→ 신뢰도 증가)
- 표본 크기 ↑ → 분산 ↓
- 예: 모집단의 분산이 100이고, 표본을 25명 추출하면 → 분산: 100/25 =
- 모집단의 분포가 무엇이든, 표본의 크기 nn이 충분히 크다면,
- 표본평균의 분포는 정규분포에 근사한다는 정리
- x̄ ∼N(μ, (σ²)/n), 평균 μ, 분산 (σ²)/n 정규분포를 따름
4.1 조건
- 표본 크기 n≥30 → 일반적으로 충분하다고 간주
- 표본은 독립적이며 랜덤하게 추출되어야 함
- 모집단의 분산이 유한해야 함
4.2 예시
- 모집단이 정규분포가 아님
- 표본이 크면 평균 분포는 정규 근사 가능
- 통계 추정/검정에 정규분포 가정 필요할 때
- 중심극한정리를 활용하면 정규성 가정이 성립
- 예: 고객 구매액이 비대칭 분포라도, 50명의 고객 평균 구매액 분포는 정규분포에 가까움
✅ 오해 방지
- 모집단 자체가 정규가 되는 게 아님!
→ 정규분포에 가까워지는 건 "표본통계량(평균)"의 분포 - n이 크면 무조건 정규화된다는 말은 틀림
→ 표본의 독립성과 모집단 분산 유한 조건이 반드시 충족됨
추론 통계 (Inferential Statistics)
1. 점추정 vs 구간추정
| 구분 | 설명 | 예시 |
| 점추정 | 모집단의 모수를 하나의 값으로 추정 | 평균 수입 = 280만원 |
| 구간추정 | 모수가 존재할 것으로 예상되는 범위(신뢰구간)로 추정 | 평균 수입: 270~290만원 (95% 신뢰수준) |
- 구간추정은 불확실성을 포함한 보다 신중한 추정 방법
1.1 모평균의 구간 추정 수식
- 모분산을 알고 있는 경우 → Z-분포 사용
- x̄ : 표본 평균
- σ : 모집단 표준편차
- n : 표본 수
- Zα/2 : 신뢰수준에 따른 Z값

📌 Z값 요약표
| 신뢰수준 | Zα/2 |
| 90% | 1.645 |
| 95% | 1.96 |
| 99% | 2.576 |
- 모분산을 모르는 경우 → t분포 사용
- S : 표본 표준편차
- t(α/2,n−1): 자유도 n-1인 t분포 값

- 언제 t-분포를 쓸까?
- 표본 수가 작고(n < 30)
- 모집단의 분산 σ²을 모를 때
1.2 예시
- 어떤 상품의 무게 평균을 알아보기 위해 100개를 측정했더니 평균이 500g, 표준편차 20g이었다.
- 이 표본으로 모평균의 95% 신뢰구간을 구하시오.
x̄=500, σ=20, n=100, Z(0.025)=1.96
신뢰구간=500±1.96⋅20/root(100)=500±3.92
⇒(496.08 , 503.92)
1.3 추정량의 4가지 준거 (좋은 추정량의 조건)
| 조건 | 설명 | 의미 |
| 1. 불편성 (Unbiasedness) | 추정량의 기댓값이 모수와 같아야 함 | E(추정량) = 모수 편향(Bias)이 없는 추정량 |
| 2. 일치성 (Consistency) | 표본 크기가 커질수록 모수에 수렴해야 함 | n → ∞일 때 → 추정량 → 모수 |
| 3. 효율성 (Efficiency) | 같은 모수를 추정하는 불편추정량 중에서 분산이 가장 작아야 함 | 낮은 분산 = 예측값의 변동이 작음 |
| 4. 충분성 (Sufficiency) | 해당 추정량이 표본이 가진 정보를 모두 담고 있어야 함 | 다른 추가 정보 없이 모수를 잘 설명 |
2. 가설검정
- 표본을 이용해 모집단에 대한 주장(H₀, H₁)의 타당성을 통계적으로 검증하는 절차
| 요소 | 설명 |
| 귀무가설 (H₀) | 기존에 받아들여진 주장 → “차이가 없다”, “효과 없다” |
| 대립가설 (H₁) | 입증하고 싶은 주장 → “차이가 있다”, “효과 있다” |
| 유의수준 (α) | 귀무가설이 참일 때도 기각할 확률 허용 한계 (보통 0.05 또는 5%) |
| 기각역 | 검정통계량이 들어가면 귀무가설을 기각하게 되는 값의 범위 |
| 1종 오류 | H₀가 참인데 기각하는 오류 → 유의수준 α 와 동일 |
| 2종 오류 | H₀가 거짓인데 채택하는 오류 → 검정력(Power = 1 - β)으로 보완 |

✅ 유의확률 (p-value)란?
- 정의: 귀무가설(H₀)이 참이라는 전제 하에, 현재 관측된 결과 이상으로 극단적인 값이 나올 확률
- 의의: 귀무가설을 기각할 수 있는 최소의 유의수준 (α)
- p-value < α (예: 0.05) → 귀무가설 기각
- p-value ≥ α → 귀무가설 채택 (기각하지 못함)
| 상황 | 해석 |
| p-value < 0.05 | 통계적으로 유의미 → H₀ 기각 |
| p-value ≥ 0.05 | 유의하지 않음 → H₀ 유지 |
📌 p-value는 "데이터가 H₀ 하에서 얼마나 드물게 나타나는가"를 말해주는 지표
- p값이 작을수록 귀무가설이 옳을 가능성이 낮고, 대립가설의 신빙성은 높아진다
- p값은 귀무가설이 참이라는 가정 하에서 관측값보다 극단적인 결과가 나올 확률
- 효과의 크기(Effect Size)와는 별개이며, 오직 통계적 유의성만 나타냄
2.1 검정 문제 풀이 5단계
| 단계 | 설명 | 예시 |
| 1. 가설 설정 | H₀, H₁ 명확히 설정 | "두 제품 간 만족도 차이가 없다" → H₀ |
| 2. 검정 방향 판단 | 양측검정 / 단측검정 구분 | "같지 않다" → 양측 / "크다, 작다" → 단측 |
| 3. 표본 수 확인 | 단일 vs 이표본 판단 | 한 집단 → 단일 / 두 집단 비교 → 이표본 |
| 4. 검정통계량 계산 | Z, t 값 등 계산 후 기각역 판별 | Z값이 기각역에 속하면 H₀ 기각 |
| 5. 검정방법 선택 | 단일표본, 대응표본, 독립표본 | 사전/사후 비교 → 대응, 집단 비교 → 독립 |
- 양측검정은 더 엄격 (기각역이 양쪽으로 분산됨)
2.2 검정 방향별 의미
| 검정 | 방식대립가설(H₁) 형태 | 사용 상황 |
| 양측검정 | H1: μ ≠ μ0 | "평균이 다르다" |
| 단측검정 (우측) | H1: μ > μ0 | "새 정책이 더 효과적" |
| 단측검정 (좌측) | H1: μ < μ0 | "이전보다 성능이 떨어짐" |
- 평균 비교: t-검정 사용
- 비율 비교: Z-검정 or 카이제곱 검정
- 분산 비교: F-검정
2.3 예시
- 문제: "신제품의 평균 만족도가 기존보다 높은지 알고싶다"
- H0: 새 제품 만족도 = 기존 만족도
H1: 새 제품 만족도 > 기존 만족도 (우측 단측검정) - 단일표본 or 두 집단인가? → 독립표본 검정
- 표본평균, 표준편차 계산 → t값 산출
- 기각역 반별(유의수준 0.05)
- t값이 기각역에 속하면 H0기각 → "새 제품이 더 우수하다"
728x90
반응형
LIST