자격증/빅데이터분석기사

[빅데이터분석기사] 빅데이터 탐색 - 통계기법 이해

glorypang 2025. 3. 31. 12:58
728x90
반응형
SMALL

통계 기법 이해

1. 기술 통계 (Descriptive Statistics)

1.1 표본 추출

구분  설명  특징/활용 예시 
전수조사 모집단 전체 조사 시간/비용 소모 큼, 정확성 ↑ 인구총조사, 전국 학생 학업성취도 평가
표본조사 일부만 추출해 전체 추론 현실적으로 더 많이 사용됨
선거 여론조사, 소비자 만족도 조사

 

1.2 표본 추출 방법

기법 설명  특징 예시
랜덤 추출 무작위 추출 표본 오차 최소화 1000명 중 컴퓨터 난수로 100명 추출
계통 추출 일정 간격으로 추출 리스트 번호 필요 1000명 명단에서 10명 간격으로 추출 (1, 11, 21...)
집락 추출 여러 군집 중 일부만 추출 계층 내 이질성, 계층 간 동질성 전국 학교 중 5개 학교를 무작위로 선택해 전 학생 조사
층화 추출 추출된 표본을 다시 포함시켜 추출 반복 계층 내 동질성, 계층 간 이질성 남녀 비율 6:4인 모집단에서 남자 60%, 여자 40% 비율로 추출
복원 추출 추출된 표본의 재사용 여부 확률이 동일하게 유지됨, 중복 표본 가능 동전 던지기 결과로 다시 표본에 포함

비복원 추출 추출된 표본은 다시 포함되지 않음 현실 조사에서 더 일반적 사용 설문 참여자는 한 번만 응답

 

  • 집락 추출: “학교, 병원, 도시 등 덩어리 단위”로 뽑음
  • 층화 추출: “성별, 지역, 연령 등 특성에 따라 나누고 비율 유지”
  • 계통 추출: “명단에서 간격으로 쭉쭉”
  • 랜덤 추출: “무작위지만 전체를 고르게”

 


2. 확률 이론 및 분포

2.1 기초 확률 이론

개념  수식  예시
조건부 확률 P(A|B) =  P(A∩B) / P(B) 사건 B가 일어났다는 전제 하에, 사건 A가 일어날 확률
예: 백신을 맞은 사람 중 감기에 걸릴 확률
독립 사건 P(A|B) =  P(A) P(B) 두 사건이 서로 영향을 주지 않음
예: 두 개의 주사위 결과
배반 사건 A ∩ B = ∅ 두 사건이 동시에 발생 불가
예: 동전 던졌을 때 앞면과 뒷면
베이즈 정리 P(A|B) = P(B|A)P(A)/P(B) 사후 확률 구하기
어떤 결과가 발생한 후, 그 원인이 무엇일지 확률을 역으로 계산
예: 양성 진단 결과를 받았을 때 실제로 질병일 화귤

 

2.2 확률 분포

✅이산 확률 분포 (Discrete) (결과값을 셀 수 있으면)

분포  설명  예시
이산균등분포 모든 값이 동일한 확률 주사위, 동전
베르누이 분포 한 번의 시행, 성공/실패 동전 한 번 던지기
이항 분포 n번 시행, 성공 확률 p 10명 중 감염자 수
기하 분포 첫 성공까지 시도 횟수 첫 판매 성공까지 몇 번 시도?
다항 분포 여러 범주 중 하나 선택 반복 주사위 3번 던져 1, 2, 3이 각각 몇 번?
포아송 분포 일정 시간/공간에서 발생 건수 시간당 고객 수, 하루 교통사고 수

 

 

✅ 연속 확률 분포 (Continuous) (결과값이 구간 내 실수면)

분포  설명  활용
정규 분포(Z-분포) 평균 중심 분포, 종모양 Z-검정, 시험 점수, 키, IQ
t-분포 정규 분포와 유사, 표본 수 적을 때 사용 평균 비교(n<30), t-검정
카이제곱 분포 범주형 분석, 비대칭, 양수만 존재 분산 비교, 교차표 분석, 적합도 검정
F-분포 두 분산의 비율 비교 분산분석(ANOVA), F-검정
지수 분포 사건 간 시간 간격 모델링 고객 도착 간격, 기계 고장 주기
  • 정규성 가정이 없는 경우에는 t-분포, 카이제곱 분포 , F-분포가 유용

✅ 분포 간 관계 및 요약

분포 파생 또는 유도관계
포아송 분포 이항 분포의 극한 근사
t-분포 정규 분포 기반 + 표본 표준편차
카이제곱 분포 표준 정규분포의 제곱합
F-분포 두 카이제곱 분포의 비율
지수 분포 포아송 분포의 간격 모델링에 해당

 

✅ 기댓값과 분산

  • 이산 확률변수:
    •  E(X)=xiP(xi)
    • 각 값에 확률 곱한 총합
  • 연속 확률변수:
    • E(X)=xf(x)dx
    • 확률 밀도 함수에 대해 적분
  • 분산 (Var)
    • Var(X)=E(X^2)[E(X)]^2
    • 평균으로부터 떨어진 정도

3. 표본분포

3.1 표본 분포(Sampling Distribution)

  • 같은 크기의 표본을 여러 번 추출했을 때, 표본 통계량(예: 평균, 분산 등)이 이루는 분포
  • 표본평균의 분포는 통계적 추론의 핵심 기반

3.2 표본평균 기댓값

  • E(x̄)=μ
  • 표본평균의 평균은 모집단의 평균과 같다 (편향 없음)
  • 예: 전체 고등학생 평균 키가 170cm라면, 여러 번 표본조사를 통해 얻은 평균 키들의 평균도 결국 170cm에 수렴
개념  수식  설명
표본평균 기대값 E(x̄)=μ 모집단 평균과 같음
표본평균 분산 V(x̄)=σ²/n 표본 크기 ↑ → 분산 ↓
중심극한정리 N(μ,σ²/n) 표본 크기 n ≥ 30이면 분포가 정규분포에 가까워짐

 

3.3 표본평균 분산

  • V(x̄)= (σ²)/n
  • ​표본 크기 n이 커질수록, 평균의 분산은 작아짐 (→ 신뢰도 증가)
  • 표본 크기 ↑ → 분산 ↓
  • 예: 모집단의 분산이 100이고, 표본을 25명 추출하면 → 분산: 100/25 =

  • 모집단의 분포가 무엇이든, 표본의 크기 nn이 충분히 크다면,
  • 표본평균의 분포는 정규분포에 근사한다는 정리
  • x̄ ∼N(μ, (σ²)/n), 평균 μ, 분산 (σ²)/n 정규분포를 따름

4.1 조건

  • 표본 크기 n≥30 → 일반적으로 충분하다고 간주
  • 표본은 독립적이며 랜덤하게 추출되어야 함
  • 모집단의 분산이 유한해야 함

4.2 예시

  • 모집단이 정규분포가 아님
    • 표본이 크면 평균 분포는 정규 근사 가능
  • 통계 추정/검정에 정규분포 가정 필요할 때
    • 중심극한정리를 활용하면 정규성 가정이 성립
  • 예: 고객 구매액이 비대칭 분포라도, 50명의 고객 평균 구매액 분포는 정규분포에 가까움

 

오해 방지

  • 모집단 자체가 정규가 되는 게 아님!
    → 정규분포에 가까워지는 건 "표본통계량(평균)"의 분포
  • n이 크면 무조건 정규화된다는 말은 틀림
    → 표본의 독립성과 모집단 분산 유한 조건이 반드시 충족됨

 


추론 통계 (Inferential Statistics)

1. 점추정 vs 구간추정

구분  설명  예시
점추정 모집단의 모수를 하나의 값으로 추정 평균 수입 = 280만원
구간추정 모수가 존재할 것으로 예상되는 범위(신뢰구간)로 추정 평균 수입: 270~290만원 (95% 신뢰수준)
  • 구간추정은 불확실성을 포함한 보다 신중한 추정 방법

1.1 모평균의 구간 추정 수식

    • 모분산을 알고 있는 경우 → Z-분포 사용
      1. x̄ : 표본 평균
      2. σ : 모집단 표준편차
      3. n :  표본 수
      4. Zα/2 : 신뢰수준에 따른 Z값

📌 Z값 요약표

신뢰수준 Zα/2
90% 1.645
95% 1.96
99% 2.576

 

 

    • 모분산을 모르는 경우 t분포 사용
      1. S : 표본 표준편차
      2. t(α/2,n1): 자유도 n-1인 t분포 값

  • 언제 t-분포를 쓸까?
    • 표본 수가 작고(n < 30)
    • 모집단의 분산 σ²을 모를 때

 

1.2 예시

  • 어떤 상품의 무게 평균을 알아보기 위해 100개를 측정했더니 평균이 500g, 표준편차 20g이었다.
  • 이 표본으로 모평균의 95% 신뢰구간을 구하시오.
x̄=500, σ=20, n=100, Z(0.025)=1.96
신뢰구간=500±1.96⋅20/root(100)=500±3.92
⇒(496.08 , 503.92)

 

 

1.3 추정량의 4가지 준거 (좋은 추정량의 조건)

조건 설명 의미
1. 불편성 (Unbiasedness) 추정량의 기댓값이 모수와 같아야 함 E(추정량) = 모수
편향(Bias)이 없는 추정량
2. 일치성 (Consistency) 표본 크기가 커질수록 모수에 수렴해야 함 n → ∞일 때 → 추정량 → 모수
3. 효율성 (Efficiency) 같은 모수를 추정하는 불편추정량 중에서 분산이 가장 작아야 함 낮은 분산 = 예측값의 변동이 작음
4. 충분성 (Sufficiency) 해당 추정량이 표본이 가진 정보를 모두 담고 있어야 함 다른 추가 정보 없이 모수를 잘 설명

2. 가설검정

  • 표본을 이용해 모집단에 대한 주장(H₀, H₁)의 타당성을 통계적으로 검증하는 절차
요소 설명
귀무가설 (H₀) 기존에 받아들여진 주장 → “차이가 없다”, “효과 없다”
대립가설 (H₁) 입증하고 싶은 주장 → “차이가 있다”, “효과 있다”
유의수준 (α) 귀무가설이 참일 때도 기각할 확률 허용 한계 (보통 0.05 또는 5%)
기각역 검정통계량이 들어가면 귀무가설을 기각하게 되는 값의 범위
1종 오류 H₀가 참인데 기각하는 오류 → 유의수준 α 와 동일
2종 오류 H₀가 거짓인데 채택하는 오류 → 검정력(Power = 1 - β)으로 보완

 

 

✅ 유의확률 (p-value)란?

  • 정의: 귀무가설(H₀)이 참이라는 전제 하에, 현재 관측된 결과 이상으로 극단적인 값이 나올 확률
  • 의의: 귀무가설을 기각할 수 있는 최소의 유의수준 (α)
    • p-value < α (예: 0.05) → 귀무가설 기각
    • p-value ≥ α → 귀무가설 채택 (기각하지 못함)
상황 해석
p-value < 0.05 통계적으로 유의미 → H₀ 기각
p-value ≥ 0.05 유의하지 않음 → H₀ 유지

📌 p-value는 "데이터가 H₀ 하에서 얼마나 드물게 나타나는가"를 말해주는 지표

  • p값이 작을수록 귀무가설이 옳을 가능성이 낮고, 대립가설의 신빙성은 높아진다 
  • p값은 귀무가설이 참이라는 가정 하에서 관측값보다 극단적인 결과가 나올 확률
  • 효과의 크기(Effect Size)와는 별개이며, 오직 통계적 유의성만 나타냄

 

2.1 검정 문제 풀이 5단계

단계 설명 예시
1. 가설 설정 H₀, H₁ 명확히 설정 "두 제품 간 만족도 차이가 없다" → H₀
2. 검정 방향 판단 양측검정 / 단측검정 구분 "같지 않다" → 양측 / "크다, 작다" → 단측
3. 표본 수 확인 단일 vs 이표본 판단 한 집단 → 단일 / 두 집단 비교 → 이표본
4. 검정통계량 계산 Z, t 값 등 계산 후 기각역 판별 Z값이 기각역에 속하면 H₀ 기각
5. 검정방법 선택 단일표본, 대응표본, 독립표본 사전/사후 비교 → 대응, 집단 비교 → 독립
  • 양측검정은 더 엄격 (기각역이 양쪽으로 분산됨)

 

2.2 검정 방향별 의미

검정 방식대립가설(H₁)  형태 사용 상황
양측검정 H1: μ μ0 "평균이 다르다"
단측검정 (우측) H1: μ > μ0 "새 정책이 더 효과적"
단측검정 (좌측) H1: μ < μ0 "이전보다 성능이 떨어짐"
  • 평균 비교: t-검정 사용
  • 비율 비교: Z-검정 or 카이제곱 검정
  • 분산 비교: F-검정

 

2.3 예시

  • 문제: "신제품의 평균 만족도가 기존보다 높은지 알고싶다"
  1. H0: 새 제품 만족도 = 기존 만족도
    H1: 새 제품 만족도 > 기존 만족도 (우측 단측검정)
  2. 단일표본 or 두 집단인가? → 독립표본 검정
  3. 표본평균, 표준편차 계산 → t값 산출
  4. 기각역 반별(유의수준 0.05)
  5. t값이 기각역에 속하면 H0기각 → "새 제품이 더 우수하다"
728x90
반응형
LIST