본문 바로가기
mathematics

통계적 가설검정 입문 (Z, t, χ²)

by 고유함으로 2025. 6. 21.
반응형

통계적 가설검정 입문 (Z, t, χ²)

통계적 가설검정은 표본 데이터를 통해 모집단의 특성을 검증하는 핵심 도구입니다. 단순히 평균 차이를 눈으로 비교하거나 비율을 추정하는 수준을 넘어, “이 차이가 우연히 발생했을 확률은 얼마인가”를 수치로 판단하게 해 줍니다. 특히 Z검정, t검정, 카이제곱(χ²)검정은 각각 모분산이 알려진 경우, 모분산이 알려지지 않은 경우, 범주형 자료의 적합도 및 독립성 검정에 필수적입니다.

이 글에서는 세 검정 방법의 가정·절차·계산식·해석 포인트를 순서대로 살펴보고, 실전에서 자주 범하는 오류를 방지하는 체크리스트를 제시합니다.


1. 가설검정의 기본 개념

  1. 귀무가설(H₀)
    • 검정의 출발점. “차이가 없다”, “효과가 없다” 등 기존 이론 또는 현 상태를 의미.
  2. 대립가설(H₁)
    • 연구자가 증명하고자 하는 주장. “차이가 있다”, “효과가 있다” 등.
  3. 유의수준(α)
    • 귀무가설을 잘못 기각할 최대 허용 확률(보통 0.05 또는 0.01).
  4. 검정통계량
    • 표본으로부터 계산한 값. 분포를 통해 p값을 구하는 기반.
  5. p값(P-value)
    • 귀무가설이 참일 때, 관측된 통계량 이상 극단적인 결과가 나올 확률.
  6. 결론
    • p값 ≤ α → 귀무가설 기각(유의미한 차이)
    • p값 > α → 귀무가설 채택(차이 없음)

2. Z검정 (모분산 σ²가 알려진 경우)

2-1. 가정

  • 모집단이 정규분포를 따르거나, 표본 크기 n ≥ 30로 중심극한정리가 적용 가능
  • 모분산 σ²가 알려져 있어야 함

2-2. 검정통계량

$$
Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}
$$

  • $\bar{X}$: 표본평균
  • $\mu_0$: 귀무가설 하의 모집단 평균
  • $\sigma$: 모집단 표준편차

2-3. 유의확률 계산

  • 단측검정(> 또는 <): $P(Z \ge z_{\text{obs}})$ 또는 $P(Z \le z_{\text{obs}})$
  • 양측검정(≠): $2 \times P(Z \ge |z_{\text{obs}}|)$

2-4. 예제

  • n = 50, σ = 10, 관측평균 $\bar{X} = 52$, $\mu_0 = 50$, α = 0.05

$$
Z = \frac{52 - 50}{10/\sqrt{50}} ≈ 1.414
$$

양측 p값 = $2 \times P(Z ≥ 1.414) ≈ 2 × 0.0786 = 0.1572$
→ p값 > α → 귀무가설 채택


3. t검정 (모분산 σ²가 알려지지 않은 경우)

3-1. 가정

  • 모집단이 정규분포를 따름
  • 모분산을 모르므로 표본분산 S²로 대체
  • 표본 크기가 작아도 적용 가능

3-2. 검정통계량

$$
t = \frac{\bar{X} - \mu_0}{S / \sqrt{n}}
$$

  • 자유도(df) = n – 1

3-3. 유의확률 계산

  • t분포표 또는 소프트웨어를 이용해 p값 산출
  • 단측·양측 검정 모두 t분포 특성 반영

3-4. 예제

  • n = 20, 관측평균 $\bar{X} = 105$, $\mu_0 = 100$, S = 8, α = 0.05

$$
t = \frac{105 - 100}{8/\sqrt{20}} ≈ \frac{5}{1.789} ≈ 2.796
$$

자유도 19 양측 p값 ≈ 0.011 → p값 < α → 귀무가설 기각


4. 카이제곱검정 (χ²)

4-1. 적합도검정(Goodness-of-Fit)

  • 목적: 관측 빈도가 기대 빈도(이론적 분포)와 일치하는지 검정
  • 통계량:

$$
χ^2 = \sum_{i=1}^k \frac{(O_i - E_i)^2}{E_i}
$$

  • Oᵢ: 관측빈도, Eᵢ: 기대빈도
    • 자유도: k – 1 – m (m = 추정된 모수 개수)

4-2. 독립성검정(Contingency)

  • 목적: 두 범주형 변수 간에 독립인지 검정
  • 통계량:

$$
χ^2 = \sum_{i,j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}},\quad E_{ij} = \frac{(\text{row}_i\text{합})(\text{col}_j\text{합})}{\text{전체합}}
$$

  • 자유도: (행수 – 1) × (열수 – 1)

4-3. 예제 (독립성)

  • 2×3 교차표에서 카이제곱 값 χ² = 8.23, df = (2–1)(3–1)=2, α = 0.05
    • χ² 임계값 = 5.991
    • 8.23 > 5.991 → 독립성 기각 → 두 변수는 관련 있음

5. 공통 절차 요약

  1. 가설 설정: H₀, H₁ 명확히 기술
  2. 유의수준 선택: 보통 0.05 또는 0.01
  3. 검정통계량 산출
  4. 분포표 또는 소프트웨어로 p값 또는 임계값 확인
  5. 결론 도출: p값 ≤ α면 H₀ 기각, 아니면 채택

6. 실수 방지 체크리스트

  • 가정 위반 여부 점검 (정규성, 독립성, 기대빈도 ≥ 5 등)
  • 모분산 알려짐/모름에 따라 Z vs t 올바르게 구분
  • 카이제곱 검정 시 최소 기대빈도 조건(보통 ≥ 5)에 유의
  • 단측/양측 방향 설정을 가설과 일치시킬 것
  • 자유도(df) 계산 오류 주의

결론

Z검정·t검정·카이제곱검정은 모분산 정보 여부자료 유형(연속 vs 범주)에 따라 선택하는 기본 도구입니다.

  • Z검정: 모분산을 알고, n이 충분히 클 때
  • t검정: 모분산을 모를 때(표본분산 사용)
  • χ²검정: 범주형 자료의 적합도나 독립성 검정

이 세 가지 방법의 절차와 가정을 정확히 이해하면, 평균 비교·비율 비교·교차분석 등 대부분의 기초 통계 문제를 자신 있게 해결할 수 있습니다. 검정 전후로 가정 위반 여부검정 방향을 반드시 확인하는 습관을 들이세요.


반응형