반응형
이항분포·정규분포 근사 연계 완전 정리
동전을 100번 던져 앞면이 55번 나올 확률을 정확하게 구하려면 이항분포 공식을 써야 합니다. 그런데 시행 횟수가 커질수록 팩토리얼 계산량이 폭발적으로 늘어나 실전 계산이 까다롭습니다. 이때 등장하는 해법이 정규분포 근사입니다. 18세기 드무아브르·라플라스가 발견한 이 아이디어는 이후 중앙극한정리(CLT)로 일반화되어 ‘대수의 법칙을 빠르게 써먹는’ 대표 기법이 되었습니다.
이번 글에서는 다음 순서로 이항분포를 정규분포로 근사하는 방법을 완벽히 정리합니다.
- 이항분포 기본 개념 리뷰
- 정규 근사 성립 조건
- 연속성 보정(continuity correction)
- 단계별 계산 절차
- 실전 예제 2개 풀어보기
- 근사 오차 분석과 주의사항
- 확장 - 포아송 근사·t분포 연결 고리
1. 이항분포 복습
- 모형: 고정된 시행 n회 중 성공 확률이 p인 사건이 k번 일어날 확률
- 확률질량함수(PMF)
$$
P(X=k)=\binom{n}{k}p^{k}(1-p)^{n-k}
$$
- 평균·분산
$$
\mu=np,\quad\sigma^{2}=np(1-p)
$$
2. 정규 근사 성립 조건
- 필수 조건
- 시도 횟수 n이 충분히 크다.
- np ≥ 5, n(1-p) ≥ 5 (교과서 권장 값, 일부 문헌은 10).
- 직관
성공·실패가 서로 독립이면 X는 ‘n개의 베르누이(p) 합’. 합은 CLT에 따라 대략 정규 $N(\mu,\sigma^{2})$로 수렴.
3. 연속성 보정
이항은 이산, 정규는 연속. 경계 확률이 달라지는 오류를 줄이기 위해 0.5 단위를 추가하거나 빼준다.
원하는 사건 | 연속성 보정 구간 |
---|---|
X = k | k - 0.5 ≤ Y ≤ k + 0.5 |
X ≤ k | Y ≤ k + 0.5 |
X ≥ k | Y ≥ k - 0.5 |
여기서 Y는 정규 근사된 연속 변수입니다.
4. 단계별 계산 절차
- 평균·표준편차 계산
$\mu = np,; \sigma = \sqrt{np(1-p)}$ - 연속성 보정 적용
원하는 이항 범위를 0.5 단위로 확장 - Z-점수 변환
- $$
Z=\frac{Y-\mu}{\sigma}
$$ - 표준정규 분포표(또는 계산기)로 확률 찾기
- (선택) 근사 오차 비교
정확한 이항 확률과 차이를 구해 신뢰도 평가
5. 실전 예제
예제 1 - 단일 확률
문제: n = 100, p = 0.5. 앞면이 55번 이상 나올 확률은?
- $\mu = 50,; \sigma = 5$.
- X ≥ 55 → 연속성 보정: Y ≥ 54.5.
- Z = (54.5 − 50) / 5 = 0.9.
- P(Z ≥ 0.9) = 0.1841(표준정규).
- 정확 이항 계산은 ≈ 0.1849 → 오차 0.0008. 근사치로 충분히 정확.
예제 2 - 구간 확률
문제: n = 60, p = 0.3. 성공 횟수가 20~25개일 확률?
- $\mu = 18,; \sigma ≈ 3.547$.
- 20 ≤ X ≤ 25 → 19.5 ≤ Y ≤ 25.5.
- Z_1 = (19.5 − 18)/3.547 ≈ 0.423, Z_2 = (25.5 − 18)/3.547 ≈ 2.116.
- P(0.423 ≤ Z ≤ 2.116) = 0.1665.
- 이항 정확 확률 ≈ 0.1677 → 오차 0.0012.
6. 근사 오차 분석과 주의사항
- 꼬리 영역: p가 0.1 이하 또는 0.9 이상이면 정규 꼬리가 가늘어 근사가 부정확. 이때는 포아송 근사(np < 5)나 정확 이항 사용.
- 작은 n: np = 4라도 CLT는 적용될 수 있지만, 연속성 보정을 해도 오차가 커질 확률이 높다.
- 스케일 확인: σ가 1 미만이면 Z변환 후 분포가 과도하게 뾰족해져 근사 실패 가능.
7. 확장 고리
- 포아송 근사: n이 크고 p가 매우 작아서 λ = np가 상수일 때 $X \sim \mathrm{Poisson}(λ)$.
- 정규분포에서 t분포: 표본 분산 σ² 추정이 필요한 경우 자유도 n − 1로 t분포를 사용.
- 베르누이 합 → 감마·카이제곱: X가 n번 성공까지 걸린 횟수 → 기하·음이항 분포, 그 합이 다시 정규 근사.
결론
이항분포를 정규분포로 근사하는 테크닉은 통계·데이터 과학·품질 관리에서 빠질 수 없는 도구입니다. 핵심은 np와 n(1-p)의 크기를 먼저 확인하고, 연속성 보정으로 경계 오차를 줄이는 것입니다. 이 단계를 습관화하면 대규모 확률 문제를 몇 줄 계산으로 해결할 수 있습니다. 앞으로는 이항 모델을 접할 때 다음 체크리스트를 기억하세요.
- np, n(1-p) ≥ 5?
- 연속성 보정 적용?
- Z변환 후 표준정규표로 확률 추출?
이 세 단계를 자연스럽게 연결한다면 대다수 비율·성공 횟수 문제를 빠르고 정확하게 풀 수 있습니다.
반응형
'mathematics' 카테고리의 다른 글
연속확률변수와 확률밀도함수 (0) | 2025.06.13 |
---|---|
이산확률변수 평균·분산·모멘트 완전 정리 (0) | 2025.06.10 |
독립·종속 사건과 베이즈 정리 (0) | 2025.06.08 |
확률 기본 공식 완전 정리: 덧셈정리, 곱셈정리, 조건부확률 (0) | 2025.06.05 |
확률과 통계 경우의 수 완전 정리: 복합·배열·조합 노하우 (0) | 2025.06.03 |