이산확률변수 평균·분산·모멘트 완전 정리
이산확률변수는 결과가 셀 수 있는(정수형) 값으로 제한된 확률모형입니다. 동전 던지기, 주사위 눈, 결함품 개수, 웹 방문 횟수처럼 일상에서 자주 접하는 데이터가 대부분 이산형이기 때문에, 기초 통계에서 가장 먼저 배우는 영역이기도 합니다.
이 글에서는 평균(기댓값), 분산, 모멘트를 중심으로 이산확률분포를 정리하고, 각 개념이 실전 분석에서 어떤 역할을 하는지를 살펴보겠습니다.
1. 평균 - 분포의 ‘중심’을 한눈에
- 정의
$$
\operatorname{E}[X]=\sum_{x}x;P(X=x)
$$
확률질량함수(PMF) 상 모든 값에 ‘확률 가중치’를 곱해 더한 값입니다.
- 직관
여러 번 실험했을 때 얻을 수 있는 장기적 평균. - 성질
- 선형성: $\operatorname{E}[aX+b]=a\operatorname{E}[X]+b$
- 독립 필요 없음 - 항상 성립
실전 팁
- 눈금이 고르게 배치된 분포(예: 균등분포)는 평균이 눈금의 중간값.
- 대칭 분포는 좌우가 같으므로 중앙이 평균.
2. 분산 - 흩어짐의 척도
- 정의
$$
\operatorname{Var}(X)=\operatorname{E}\big[(X-\operatorname{E}[X])^{2}\big]
$$
평균으로부터의 거리 제곱을 평균낸 값입니다.
- 실용 공식
$$
\operatorname{Var}(X)=\operatorname{E}[X^{2}]-(\operatorname{E}[X])^{2}
$$
- 먼저 $\operatorname{E}[X^{2}]$을 구한 뒤 평균 제곱을 빼면 손쉽게 계산.
- 성질
- 스케일 변환: $\operatorname{Var}(aX+b)=a^{2}\operatorname{Var}(X)$
- 독립 변수 합: $\operatorname{Var}(X+Y)=\operatorname{Var}(X)+\operatorname{Var}(Y)$ (X, Y 독립일 때)
실전 팁
- 분산이 0이면 모든 값이 동일 - 상수와 동일.
- 분산이 클수록 예측 불확실성 증가 - 위험 평가 지표로 자주 사용.
3. k차 모멘트 - 분포 모양의 고급 요약
- 일반 모멘트
$$
\mu_{k}^{\prime}=\operatorname{E}[X^{k}]=\sum_{x}x^{k}P(X=x)
$$
평균을 포함해 모든 거듭제곱 평균을 통칭합니다.
- 중심 모멘트
$$
\mu_{k}=\operatorname{E}\big[(X-\operatorname{E}[X])^{k}\big]
$$
‘중심’을 뺀 뒤 거듭제곱 - 분산은 $k=2$ 중심 모멘트.
- 적률(moment)
모멘트 자체를 가리키는 고전 용어 - ‘k차 적률’ = ‘k차 모멘트’.
왜 필요한가?
- 왜도(skewness) - 3차 중심 모멘트로 비대칭 정도 파악.
- 첨도(kurtosis) - 4차 중심 모멘트로 꼬리 두꺼움을 측정.
- 고차 모멘트가 같으면 분포의 세부 형태가 비슷하므로, 유사 분포 판단 기준으로 활용.
4. 모멘트 생성 함수(MGF) - 모멘트를 한 방에
- 정의
$$
M_{X}(t)=\operatorname{E}[e^{tX}]=\sum_{x}e^{tx}P(X=x)
$$
- 특징
- $k$차 모멘트는 $M_{X}^{(k)}(0)$ - $k$차 도함수를 $t=0$에서 평가.
- 이산·연속 구분 없이 사용 가능.
- 두 변수 합의 MGF는 곱으로 전개 - 독립 합분포 찾기에 유용.
5. 예제 분포로 본 실전 계산
5-1. 베르누이(p)
- $P(X=1)=p,;P(X=0)=1-p$
- 평균 $\mu=p$
- 분산 $\sigma^{2}=p(1-p)$
5-2. 이항(n, p)
- $X=\sum_{i=1}^{n}X_{i}$, 각 $X_{i}$ 베르누이(p) 독립
- 평균 $np$
- 분산 $np(1-p)$
5-3. 포아송(λ)
- $P(X=k)=\dfrac{e^{-λ}λ^{k}}{k!}$
- 평균 $λ$
- 분산 $λ$
- 모든 중심 모멘트가 평균·분산만으로 표현 - ‘평균=분산’ 특징.
6. 분석·모델링에 쓰는 노하우
- 분산 비교로 변동성 판단
- 머신러닝 분류에서 클래스 분포가 불균형이면 베르누이 분산이 커서 샘플 수가 더 필요.
- 고차 모멘트로 이상치 감지
- 첨도가 높으면 ‘두꺼운 꼬리’ - 금융 리스크 모델에서 VaR 보정.
- MGF로 합분포 도출
- 서로 다른 이산변수 합은 MGF 곱 후 역변환 - 코딩으로 자동화 가능.
결론
이산확률변수 분석은 평균으로 중심을, 분산으로 불확실성을, 모멘트로 전체 모양을 요약하는 과정입니다. 세 지표를 익히면 단순 빈도표를 넘어 분포의 특성을 정교하게 비교하고 예측 모델의 가정을 검증할 수 있습니다. 특히 MGF는 고차 모멘트를 쉽고 체계적으로 관리하게 해 주는 ‘만능 열쇠’이므로, 계산 환경(파이썬·R)과 함께 연습해 두면 실전 프로젝트에서 큰 도움이 됩니다. 앞으로 새로운 분포를 마주칠 때마다 세 단계로 점검해 보세요.
- 평균 계산 - 분포 중심 파악
- 분산 계산 - 변동성 여부 확인
- 모멘트·MGF 분석 - 모양과 합분포 특성 이해
습관이 되면 복잡한 확률모형도 자연스럽게 해석하게 될 것입니다.
'mathematics' 카테고리의 다른 글
독립·종속 사건과 베이즈 정리 (0) | 2025.06.08 |
---|---|
확률 기본 공식 완전 정리: 덧셈정리, 곱셈정리, 조건부확률 (0) | 2025.06.05 |
확률과 통계 경우의 수 완전 정리: 복합·배열·조합 노하우 (0) | 2025.06.03 |
기하와 벡터 증명 베스트 문제 10선 (0) | 2025.06.01 |
삼각형 중선·무게중심·외심·내심 벡터 풀이 (0) | 2025.05.29 |