본문 바로가기
mathematics

이산확률변수 평균·분산·모멘트 완전 정리

by 고유함으로 2025. 6. 10.
반응형

이산확률변수 평균·분산·모멘트 완전 정리

이산확률변수는 결과가 셀 수 있는(정수형) 값으로 제한된 확률모형입니다. 동전 던지기, 주사위 눈, 결함품 개수, 웹 방문 횟수처럼 일상에서 자주 접하는 데이터가 대부분 이산형이기 때문에, 기초 통계에서 가장 먼저 배우는 영역이기도 합니다.

이 글에서는 평균(기댓값), 분산, 모멘트를 중심으로 이산확률분포를 정리하고, 각 개념이 실전 분석에서 어떤 역할을 하는지를 살펴보겠습니다.


1. 평균 - 분포의 ‘중심’을 한눈에

  • 정의

$$
\operatorname{E}[X]=\sum_{x}x;P(X=x)
$$

확률질량함수(PMF) 상 모든 값에 ‘확률 가중치’를 곱해 더한 값입니다.

  • 직관
    여러 번 실험했을 때 얻을 수 있는 장기적 평균.
  • 성질
    • 선형성: $\operatorname{E}[aX+b]=a\operatorname{E}[X]+b$
    • 독립 필요 없음 - 항상 성립

실전 팁

  1. 눈금이 고르게 배치된 분포(예: 균등분포)는 평균이 눈금의 중간값.
  2. 대칭 분포는 좌우가 같으므로 중앙이 평균.

2. 분산 - 흩어짐의 척도

  • 정의

$$
\operatorname{Var}(X)=\operatorname{E}\big[(X-\operatorname{E}[X])^{2}\big]
$$

평균으로부터의 거리 제곱을 평균낸 값입니다.

  • 실용 공식

$$
\operatorname{Var}(X)=\operatorname{E}[X^{2}]-(\operatorname{E}[X])^{2}
$$

  • 먼저 $\operatorname{E}[X^{2}]$을 구한 뒤 평균 제곱을 빼면 손쉽게 계산.
    • 성질
  • 스케일 변환: $\operatorname{Var}(aX+b)=a^{2}\operatorname{Var}(X)$
  • 독립 변수 합: $\operatorname{Var}(X+Y)=\operatorname{Var}(X)+\operatorname{Var}(Y)$ (X, Y 독립일 때)

실전 팁

  • 분산이 0이면 모든 값이 동일 - 상수와 동일.
  • 분산이 클수록 예측 불확실성 증가 - 위험 평가 지표로 자주 사용.

3. k차 모멘트 - 분포 모양의 고급 요약

  • 일반 모멘트

$$
\mu_{k}^{\prime}=\operatorname{E}[X^{k}]=\sum_{x}x^{k}P(X=x)
$$

평균을 포함해 모든 거듭제곱 평균을 통칭합니다.

  • 중심 모멘트

$$
\mu_{k}=\operatorname{E}\big[(X-\operatorname{E}[X])^{k}\big]
$$

‘중심’을 뺀 뒤 거듭제곱 - 분산은 $k=2$ 중심 모멘트.

  • 적률(moment)
    모멘트 자체를 가리키는 고전 용어 - ‘k차 적률’ = ‘k차 모멘트’.

왜 필요한가?

  1. 왜도(skewness) - 3차 중심 모멘트로 비대칭 정도 파악.
  2. 첨도(kurtosis) - 4차 중심 모멘트로 꼬리 두꺼움을 측정.
  3. 고차 모멘트가 같으면 분포의 세부 형태가 비슷하므로, 유사 분포 판단 기준으로 활용.

4. 모멘트 생성 함수(MGF) - 모멘트를 한 방에

  • 정의

$$
M_{X}(t)=\operatorname{E}[e^{tX}]=\sum_{x}e^{tx}P(X=x)
$$

  • 특징
    • $k$차 모멘트는 $M_{X}^{(k)}(0)$ - $k$차 도함수를 $t=0$에서 평가.
    • 이산·연속 구분 없이 사용 가능.
    • 두 변수 합의 MGF는 곱으로 전개 - 독립 합분포 찾기에 유용.

5. 예제 분포로 본 실전 계산

5-1. 베르누이(p)

  • $P(X=1)=p,;P(X=0)=1-p$
  • 평균 $\mu=p$
  • 분산 $\sigma^{2}=p(1-p)$

5-2. 이항(n, p)

  • $X=\sum_{i=1}^{n}X_{i}$, 각 $X_{i}$ 베르누이(p) 독립
  • 평균 $np$
  • 분산 $np(1-p)$

5-3. 포아송(λ)

  • $P(X=k)=\dfrac{e^{-λ}λ^{k}}{k!}$
  • 평균 $λ$
  • 분산 $λ$
  • 모든 중심 모멘트가 평균·분산만으로 표현 - ‘평균=분산’ 특징.

6. 분석·모델링에 쓰는 노하우

  1. 분산 비교로 변동성 판단
    • 머신러닝 분류에서 클래스 분포가 불균형이면 베르누이 분산이 커서 샘플 수가 더 필요.
  2. 고차 모멘트로 이상치 감지
    • 첨도가 높으면 ‘두꺼운 꼬리’ - 금융 리스크 모델에서 VaR 보정.
  3. MGF로 합분포 도출
    • 서로 다른 이산변수 합은 MGF 곱 후 역변환 - 코딩으로 자동화 가능.

결론

이산확률변수 분석은 평균으로 중심을, 분산으로 불확실성을, 모멘트로 전체 모양을 요약하는 과정입니다. 세 지표를 익히면 단순 빈도표를 넘어 분포의 특성을 정교하게 비교하고 예측 모델의 가정을 검증할 수 있습니다. 특히 MGF는 고차 모멘트를 쉽고 체계적으로 관리하게 해 주는 ‘만능 열쇠’이므로, 계산 환경(파이썬·R)과 함께 연습해 두면 실전 프로젝트에서 큰 도움이 됩니다. 앞으로 새로운 분포를 마주칠 때마다 세 단계로 점검해 보세요.

  1. 평균 계산 - 분포 중심 파악
  2. 분산 계산 - 변동성 여부 확인
  3. 모멘트·MGF 분석 - 모양과 합분포 특성 이해

습관이 되면 복잡한 확률모형도 자연스럽게 해석하게 될 것입니다.


반응형