본문 바로가기
mathematics

연속확률변수와 확률밀도함수

by 고유함으로 2025. 6. 13.
반응형

연속확률변수와 확률밀도함수

“실수 전체 구간에서 값을 취하는 확률 변수는 어떻게 다룰까?”

동전처럼 결과가 ‘앞면·뒷면’으로 딱 떨어지는 이산 모형과 달리, 키·몸무게·온도·시간처럼 값이 연속적으로 변하는 현상은 셀 수 없이 많습니다. 이때 필요한 개념이 연속확률변수(Continuous Random Variable)와 그 행동을 정밀하게 묘사하는 확률밀도함수(Probability Density Function, PDF)입니다.

이번 글에서는 다음 흐름으로 연속확률모형을 완전 정리합니다.

  1. 연속확률변수의 정의와 특징
  2. 확률밀도함수의 성질
  3. 누적분포함수와의 관계
  4. 평균·분산·모멘트 계산 방법
  5. 대표 분포 5종 완전 분석
  6. 변수 변환과 합성 분포
  7. 시각화·모델링 실전 팁
  8. 자주 묻는 Q&A와 실수 방지 포인트

글을 읽고 나면 ‘확률이 0인데 가능성은 존재한다’는 연속 세계의 직관을 자연스럽게 받아들이고, 실제 데이터 분석에 PDF를 적용하는 방법까지 꿰뚫어 볼 수 있을 것입니다.


1. 연속확률변수란?

  • 정의
    실수 집합의 하위 구간에서 값을 취하고, 모든 구간에 대해 확률을 부여할 수 있는 변수.
  • 핵심 차이점
    • 이산 변수: 각 개별 값에 확률이 직접 할당
    • 연속 변수: 개별 값의 확률은 0, 대신 구간 확률을 적분으로 계산
  • 직관
    측정 단위를 아무리 세밀하게 나눠도 두 관측값 사이에 항상 또 다른 값이 존재한다.

2. 확률밀도함수(PDF)의 3대 성질

  1. 비음수성
  2. $$
    f(x)\ge0\quad\forall x
    $$
  3. 정규화
  4. $$
    \int_{-\infty}^{\infty}f(x),dx=1
    $$
  5. 구간 확률 계산
    임의 구간 $[a,b]$에서
  6. $$
    P(a\le X\le b)=\int_{a}^{b}f(x),dx
    $$

Tip - 점 확률은 0
$P(X=c)=\int_{c}^{c}f(x),dx=0$. ‘밀도’와 ‘확률’을 혼동하지 말 것.


3. 누적분포함수(CDF)와의 관계

  • 정의

$$
F(x)=P(X\le x)=\int_{-\infty}^{x}f(t),dt
$$

  • 미·적분 연결
    • CDF 미분 → PDF
    $$
    f(x)=\frac{d}{dx}F(x)
    $$
    • PDF 적분 → CDF
  • 활용
    역함수 $F^{-1}(u)$를 이용한 난수 생성(Inverse Transform Sampling) 등 시뮬레이션 핵심 도구.

4. 평균·분산·모멘트 계산

  • 기댓값(평균)

$$
\mathrm{E}[X]=\int_{-\infty}^{\infty}x,f(x),dx
$$

  • 분산

$$
\mathrm{Var}(X)=\int_{-\infty}^{\infty}(x-\mu)^{2}f(x),dx=\mathrm{E}[X^{2}]-\mu^{2}
$$

  • k차 모멘트

$$
\mu_{k}^{\prime}=\int_{-\infty}^{\infty}x^{k}f(x),dx
$$

  • 중심 모멘트

$$
\mu_{k}=\int_{-\infty}^{\infty}(x-\mu)^{k}f(x),dx
$$


5. 대표 연속분포 5종 완전 분석

5-1. 균등분포 $U(a,b)$

  • PDF: $f(x)=\dfrac1{b-a},;a\le x\le b$
  • 평균 $\dfrac{a+b}{2}$, 분산 $\dfrac{(b-a)^{2}}{12}$
  • 난수 생성이 쉬워 시뮬레이션 기본 재료.

5-2. 정규분포 $N(\mu,\sigma^{2})$

  • PDF:

$$
f(x)=\frac1{\sqrt{2\pi\sigma^{2}}}\exp\Bigl[-\frac{(x-\mu)^{2}}{2\sigma^{2}}\Bigr]
$$

  • ‘평균·분산만으로 결정’하는 최대 엔트로피 분포.
  • 중앙극한정리의 귀결 - 복잡한 합도 결국 정규에 가까워짐.

5-3. 지수분포 $\mathrm{Exp}(\lambda)$

  • PDF: $f(x)=\lambda e^{-\lambda x},;x\ge0$
  • 평균 $1/\lambda$, 분산 $1/\lambda^{2}$
  • ‘메모리리스’ 특성 - 대기·고장 간격 모델링.

5-4. 감마분포 $\Gamma(k,\theta)$

  • PDF:

$$
f(x)=\frac{x^{k-1}e^{-x/\theta}}{\Gamma(k)\theta^{k}},;x\ge0
$$

  • 지수·카이제곱·감마는 같은 계열.
  • 누적 고장 시간, 보험 손실액 등 모형에 활용.

5-5. 베타분포 $\mathrm{Beta}(\alpha,\beta)$

  • PDF:

$$
f(x)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1},;0\le x\le1
$$

  • 확률이 다시 확률을 따른다 - 베이지안 사 prior로 단골.

6. 변수 변환과 합성 분포

6-1. 단변수 변환 공리

  • $Y=g(X)$ 단사 함수, PDF 구하기

$$
f_{Y}(y)=f_{X}(g^{-1}(y))\bigl|\frac{d}{dy}g^{-1}(y)\bigr|
$$

6-2. 합·평균의 분포

  • 독립 $X_{1},\dots,X_{n}$의 합: 합성 PDF는 합성곱(convolution)

$$
f_{S}(s)=\int f_{X}(t),f_{Y}(s-t),dt
$$

6-3. 몬테카를로 시뮬레이션

  • 직접 적분이 어려운 경우 난수 표본을 뽑아 경험적 평균으로 근사.

7. 시각화·모델링 실전 팁

  • 히스토그램 vs KDE
    • 히스토그램: 구간 폭·시작점 의존
    • KDE: 커널 폭(bandwidth) 선택이 핵심
  • 로그 스케일
    긴 꼬리 분포는 로그 변환으로 가독성 상승.
  • 정규성 검정
    Q-Q Plot, Shapiro-Wilk 테스트로 모델 적합 여부 확인.
  • 이상치 처리
    밀도 기반 Local Outlier Factor, 확률 0.001 미만 영역 표본 제거 등.

8. 자주 묻는 Q&A와 실수 방지 포인트

  1. Q. 값 하나의 확률은 왜 0인가요?
    A. 연속변수는 무한히 많은 값을 가질 수 있어, 개별점을 적분하면 길이 0.
  2. Q. CDF가 계단형인데 연속인가요?
    A. 계단이면 사실상 이산. CDF가 연속·미분 가능해야 PDF가 정의됨.
  3. Q. 두 구간 확률이 겹치면 어떻게?
    A. 구간을 분할 후 각각 적분해 합산 - 포함·배제 원리 사용.
  4. Q. 분포가 왼쪽으로 치우쳤는데 왜도 값이 양수?
    A. 왜도 정의는 3차 중심 모멘트. ‘오른쪽 긴 꼬리’가 양수, ‘왼쪽’이 음수.
  5. 실수 방지
    • 단위 확인: PDF는 밀도, CDF는 순수 확률.
    • 적분 구간을 놓치지 말 것.
    • 정규화: 새로 만든 PDF는 반드시 적분이 1인지 검증.

결론

연속확률변수 분석의 핵심은 PDF를 읽고 적분해 구간 확률·모멘트를 얻는 과정입니다.

  • PDF로 ‘높이’를, CDF로 ‘넓이’를 시각화하면 직관이 쉽게 잡힙니다.
  • 평균·분산 외에 고차 모멘트를 사용하면 분포 모양까지 비교할 수 있습니다.
  • 합·변환 규칙과 시뮬레이션 기법을 익히면 복잡한 모형도 단계별로 해석 가능합니다.

데이터 과학·금융 공학·물리 시뮬레이션 등 거의 모든 정량 분야에서 연속확률변수는 핵심이므로, PDF와 친구가 되는 것이 장기적으로 큰 자산이 될 것입니다.

반응형