연속확률변수와 확률밀도함수
“실수 전체 구간에서 값을 취하는 확률 변수는 어떻게 다룰까?”
동전처럼 결과가 ‘앞면·뒷면’으로 딱 떨어지는 이산 모형과 달리, 키·몸무게·온도·시간처럼 값이 연속적으로 변하는 현상은 셀 수 없이 많습니다. 이때 필요한 개념이 연속확률변수(Continuous Random Variable)와 그 행동을 정밀하게 묘사하는 확률밀도함수(Probability Density Function, PDF)입니다.
이번 글에서는 다음 흐름으로 연속확률모형을 완전 정리합니다.
- 연속확률변수의 정의와 특징
- 확률밀도함수의 성질
- 누적분포함수와의 관계
- 평균·분산·모멘트 계산 방법
- 대표 분포 5종 완전 분석
- 변수 변환과 합성 분포
- 시각화·모델링 실전 팁
- 자주 묻는 Q&A와 실수 방지 포인트
글을 읽고 나면 ‘확률이 0인데 가능성은 존재한다’는 연속 세계의 직관을 자연스럽게 받아들이고, 실제 데이터 분석에 PDF를 적용하는 방법까지 꿰뚫어 볼 수 있을 것입니다.
1. 연속확률변수란?
- 정의
실수 집합의 하위 구간에서 값을 취하고, 모든 구간에 대해 확률을 부여할 수 있는 변수. - 핵심 차이점
- 이산 변수: 각 개별 값에 확률이 직접 할당
- 연속 변수: 개별 값의 확률은 0, 대신 구간 확률을 적분으로 계산
- 직관
측정 단위를 아무리 세밀하게 나눠도 두 관측값 사이에 항상 또 다른 값이 존재한다.
2. 확률밀도함수(PDF)의 3대 성질
- 비음수성
- $$
f(x)\ge0\quad\forall x
$$ - 정규화
- $$
\int_{-\infty}^{\infty}f(x),dx=1
$$ - 구간 확률 계산
임의 구간 $[a,b]$에서 - $$
P(a\le X\le b)=\int_{a}^{b}f(x),dx
$$
Tip - 점 확률은 0
$P(X=c)=\int_{c}^{c}f(x),dx=0$. ‘밀도’와 ‘확률’을 혼동하지 말 것.
3. 누적분포함수(CDF)와의 관계
- 정의
$$
F(x)=P(X\le x)=\int_{-\infty}^{x}f(t),dt
$$
- 미·적분 연결
- CDF 미분 → PDF
f(x)=\frac{d}{dx}F(x)
$$- PDF 적분 → CDF
- 활용
역함수 $F^{-1}(u)$를 이용한 난수 생성(Inverse Transform Sampling) 등 시뮬레이션 핵심 도구.
4. 평균·분산·모멘트 계산
- 기댓값(평균)
$$
\mathrm{E}[X]=\int_{-\infty}^{\infty}x,f(x),dx
$$
- 분산
$$
\mathrm{Var}(X)=\int_{-\infty}^{\infty}(x-\mu)^{2}f(x),dx=\mathrm{E}[X^{2}]-\mu^{2}
$$
- k차 모멘트
$$
\mu_{k}^{\prime}=\int_{-\infty}^{\infty}x^{k}f(x),dx
$$
- 중심 모멘트
$$
\mu_{k}=\int_{-\infty}^{\infty}(x-\mu)^{k}f(x),dx
$$
5. 대표 연속분포 5종 완전 분석
5-1. 균등분포 $U(a,b)$
- PDF: $f(x)=\dfrac1{b-a},;a\le x\le b$
- 평균 $\dfrac{a+b}{2}$, 분산 $\dfrac{(b-a)^{2}}{12}$
- 난수 생성이 쉬워 시뮬레이션 기본 재료.
5-2. 정규분포 $N(\mu,\sigma^{2})$
- PDF:
$$
f(x)=\frac1{\sqrt{2\pi\sigma^{2}}}\exp\Bigl[-\frac{(x-\mu)^{2}}{2\sigma^{2}}\Bigr]
$$
- ‘평균·분산만으로 결정’하는 최대 엔트로피 분포.
- 중앙극한정리의 귀결 - 복잡한 합도 결국 정규에 가까워짐.
5-3. 지수분포 $\mathrm{Exp}(\lambda)$
- PDF: $f(x)=\lambda e^{-\lambda x},;x\ge0$
- 평균 $1/\lambda$, 분산 $1/\lambda^{2}$
- ‘메모리리스’ 특성 - 대기·고장 간격 모델링.
5-4. 감마분포 $\Gamma(k,\theta)$
- PDF:
$$
f(x)=\frac{x^{k-1}e^{-x/\theta}}{\Gamma(k)\theta^{k}},;x\ge0
$$
- 지수·카이제곱·감마는 같은 계열.
- 누적 고장 시간, 보험 손실액 등 모형에 활용.
5-5. 베타분포 $\mathrm{Beta}(\alpha,\beta)$
- PDF:
$$
f(x)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1},;0\le x\le1
$$
- 확률이 다시 확률을 따른다 - 베이지안 사 prior로 단골.
6. 변수 변환과 합성 분포
6-1. 단변수 변환 공리
- $Y=g(X)$ 단사 함수, PDF 구하기
$$
f_{Y}(y)=f_{X}(g^{-1}(y))\bigl|\frac{d}{dy}g^{-1}(y)\bigr|
$$
6-2. 합·평균의 분포
- 독립 $X_{1},\dots,X_{n}$의 합: 합성 PDF는 합성곱(convolution)
$$
f_{S}(s)=\int f_{X}(t),f_{Y}(s-t),dt
$$
6-3. 몬테카를로 시뮬레이션
- 직접 적분이 어려운 경우 난수 표본을 뽑아 경험적 평균으로 근사.
7. 시각화·모델링 실전 팁
- 히스토그램 vs KDE
- 히스토그램: 구간 폭·시작점 의존
- KDE: 커널 폭(bandwidth) 선택이 핵심
- 로그 스케일
긴 꼬리 분포는 로그 변환으로 가독성 상승. - 정규성 검정
Q-Q Plot, Shapiro-Wilk 테스트로 모델 적합 여부 확인. - 이상치 처리
밀도 기반 Local Outlier Factor, 확률 0.001 미만 영역 표본 제거 등.
8. 자주 묻는 Q&A와 실수 방지 포인트
- Q. 값 하나의 확률은 왜 0인가요?
A. 연속변수는 무한히 많은 값을 가질 수 있어, 개별점을 적분하면 길이 0. - Q. CDF가 계단형인데 연속인가요?
A. 계단이면 사실상 이산. CDF가 연속·미분 가능해야 PDF가 정의됨. - Q. 두 구간 확률이 겹치면 어떻게?
A. 구간을 분할 후 각각 적분해 합산 - 포함·배제 원리 사용. - Q. 분포가 왼쪽으로 치우쳤는데 왜도 값이 양수?
A. 왜도 정의는 3차 중심 모멘트. ‘오른쪽 긴 꼬리’가 양수, ‘왼쪽’이 음수. - 실수 방지
- 단위 확인: PDF는 밀도, CDF는 순수 확률.
- 적분 구간을 놓치지 말 것.
- 정규화: 새로 만든 PDF는 반드시 적분이 1인지 검증.
결론
연속확률변수 분석의 핵심은 PDF를 읽고 적분해 구간 확률·모멘트를 얻는 과정입니다.
- PDF로 ‘높이’를, CDF로 ‘넓이’를 시각화하면 직관이 쉽게 잡힙니다.
- 평균·분산 외에 고차 모멘트를 사용하면 분포 모양까지 비교할 수 있습니다.
- 합·변환 규칙과 시뮬레이션 기법을 익히면 복잡한 모형도 단계별로 해석 가능합니다.
데이터 과학·금융 공학·물리 시뮬레이션 등 거의 모든 정량 분야에서 연속확률변수는 핵심이므로, PDF와 친구가 되는 것이 장기적으로 큰 자산이 될 것입니다.
'mathematics' 카테고리의 다른 글
이산확률변수 평균·분산·모멘트 완전 정리 (0) | 2025.06.10 |
---|---|
독립·종속 사건과 베이즈 정리 (0) | 2025.06.08 |
확률 기본 공식 완전 정리: 덧셈정리, 곱셈정리, 조건부확률 (0) | 2025.06.05 |
확률과 통계 경우의 수 완전 정리: 복합·배열·조합 노하우 (0) | 2025.06.03 |
기하와 벡터 증명 베스트 문제 10선 (0) | 2025.06.01 |