본문 바로가기
mathematics

표본·모집단 개념과 추정 원리

by 고유함으로 2025. 6. 18.
반응형

표본·모집단 개념과 추정 원리

통계를 공부하다 보면 가장 먼저 마주치는 단어가 ‘모집단’과 ‘표본’입니다. 두 용어를 정확히 이해하지 못하면 이후에 등장하는 평균, 분산, 추정량, 가설 검정이 모두 모호해집니다.

이번 글에서는 모집단과 표본의 차이를 명확히 짚고, 표본으로부터 모집단 특성을 추정하는 기본 원리를 체계적으로 설명합니다.


모집단이란?

  • 정의
    연구자가 관심을 갖는 모든 관측 대상의 집합.
  • 예시
    • 서울시에 거주하는 전체 고등학생
    • 특정 브랜드 스마트폰 사용자 전원
    • 지난 10년간 국내 상장기업의 분기별 영업이익
  • 특징
    • 이론적으로 고정된 값(모수)을 가지고 있지만 대부분 관측 불가능
    • 크기가 너무 크거나, 시간·비용 제약으로 전수조사가 현실적이지 않음

표본이란?

  • 정의
    모집단에서 선택한 일부 관측값의 모임으로, 실질적인 데이터 분석의 출발점.
  • 표본 크기(n)
    연구 목적과 자원 한계에 따라 결정. 크기가 클수록 정확도는 높지만 비용이 증가.
  • 대표성
    • 무작위 추출(Random Sampling): 편향을 최소화해 모집단 특성을 잘 반영.
    • 계층 추출·집락 추출: 모집단이 이질적일 때 층별 대표성을 확보하기 위해 사용.

왜 추정이 필요한가?

  • 모수(θ)
    모집단 평균(μ), 모집단 분산(σ²)처럼 모집단을 요약하는 값.
  • 관측 불가능
    – 모집단 전체를 측정해야 알 수 있지만 현실적으로 불가능.
  • 대안
    추정(Estimation): 표본에서 계산한 통계량을 이용해 모수를 가늠.

추정 방식의 두 축

1. 점추정(Point Estimation)

  • 표본평균 $\bar{X}$, 표본분산 $S^{2}$처럼 단일 값으로 모수를 추정.
  • 장점: 계산이 간단하고 직관적.
  • 단점: 오차 범위를 알 수 없어 불확실성 표현이 부족.

2. 구간추정(Interval Estimation)

  • 신뢰구간(Confidence Interval)을 제시해 모수가 포함될 구간을 추정.

$$
\mu \in \bigl[\bar{X}-z_{\alpha/2}\tfrac{\sigma}{\sqrt{n}},;\bar{X}+z_{\alpha/2}\tfrac{\sigma}{\sqrt{n}}\bigr]
$$

  • 장점: 추정 오차를 확률적으로 표현.
  • 단점: 계산이 복잡하고 해석이 다소 어렵다는 인식이 있음.

좋은 추정량의 조건

  • 불편성(Unbiasedness)
    $\mathrm{E}[\hat{\theta}]=\theta$ - 평균적으로 모수를 정확히 맞힌다.
  • 일치성(Consistency)
    표본 크기가 증가하면 $\hat{\theta}$가 $\theta$에 수렴.
  • 효율성(Efficiency)
    동일 조건에서 분산이 가장 작아 추정 오차가 최소.
  • 충분성(Sufficiency)
    표본이 가진 정보를 완벽히 요약, 추가 정보가 추정 정확도를 더 높이지 못함.

표본추출 방법과 추정의 신뢰도

  1. 단순 무작위 추출(SRS)
    • 각 개체가 동일 확률로 선택.
    • 계산이 단순, 편향 최소화.
  2. 계층 무작위 추출(Stratified Sampling)
    • 모집단을 동질적인 층으로 나눈 뒤 층별 무작위 추출.
    • 소수 집단 과소대표 문제 해결.
  3. 군집 추출(Cluster Sampling)
    • 자연스러운 그룹을 통째로 표본 단위로 사용.
    • 현장 조사 비용 절감, 분산이 커질 수 있음.

추정량의 정확도는 표본 크기, 추출 방법, 데이터 변동성에 좌우됩니다. 무작위성이 확보되지 않으면 아무리 큰 n이라도 편향이 사라지지 않습니다.


실제 사례

  • 여론조사
    • 모집단: 전국 성인 유권자
    • 표본: 무작위 휴대전화 RDD 방식으로 추출한 1,000명
    • 추정: 표본 비율로 전국 지지율 추정, ±3.1%p 95% 신뢰구간 제공
  • 공정 관리
    • 모집단: 하루 생산되는 모든 부품의 길이
    • 표본: 시간당 5개씩 추출해 평균·표준편차 추정
    • 추정 결과가 관리 한계를 벗어나면 즉시 공정 조정

결론

모집단은 연구의 ‘우주’, 표본은 그 우주의 ‘창문’입니다. 창문을 통해 본 풍경으로 전체를 추정하려면

  1. 대표성 있는 표본 추출
  2. 불편·일치·효율·충분 조건을 만족하는 추정량 선택
  3. 점추정과 구간추정으로 값과 불확실성을 함께 제시
    가 필수입니다. 이 세 단계를 체계적으로 적용한다면, 데이터 한줌으로도 모집단에 대한 신뢰할 수 있는 결론을 이끌어낼 수 있습니다.

반응형