표본·모집단 개념과 추정 원리

통계를 공부하다 보면 가장 먼저 마주치는 단어가 ‘모집단’과 ‘표본’입니다. 두 용어를 정확히 이해하지 못하면 이후에 등장하는 평균, 분산, 추정량, 가설 검정이 모두 모호해집니다.

이번 글에서는 모집단과 표본의 차이를 명확히 짚고, 표본으로부터 모집단 특성을 추정하는 기본 원리를 체계적으로 설명합니다.

정의
연구자가 관심을 갖는 모든 관측 대상의 집합.
예시
- 서울시에 거주하는 전체 고등학생
- 특정 브랜드 스마트폰 사용자 전원
- 지난 10년간 국내 상장기업의 분기별 영업이익
특징
- 이론적으로 고정된 값(모수)을 가지고 있지만 대부분 관측 불가능
- 크기가 너무 크거나, 시간·비용 제약으로 전수조사가 현실적이지 않음

정의
모집단에서 선택한 일부 관측값의 모임으로, 실질적인 데이터 분석의 출발점.
표본 크기(n)
연구 목적과 자원 한계에 따라 결정. 크기가 클수록 정확도는 높지만 비용이 증가.
대표성
- 무작위 추출(Random Sampling): 편향을 최소화해 모집단 특성을 잘 반영.
- 계층 추출·집락 추출: 모집단이 이질적일 때 층별 대표성을 확보하기 위해 사용.

$$
\mu \in \bigl[\bar{X}-z_{\alpha/2}\tfrac{\sigma}{\sqrt{n}},;\bar{X}+z_{\alpha/2}\tfrac{\sigma}{\sqrt{n}}\bigr]
$$

단순 무작위 추출(SRS)
- 각 개체가 동일 확률로 선택.
- 계산이 단순, 편향 최소화.
계층 무작위 추출(Stratified Sampling)
- 모집단을 동질적인 층으로 나눈 뒤 층별 무작위 추출.
- 소수 집단 과소대표 문제 해결.
군집 추출(Cluster Sampling)
- 자연스러운 그룹을 통째로 표본 단위로 사용.
- 현장 조사 비용 절감, 분산이 커질 수 있음.

추정량의 정확도는 표본 크기, 추출 방법, 데이터 변동성에 좌우됩니다. 무작위성이 확보되지 않으면 아무리 큰 n이라도 편향이 사라지지 않습니다.

여론조사
- 모집단: 전국 성인 유권자
- 표본: 무작위 휴대전화 RDD 방식으로 추출한 1,000명
- 추정: 표본 비율로 전국 지지율 추정, ±3.1%p 95% 신뢰구간 제공
공정 관리
- 모집단: 하루 생산되는 모든 부품의 길이
- 표본: 시간당 5개씩 추출해 평균·표준편차 추정
- 추정 결과가 관리 한계를 벗어나면 즉시 공정 조정

모집단은 연구의 ‘우주’, 표본은 그 우주의 ‘창문’입니다. 창문을 통해 본 풍경으로 전체를 추정하려면

대표성 있는 표본 추출
불편·일치·효율·충분 조건을 만족하는 추정량 선택
점추정과 구간추정으로 값과 불확실성을 함께 제시
가 필수입니다. 이 세 단계를 체계적으로 적용한다면, 데이터 한줌으로도 모집단에 대한 신뢰할 수 있는 결론을 이끌어낼 수 있습니다.

심화·융합·사고력 특강 수학적 모델링 사례: 미분방정식으로 인구 예측 (0)	2025.06.23
통계적 가설검정 입문 (Z, t, χ²) (0)	2025.06.21
이항분포·정규분포 근사 연계 완전 정리 (0)	2025.06.16
연속확률변수와 확률밀도함수 (0)	2025.06.13
이산확률변수 평균·분산·모멘트 완전 정리 (0)	2025.06.10

관련글