모집단과 표본
- 기술 통계학에서 통계 목적에 부합하는 모든 자료 집단을 모집단이라고 한다.
- 예를 들어, 우리나라는 5년 주기로 인구 주택 총조사를 실시한다. 이 때 모든 가구를 대상으로 가족 구성원의 연령을 비롯하여 가구 형태 등을 조사한다.
- 이와 같이 통계 목적에 부합하는 모든 자료들의 집단을 모집단이라고 하며, 이 모집단 전체를 대상으로 조사하는 것을 전수 조사(Complete Survey)라 한다.
- 한편, 선거철이 되면 방송이나 신문에서 "신뢰도 95%와 표본 오차 5%에서 A 후보의 지지율이 30% 이다." 라는 내용을 자주 접한다.
- 이 경우는 모든 유권자(모집단) 중에서 일부(표본)만 대상으로 조사한 결과를 나타낸다.
- 이와 같이 표본을 대상으로 조사하는 것을 표본 조사(Sampling Survey)라 한다.
모집단 분포와 표본 분포
모집단 분포(Population Distribution)와 모수(Parameter)
- 모집단 분포(Population Distribution) : 어떤 통계적인 목적 아래 수집한 모든 자료가 갖는 확률 분포 (모집단이 이루는 확률 분포)
- 모수(Parameter) : 모집단의 특성을 나타내는 수치
- 모집단의 평균을 모평균(Population Mean), 모집단의 분산과 표준 편차를 각각 모분산(Population Variance)과 모표준 편차(Population Standard Deviation)라고 한다.
- 지지율과 같이 모집단에서 어떤 특정한 성질을 갖는 자료의 비율을 모비율(Population Proportion)이라 한다.
- 일반적으로 모평균은 μ, 모분산은 σ^{2}, 모비율은 p 로 나타내며, 크기 N 인 모집단에 대해 다음과 같이 정의한다.
- 모평균 : \displaystyle μ = \frac{1}{N} \sum_{i=1}^{N}X_{i}
- 모분산 : \displaystyle σ^{2} = \frac{1}{N} \sum_{i=1}^{N} (X_{i} - μ)^{2}
- 모표준 편차 : \displaystyle σ = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (X_{i} - μ)^{2}}
- 모비율 : \displaystyle p = \frac{X}{N}, X 는 특정한 성질을 갖는 자료의 수
- 한편, 전수 조사를 실시하기 곤란하거나 불가능한 경우에 모집단 분포는 알려지지 않는다.
- 따라서 모집단에 대한 분포를 비롯하여 모수를 알기 위해 표본 조사를 실시하여 얻은 결과를 이용하여 추측한다.
- 이 때, 잘못된 표본을 선정하여 조사한다면, 모집단에 대한 왜곡된 정보를 얻게 된다.
- 따라서 이러한 오류를 방지하기 위해 모집단을 구성하는 각 원소가 선정될 확률이 동등하게 추출하며, 이러한 추출 방법을 임의 추출(Random Sampling)이라 한다.
- 임의 추출에 의해 얻은 표본에 대한 평균은 표본 평균(Sample Mean), 표본의 분산과 표준 편차를 각각 표본 분산(Sample Variance)과 표본 표준 편차(Sample Standard Deviation), 그리고 표본의 비율을 표본 비율(Sample Proportion)이라 한다.
- 이와 같이 표본의 특성을 나타내는 통계적인 양을 통계량(Statistics)이라 하며, 통계량은 표본의 선정에 따라 다른 값을 갖게 된다.
- 따라서 통계량은 확률 변수이며, 통계량의 확률 분포를 표본 분포(Sampling Distribution)라 한다.
표본 분포와 통계량
- 통계량(Statistics) : 표본의 특성을 나타내는 통계적인 양
- 표본 분포(Sampling Distribution) : 표본으로부터 얻은 통계량의 확률 분포
- 일반적으로 표본 평균은 \overline{X}, 표본 분산은 S^{2}, 표본 비율은 \hat{p} 로 나타내며, 다음과 같이 정의한다.
- 표본 평균 : \displaystyle \overline{X} = \frac{1}{n} \sum_{i=1}^{n}X_{i}
- 표본 분산 : \displaystyle S^{2} = \frac{1}{n - 1} \sum_{i=1}^{n} (X_{i} - \overline{x})^{2}
- 표본 표준 편차 : \displaystyle S = \sqrt{\frac{1}{n - 1} \sum_{i=1}^{n} (X_{i} - \overline{x})^{2}}
- 표본 비율 : \displaystyle \hat{p} = \frac{X}{n}, X 는 특정한 성질을 갖는 자료의 수
예제 : 소수점 이하 셋짜 자리에서 반올림하여 다음을 구하여라.

(a) 모평균
(b) 모분산
(c) 모표준 편차
(a)
\sum x_{i} = 402.88 이므로, 모평균은 다음과 같다.
μ = \frac{1}{33} \sum_{i=1}^{33} x_{i} = \frac{402.88}{33} = 12.21(km) |
(b)
\sum (x_{i} - μ)^{2} = 1232.53 이므로 모분산은 다음과 같다.
σ^{2} = \frac{1}{33} \sum_{i=1}^{33} (x_{i} - μ)^{2} = \frac{1232.53}{33} = 37.35 |
(c)
모표준 편차는 모분산의 양의 제곱근이므로 σ = \sqrt{37.35} = 6.11(km) 이다.
※ 단위는 평균과 표준 편차를 구할 때 붙이고, 분산을 구할 때는 붙이지 않는다.
표본 평균의 분포
- 표본의 크기에 따라 표본 평균의 분포가 어떻게 변하는지 살펴보고, 모평균과의 관계를 알아보자.
- 1, 2, 3, 4의 숫자가 적힌 카드가 들어있는 주머니에서 카드를 꺼낸다고 할 때, 추출된 카드의 숫자를 확률 변수 X 라 하면, 모집단 분포는 다음과 같다.
- 확률 변수 X 의 모평균은 μ = 2.5 이고, 모분산은 σ^{2} = \frac{5}{4} 이다.
X | 1 | 2 | 3 | 4 |
P(X = x) | \frac{1}{4} | \frac{1}{4} | \frac{1}{4} | \frac{1}{4} |
- 이제 복원 추출로 주머니에서 카드를 2장 꺼내 첫 번째 카드의 수를 X_{1}, 두 번째 카드의 수를 X_{2} 라 하자.
- 그러면 나올 수 있는 모든 경우 (x_{1}, x_{2}) 는 다음과 같다.
\begin{Bmatrix} (1, 1), (1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (2, 4) \\ (3, 1), (3, 2), (3, 3), (3, 4), (4, 1), (4, 2), (4, 3), (4, 4)\end{Bmatrix} |
- 그러므로 표본 평균 \displaystyle \overline{X} = \frac{X_{1} + X_{2}}{2} 가 취할 수 있는 값은 1, 1.5, 2, 2.5, 3, 3.5, 4 뿐이고, \overline{X} 의 확률 분포는 다음과 같다.
\overline{X} | 1 | 3/2 | 2 | 5/2 | 3 | 7/2 | 4 |
P(\overline{X} = \overline{x}) | 1/16 | 2/16 | 3/16 | 4/16 | 3/16 | 2/16 | 1/16 |
- 따라서 크기가 2인 표본 평균 \overline{X} 의 평균과 분산은 각각 다음과 같다.
E(\overline{X}) = \sum \overline{x} P(\overline{X} = \overline{x}) = \frac{5}{2}, \quad \text{Var}(\overline{X}) = \sum \overline{x}^{2} P(\overline{X} = \overline{x}) - \left ( \frac{5}{2} \right )^{2} = \frac{5}{8} |
- 그러므로 크기 2인 표본 평균 \overline{X} 의 평균을 μ_{\overline{X}} 와 분산 σ_{\overline{X}}^{2} 그리고 모평균 μ 와 모분산 σ^{2} 사이에는 다음 관계가 성립한다.
μ_{\overline{X}} = μ = \frac{5}{2}, \quad σ_{\overline{X}}^{2} = \frac{σ^{2}}{2} = \frac{5}{8} |
- 한편, 이 모집단에서 크기가 3인 표본 \{X_{1}, X_{2}, X_{3} \} 을 추출하여 표본 평균 \displaystyle \overline{X} = \frac{X_{1} + X_{2} + X_{3}}{3} 의 확률 분포를 구하면 다음과 같다.
\overline{X} | 1 | 4/3 | 5/3 | 2 | 7/3 | 8/3 | 3 | 10/3 | 11/3 |
P(\overline{X} = \overline{x}) | 1/64 | 3/64 | 6/64 | 10/64 | 12/64 | 12/64 | 10/64 | 6/64 | 3/64 |
- 이 때, 크기 3인 표본 평균 \overline{X} 의 평균과 분산은 각각 다음과 같다.
E(\overline{X}) = \sum \overline{x} P(\overline{X} = \overline{x}) = \frac{5}{2}, \quad \text{Var}(\overline{X}) = \sum \overline{x}^{2} P(\overline{X} = \overline{x}) - \left ( \frac{5}{2} \right )^{2} = \frac{5}{12} |
- 따라서 \overline{X} 의 평균과 분산, 그리고 모평균과 모분산 사이에는 다음 관계가 성립한다.
μ_{\overline{X}} = μ = \frac{5}{2}, \quad σ_{\overline{X}}^{2} = \frac{σ^{2}}{3} = \frac{5}{12} |
- 이와 같은 방법으로 크기가 n 인 표본을 선정하여 표본 평균을 \overline{X} 라 하면, 표본 평균 \overline{X} 의 평균 μ_{\overline{X}} 는 모평균 μ 와 동일하고, 표본 평균 \overline{X} 의 분산 σ_{\overline{X}}^{2} 는 모분산 σ^{2} 을 표본의 크기 n 으로 나눈 것과 같음을 알 수 있다.
- 일반적으로 모평균 μ 와 모분산 σ^{2} 인 모집단에서 크기 n 인 표본을 선정할 때, 표본 평균 \overline{X} 의 평균과 분산에 대해 다음이 성립한다.
μ_{\overline{X}} = μ, \quad σ_{\overline{X}}^{2} = \frac{σ^{2}}{n}
- 또한 모집단 분포가 이산 확률 분포로 균등하게 나타나더라도 표본 평균의 표본 분포는 아래와 같이 n 이 커질수록 종 모양으로 변하는 것을 알 수 있다.
- 즉, n 이 커질수록 표본 평균 \overline{X} 의 분포는 정규 분포에 근사한다.

표본 평균의 특성
- 모평균 μ 와 모분산 σ^{2} 인 모집단에서 크기 n 인 표본을 선정할 때, 표본 평균 \overline{X} 의 표본 분포에 대해 다음이 성립한다.
(1) 표본 평균의 평균은 \displaystyle μ_{\overline{X}} = μ 이고, 분산은 \displaystyle σ_{\overline{X}}^{2} = \frac{σ^{2}}{n} 이다.
(2) 모집단이 정규 분포 \displaystyle N(μ, \; σ^{2}) 이면, n 의 크기에 관계 없이 \displaystyle \overline{X} \sim N(μ, \; \frac{σ^{2}}{n}) 이다.
(3) 모집단의 분포가 정규 분포가 아닌 경우에도 충분히 큰 n 에 대해 근사적으로 \displaystyle \overline{X} \approx N(μ, \; \frac{σ^{2}}{n}) 이다.
예제 : 모집단의 확률 분포가 다음과 같다.
이 모집단에서 크기가 2인 표본을 복원 추출할 때, 표본 평균 \overline{X} 에 대해 다음을 구하라.
X -1 0 1 P(X=x) 1/3 1/2 1/6
(a) \overline{X} 의 분포
(b) \overline{X} 의 평균
(c) \overline{X} 의 분산
(a)
크기가 2인 표본을 \{X_{1}, X_{2} \} 이라 하면, 복원 추출이므로 다음이 성립한다.
P(X_{1} = x_{1}, \; X_{2} = x_{2}) = P(X_{1} = x_{1})P(X_{2} = x_{2}), \; x_{1}, x_{2} = -1, 0, 1 |
따라서 다음 확률표를 얻는다.
X_{2} \ X_{1} | -1 | 0 | 1 |
-1 | 1/9 | 1/6 | 1/18 |
0 | 1/6 | 1/4 | 1/12 |
1 | 1/18 | 1/12 | 1/36 |
아 때, 표본 평균 \displaystyle \overline{X} = \frac{X_{1} + X_{2}}{2} 가 취할 수 있는 값은 -1, -0.5, 0, 0.5, 1 뿐이고, \overline{X} 의 확률 분포는 다음과 같다.
\overline{X} | -1 | -0.5 | 0 | 0.5 | 1 |
P(\overline{X} = \overline{x}) | 4/36 | 12/36 | 13/36 | 6/36 | 1/36 |
(b)
모평균이 μ = - \frac{1}{6} 이므로, \overline{X} 의 평균은 μ_{\overline{X}} = - \frac{1}{6} 이다.
(c)
모분산이 σ^{2} = \frac{17}{36} 이므로, \overline{X} 의 분산은 σ_{\overline{X}}^{2} = \frac{17/36}{2} = \frac{17}{72} 이다.
표본 비율의 분포
- 모비율이 p 인 모집단에서 크기 n 인 표본을 임의로 선정하여 표본을 \{X_{1}, X_{2}, \cdots, X_{n} \} 이라 하자.
- 그러면 X_{i}, \; i = 1, 2, \cdots, n 은 0 또는 1 을 취하는 확률 변수이고, X = X_{1} + X_{2} + \cdots + X_{n} 은 표본에서 성공한 횟수를 나타낸다.
- 따라서 n 개로 구성된 표본 중에서 특정 사건이 나타나는 비율인 표본 비율은 \displaystyle \hat{p} = \frac{X}{n} 이다.
- 독립인 베르누이 확률 변수들의 합 X 에 대해 X \sim B(n, \; p) 이므로, 확률 변수 X 의 평균과 분산은 각각 μ = np 와 σ^{2} = npq 이고, 따라서 표본 비율 \hat{p} 의 평균과 분산은 다음과 같다.
μ_{\hat{p}} = E \left (\frac{X}{n} \right ) = \frac{1}{n}E(X) = \frac{1}{n}(np) = p \\ σ_{\hat{p}}^{2} = \text{Var} \left (\frac{X}{n} \right ) = \frac{1}{n^{2}} \text{Var}(X) = \frac{1}{n^{2}}(npq) = \frac{pq}{n}
- 이 때, n 이 충분히 크면 이항 분포의 정규 근사에 의해 표본 비율 \hat{p} 는 평균 μ_{\hat{p}} 와 분산 σ_{\hat{p}}^{2} 을 갖는 정규 분포에 근사한다.
- 즉, 표본 비율의 표본 분포는 다음과 같다.
\hat{p} \approx N \left( p, \frac{pq}{n} \right)
예제 : 모비율이 p = 0.45 인 모집단에서 크기 100인 표본을 추출했다. 표본 비율 \hat{p} 에 대해 다음을 구하라.
(a) \hat{p} 의 분포
(b) P(\hat{p} \le 0.35)
(c) P(0.41 \le \hat{p} \le 0.51)
(a)
p = 0.45, \; n = 100 이므로 \displaystyle μ_{\hat{p}} = 0.45, \; σ_{\hat{p}}^{2} = \frac{0.45 \times 0.55}{100} ≒ 0.05^{2}, \; \hat{p} \approx N(0.45, 0.05^{2}) 이다.
(b)
\displaystyle \eqalign{ P(\hat{p} \le 0.35) &= P \left ( \frac{\hat{p} - 0.45}{0.05} \le \frac{0.35 - 0.45}{0.05} \right ) \\ &= P(Z \le -2) = 1 - P(Z \le 2) = 1 - 0.9772 = 0.0228}
(c)
\displaystyle \eqalign{ P(0.41 \le \hat{p} \le 0.51) & = P \left ( \frac{0.41 - 0.45}{0.05} \le \frac{\hat{p} - 0.45}{0.05} \le \frac{0.51 - 0.45}{0.05} \right ) \\ & = P(-0.8 \le Z \le 1.2) \\ & = P(Z \le 1.2) - P(Z \le -0.8) \\ & = P(Z \le 1.2) - [1 - P(Z \le 0.8)] \\ & = 0.8849 - (1 - 0.7881) = 0.6730 }
'Mathematics > 확률과 통계' 카테고리의 다른 글
[확률과 통계] 모평균의 검정(σ² : 기지) (0) | 2022.11.30 |
---|---|
[확률과 통계] 통계적 가설 검정 (0) | 2022.11.28 |
[확률과 통계] 모비율의 추정 (0) | 2022.11.28 |
[확률과 통계] 모평균의 추정 (0) | 2022.11.27 |
[확률과 통계] 연속 확률 분포 (0) | 2022.11.21 |
[확률과 통계] 이산 확률 분포 (0) | 2022.11.14 |
[확률과 통계] 확률 변수의 평균과 분산 (0) | 2022.11.14 |
[확률과 통계] 연속 확률 변수 (0) | 2022.11.14 |