728x90

모집단과 표본

  • 기술 통계학에서 통계 목적에 부합하는 모든 자료 집단모집단이라고 한다.
  • 예를 들어, 우리나라는 5년 주기로 인구 주택 총조사를 실시한다. 이 때 모든 가구를 대상으로 가족 구성원의 연령을 비롯하여 가구 형태 등을 조사한다.
    • 이와 같이 통계 목적에 부합하는 모든 자료들의 집단모집단이라고 하며, 이 모집단 전체를 대상으로 조사하는 것전수 조사(Complete Survey)라 한다.
  • 한편, 선거철이 되면 방송이나 신문에서 "신뢰도 95%와 표본 오차 5%에서 A 후보의 지지율이 30% 이다." 라는 내용을 자주 접한다.
    • 이 경우는 모든 유권자(모집단) 중에서 일부(표본)만 대상으로 조사한 결과를 나타낸다.
    • 이와 같이 표본을 대상으로 조사하는 것표본 조사(Sampling Survey)라 한다.

 

모집단 분포와 표본 분포

모집단 분포(Population Distribution)와 모수(Parameter)

- 모집단 분포(Population Distribution) : 어떤 통계적인 목적 아래 수집한 모든 자료가 갖는 확률 분포 (모집단이 이루는 확률 분포)
- 모수(Parameter) : 모집단의 특성을 나타내는 수치
  • 모집단의 평균 모평균(Population Mean), 모집단의 분산과 표준 편차를 각각 모분산(Population Variance)모표준 편차(Population Standard Deviation)라고 한다.
  • 지지율과 같이 모집단에서 어떤 특정한 성질을 갖는 자료의 비율모비율(Population Proportion)이라 한다.
  • 일반적으로 모평균은 `μ`, 모분산은 $σ^{2}$, 모비율은 `p` 로 나타내며, 크기 `N` 인 모집단에 대해 다음과 같이 정의한다.
- 모평균 : $\displaystyle μ = \frac{1}{N} \sum_{i=1}^{N}X_{i}$

- 모분산 : $\displaystyle σ^{2} = \frac{1}{N} \sum_{i=1}^{N} (X_{i} - μ)^{2}$

- 모표준 편차 : $\displaystyle σ = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (X_{i} - μ)^{2}}$

- 모비율 : $\displaystyle p = \frac{X}{N}$, `X` 는 특정한 성질을 갖는 자료의 수

 

  • 한편, 전수 조사를 실시하기 곤란하거나 불가능한 경우에 모집단 분포는 알려지지 않는다.
  • 따라서 모집단에 대한 분포를 비롯하여 모수를 알기 위해 표본 조사를 실시하여 얻은 결과를 이용하여 추측한다.
  • 이 때, 잘못된 표본을 선정하여 조사한다면, 모집단에 대한 왜곡된 정보를 얻게 된다.
  • 따라서 이러한 오류를 방지하기 위해 모집단을 구성하는 각 원소가 선정될 확률이 동등하게 추출하며, 이러한 추출 방법을 임의 추출(Random Sampling)이라 한다.
  • 임의 추출에 의해 얻은 표본에 대한 평균표본 평균(Sample Mean), 표본의 분산과 표준 편차를 각각 표본 분산(Sample Variance)표본 표준 편차(Sample Standard Deviation), 그리고 표본의 비율표본 비율(Sample Proportion)이라 한다.
  • 이와 같이 표본의 특성을 나타내는 통계적인 양통계량(Statistics)이라 하며, 통계량은 표본의 선정에 따라 다른 값을 갖게 된다.
  • 따라서 통계량은 확률 변수이며, 통계량의 확률 분포를 표본 분포(Sampling Distribution)라 한다.

 

표본 분포와 통계량

- 통계량(Statistics) : 표본의 특성을 나타내는 통계적인 양
- 표본 분포(Sampling Distribution) : 표본으로부터 얻은 통계량의 확률 분포
  • 일반적으로 표본 평균은 $\overline{X}$, 표본 분산은 $S^{2}$, 표본 비율은 $\hat{p}$ 로 나타내며, 다음과 같이 정의한다.
- 표본 평균 : $\displaystyle \overline{X} = \frac{1}{n} \sum_{i=1}^{n}X_{i}$

- 표본 분산 : $\displaystyle S^{2} = \frac{1}{n - 1} \sum_{i=1}^{n} (X_{i} - \overline{x})^{2}$

- 표본 표준 편차 : $\displaystyle S = \sqrt{\frac{1}{n - 1} \sum_{i=1}^{n} (X_{i} - \overline{x})^{2}}$

- 표본 비율 : $\displaystyle \hat{p} = \frac{X}{n}$, `X` 는 특정한 성질을 갖는 자료의 수

 

예제 : 소수점 이하 셋짜 자리에서 반올림하여 다음을 구하여라.

(a) 모평균

(b) 모분산

(c) 모표준 편차

더보기

(a)

$\sum x_{i} = 402.88$ 이므로, 모평균은 다음과 같다.

$$μ = \frac{1}{33} \sum_{i=1}^{33} x_{i} = \frac{402.88}{33} = 12.21(km)$$

 

(b)

$\sum (x_{i} - μ)^{2} = 1232.53$ 이므로 모분산은 다음과 같다.

$$σ^{2} = \frac{1}{33} \sum_{i=1}^{33} (x_{i} - μ)^{2} = \frac{1232.53}{33} = 37.35$$

 

(c)

모표준 편차는 모분산의 양의 제곱근이므로 $σ = \sqrt{37.35} = 6.11(km)$ 이다.

 

단위평균표준 편차를 구할 때 붙이고, 분산을 구할 때는 붙이지 않는다.

 

표본 평균의 분포

  • 표본의 크기에 따라 표본 평균의 분포가 어떻게 변하는지 살펴보고, 모평균과의 관계를 알아보자.
  • 1, 2, 3, 4의 숫자가 적힌 카드가 들어있는 주머니에서 카드를 꺼낸다고 할 때, 추출된 카드의 숫자를 확률 변수 `X` 라 하면, 모집단 분포는 다음과 같다.
    • 확률 변수 `X` 의 모평균은 `μ = 2.5` 이고, 모분산은 $σ^{2} = \frac{5}{4}$ 이다.
`X` 1 2 3 4
$P(X = x)$ $\frac{1}{4}$ $\frac{1}{4}$ $\frac{1}{4}$ $\frac{1}{4}$
  • 이제 복원 추출로 주머니에서 카드를 2장 꺼내 첫 번째 카드의 수를 $X_{1}$, 두 번째 카드의 수를 $X_{2}$ 라 하자.
  • 그러면 나올 수 있는 모든 경우 $(x_{1}, x_{2})$ 는 다음과 같다.
$$\begin{Bmatrix} (1, 1), (1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (2, 4) \\ (3, 1), (3, 2), (3, 3), (3, 4), (4, 1), (4, 2), (4, 3), (4, 4)\end{Bmatrix}$$
  • 그러므로 표본 평균 $\displaystyle \overline{X} = \frac{X_{1} + X_{2}}{2}$ 가 취할 수 있는 값은 $1, 1.5, 2, 2.5, 3, 3.5, 4$ 뿐이고, $\overline{X}$ 의 확률 분포는 다음과 같다.
$\overline{X}$ $1$ `3/2` $2$ `5/2` `3` `7/2` 4
$P(\overline{X} = \overline{x})$ `1/16` `2/16` `3/16` `4/16` `3/16` `2/16` `1/16`
  • 따라서 크기가 2인 표본 평균 $\overline{X}$ 의 평균 분산은 각각 다음과 같다.
$$E(\overline{X}) = \sum \overline{x} P(\overline{X} = \overline{x}) = \frac{5}{2}, \quad \text{Var}(\overline{X}) = \sum \overline{x}^{2} P(\overline{X} = \overline{x}) - \left ( \frac{5}{2} \right )^{2} = \frac{5}{8}$$
  • 그러므로 크기 2인 표본 평균 $\overline{X}$ 의 평균을 $μ_{\overline{X}}$ 와 분산 $σ_{\overline{X}}^{2}$ 그리고 모평균 $μ$ 와 모분산 $σ^{2}$ 사이에는 다음 관계가 성립한다.
$$μ_{\overline{X}} = μ = \frac{5}{2}, \quad σ_{\overline{X}}^{2} = \frac{σ^{2}}{2} = \frac{5}{8}$$
  • 한편, 이 모집단에서 크기가 3인 표본 $\{X_{1}, X_{2}, X_{3} \}$ 을 추출하여 표본 평균 $\displaystyle \overline{X} = \frac{X_{1} + X_{2} + X_{3}}{3}$ 의 확률 분포를 구하면 다음과 같다.
$\overline{X}$ `1` `4/3` `5/3` `2` `7/3` `8/3` `3` `10/3` `11/3`
$P(\overline{X} = \overline{x})$ `1/64` `3/64` `6/64` `10/64` `12/64` `12/64` `10/64` `6/64` `3/64`
  • 이 때, 크기 3인 표본 평균 $\overline{X}$ 의 평균과 분산은 각각 다음과 같다.
$$E(\overline{X}) = \sum \overline{x} P(\overline{X} = \overline{x}) = \frac{5}{2}, \quad \text{Var}(\overline{X}) = \sum \overline{x}^{2} P(\overline{X} = \overline{x}) - \left ( \frac{5}{2} \right )^{2} = \frac{5}{12}$$
  • 따라서 $\overline{X}$ 의 평균과 분산, 그리고 모평균과 모분산 사이에는 다음 관계가 성립한다.
$$μ_{\overline{X}} = μ = \frac{5}{2}, \quad σ_{\overline{X}}^{2} = \frac{σ^{2}}{3} = \frac{5}{12}$$
  • 이와 같은 방법으로 크기가 `n` 인 표본을 선정하여 표본 평균을 $\overline{X}$ 라 하면, 표본 평균 $\overline{X}$ 의 평균 $μ_{\overline{X}}$ 는 모평균 `μ` 와 동일하고, 표본 평균 $\overline{X}$ 의 분산 $σ_{\overline{X}}^{2}$ 는 모분산 $σ^{2}$ 을 표본의 크기 `n` 으로 나눈 것과 같음을 알 수 있다.
  • 일반적으로 모평균 `μ` 와 모분산 $σ^{2}$ 인 모집단에서 크기 `n` 인 표본을 선정할 때, 표본 평균 $\overline{X}$ 의 평균과 분산에 대해 다음이 성립한다.
$$μ_{\overline{X}} = μ, \quad σ_{\overline{X}}^{2} = \frac{σ^{2}}{n}$$
  • 또한 모집단 분포가 이산 확률 분포로 균등하게 나타나더라도 표본 평균의 표본 분포는 아래와 같이 `n` 이 커질수록 종 모양으로 변하는 것을 알 수 있다.
    • 즉, `n` 이 커질수록 표본 평균 $\overline{X}$ 의 분포는 정규 분포에 근사한다.

모딥단 분포와 크기 n에 따른 표본 평균의 표본 분포

 

표본 평균의 특성

  • 모평균 `μ` 와 모분산 $σ^{2}$ 인 모집단에서 크기 `n` 인 표본을 선정할 때, 표본 평균 $\overline{X}$ 의 표본 분포에 대해 다음이 성립한다.
(1) 표본 평균의 평균은 $\displaystyle μ_{\overline{X}} = μ$ 이고, 분산은 $\displaystyle σ_{\overline{X}}^{2} = \frac{σ^{2}}{n}$ 이다.

(2) 모집단이 정규 분포 $\displaystyle N(μ, \; σ^{2})$ 이면, `n` 의 크기에 관계 없이 $\displaystyle \overline{X} \sim N(μ, \; \frac{σ^{2}}{n})$ 이다.

(3) 모집단의 분포가 정규 분포가 아닌 경우에도 충분히 큰 `n` 에 대해 근사적으로 $\displaystyle \overline{X} \approx N(μ, \; \frac{σ^{2}}{n})$ 이다.

 

예제 : 모집단의 확률 분포가 다음과 같다.
`X` `-1` `0` `1`
$P(X=x)$ `1/3` `1/2` `1/6`
이 모집단에서 크기가 2인 표본을 복원 추출할 때, 표본 평균 $\overline{X}$ 에 대해 다음을 구하라.

(a) $\overline{X}$ 의 분포

(b) $\overline{X}$ 의 평균

(c) $\overline{X}$ 의 분산

더보기

(a)

크기가 2인 표본을 $\{X_{1}, X_{2} \}$ 이라 하면, 복원 추출이므로 다음이 성립한다.

$$P(X_{1} = x_{1}, \; X_{2} = x_{2}) = P(X_{1} = x_{1})P(X_{2} = x_{2}), \; x_{1}, x_{2} = -1, 0, 1$$

따라서 다음 확률표를 얻는다.

$X_{2}$ \ $X_{1}$ `-1` `0` `1`
`-1` `1/9` `1/6` `1/18`
`0` `1/6` `1/4` `1/12`
`1` `1/18` `1/12` `1/36`

아 때, 표본 평균 $\displaystyle \overline{X} = \frac{X_{1} + X_{2}}{2}$ 가 취할 수 있는 값은 `-1, -0.5, 0, 0.5, 1` 뿐이고, $\overline{X}$ 의 확률 분포는 다음과 같다.

$\overline{X}$ `-1` `-0.5` `0` `0.5` `1`
$P(\overline{X} = \overline{x})$ `4/36` `12/36` `13/36` `6/36` `1/36`

 

(b)

모평균이 $μ = - \frac{1}{6}$ 이므로, $\overline{X}$ 의 평균은 $μ_{\overline{X}} = - \frac{1}{6}$ 이다.

 

(c)

모분산이 $σ^{2} = \frac{17}{36}$ 이므로, $\overline{X}$ 의 분산은 $σ_{\overline{X}}^{2} = \frac{17/36}{2} = \frac{17}{72}$ 이다.

 

표본 비율의 분포

  • 모비율이 `p` 인 모집단에서 크기 `n` 인 표본을 임의로 선정하여 표본을 $\{X_{1}, X_{2}, \cdots, X_{n} \}$ 이라 하자.
  • 그러면 $X_{i}, \; i = 1, 2, \cdots, n$ 은 0 또는 1 을 취하는 확률 변수이고, $X = X_{1} + X_{2} + \cdots + X_{n}$ 은 표본에서 성공한 횟수를 나타낸다.
  • 따라서 `n` 개로 구성된 표본 중에서 특정 사건이 나타나는 비율인 표본 비율은 $\displaystyle \hat{p} = \frac{X}{n}$ 이다.
  • 독립베르누이 확률 변수들의 합 `X` 에 대해 $X \sim B(n, \; p)$ 이므로, 확률 변수 `X` 의 평균과 분산은 각각 $μ = np$ 와 $σ^{2} = npq$ 이고, 따라서 표본 비율 $\hat{p}$ 의 평균분산은 다음과 같다.
$$μ_{\hat{p}} = E \left (\frac{X}{n} \right ) = \frac{1}{n}E(X) = \frac{1}{n}(np) = p \\ σ_{\hat{p}}^{2} = \text{Var} \left (\frac{X}{n} \right ) = \frac{1}{n^{2}} \text{Var}(X) = \frac{1}{n^{2}}(npq) = \frac{pq}{n}$$
  • 이 때, `n` 이 충분히 크면 이항 분포의 정규 근사에 의해 표본 비율 $\hat{p}$ 는 평균 $μ_{\hat{p}}$ 와 분산 $σ_{\hat{p}}^{2}$ 을 갖는 정규 분포에 근사한다.
  • 즉, 표본 비율의 표본 분포는 다음과 같다.
$$\hat{p} \approx N \left( p, \frac{pq}{n} \right)$$

 

예제 : 모비율이 `p = 0.45` 인 모집단에서 크기 100인 표본을 추출했다. 표본 비율 $\hat{p}$ 에 대해 다음을 구하라.

(a) $\hat{p}$ 의 분포

(b) $P(\hat{p} \le 0.35)$

(c) $P(0.41 \le \hat{p} \le 0.51)$

더보기

(a)

$p = 0.45, \; n = 100$ 이므로 $\displaystyle μ_{\hat{p}} = 0.45, \; σ_{\hat{p}}^{2} = \frac{0.45 \times 0.55}{100} ≒ 0.05^{2}, \; \hat{p} \approx N(0.45, 0.05^{2})$ 이다.

 

(b)

$\displaystyle \eqalign{ P(\hat{p} \le 0.35) &= P \left ( \frac{\hat{p} - 0.45}{0.05} \le \frac{0.35 - 0.45}{0.05} \right ) \\ &= P(Z \le -2) = 1 - P(Z \le 2) = 1 - 0.9772 = 0.0228}$

 

(c)

$\displaystyle \eqalign{ P(0.41 \le \hat{p} \le 0.51) & = P \left ( \frac{0.41 - 0.45}{0.05} \le \frac{\hat{p} - 0.45}{0.05} \le \frac{0.51 - 0.45}{0.05} \right ) \\ & = P(-0.8 \le Z \le 1.2) \\ & = P(Z \le 1.2) - P(Z \le -0.8) \\ & = P(Z \le 1.2) - [1 - P(Z \le 0.8)] \\ & = 0.8849 - (1 - 0.7881) = 0.6730 }$

728x90