« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

[확률과 통계] 모집단과 표본

2022. 11. 21. 22:37

728x90

모집단과 표본

기술 통계학에서 통계 목적에 부합하는 모든 자료 집단을 모집단이라고 한다.
예를 들어, 우리나라는 5년 주기로 인구 주택 총조사를 실시한다. 이 때 모든 가구를 대상으로 가족 구성원의 연령을 비롯하여 가구 형태 등을 조사한다.
- 이와 같이 통계 목적에 부합하는 모든 자료들의 집단을 모집단이라고 하며, 이 모집단 전체를 대상으로 조사하는 것을 전수 조사(Complete Survey)라 한다.
한편, 선거철이 되면 방송이나 신문에서 "신뢰도 95%와 표본 오차 5%에서 A 후보의 지지율이 30% 이다." 라는 내용을 자주 접한다.
- 이 경우는 모든 유권자(모집단) 중에서 일부(표본)만 대상으로 조사한 결과를 나타낸다.
- 이와 같이 표본을 대상으로 조사하는 것을 표본 조사(Sampling Survey)라 한다.

모집단 분포와 표본 분포

모집단 분포(Population Distribution)와 모수(Parameter)

- 모집단 분포(Population Distribution) : 어떤 통계적인 목적 아래 수집한 모든 자료가 갖는 확률 분포 (모집단이 이루는 확률 분포)
- 모수(Parameter) : 모집단의 특성을 나타내는 수치

모집단의 평균을 모평균(Population Mean), 모집단의 분산과 표준 편차를 각각 모분산(Population Variance)과 모표준 편차(Population Standard Deviation)라고 한다.
지지율과 같이 모집단에서 어떤 특정한 성질을 갖는 자료의 비율을 모비율(Population Proportion)이라 한다.
일반적으로 모평균은 `μ`, 모분산은 $σ^{2}$, 모비율은 `p` 로 나타내며, 크기 `N` 인 모집단에 대해 다음과 같이 정의한다.

- 모평균 : $\displaystyle μ = \frac{1}{N} \sum_{i=1}^{N}X_{i}$

- 모분산 : $\displaystyle σ^{2} = \frac{1}{N} \sum_{i=1}^{N} (X_{i} - μ)^{2}$

- 모표준 편차 : $\displaystyle σ = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (X_{i} - μ)^{2}}$

- 모비율 : $\displaystyle p = \frac{X}{N}$, `X` 는 특정한 성질을 갖는 자료의 수

한편, 전수 조사를 실시하기 곤란하거나 불가능한 경우에 모집단 분포는 알려지지 않는다.
따라서 모집단에 대한 분포를 비롯하여 모수를 알기 위해 표본 조사를 실시하여 얻은 결과를 이용하여 추측한다.
이 때, 잘못된 표본을 선정하여 조사한다면, 모집단에 대한 왜곡된 정보를 얻게 된다.
따라서 이러한 오류를 방지하기 위해 모집단을 구성하는 각 원소가 선정될 확률이 동등하게 추출하며, 이러한 추출 방법을 임의 추출(Random Sampling)이라 한다.
임의 추출에 의해 얻은 표본에 대한 평균은 표본 평균(Sample Mean), 표본의 분산과 표준 편차를 각각 표본 분산(Sample Variance)과 표본 표준 편차(Sample Standard Deviation), 그리고 표본의 비율을 표본 비율(Sample Proportion)이라 한다.
이와 같이 표본의 특성을 나타내는 통계적인 양을 통계량(Statistics)이라 하며, 통계량은 표본의 선정에 따라 다른 값을 갖게 된다.
따라서 통계량은 확률 변수이며, 통계량의 확률 분포를 표본 분포(Sampling Distribution)라 한다.

표본 분포와 통계량

- 통계량(Statistics) : 표본의 특성을 나타내는 통계적인 양
- 표본 분포(Sampling Distribution) : 표본으로부터 얻은 통계량의 확률 분포

일반적으로 표본 평균은 $\overline{X}$, 표본 분산은 $S^{2}$, 표본 비율은 $\hat{p}$ 로 나타내며, 다음과 같이 정의한다.

- 표본 평균 : $\displaystyle \overline{X} = \frac{1}{n} \sum_{i=1}^{n}X_{i}$

- 표본 분산 : $\displaystyle S^{2} = \frac{1}{n - 1} \sum_{i=1}^{n} (X_{i} - \overline{x})^{2}$

- 표본 표준 편차 : $\displaystyle S = \sqrt{\frac{1}{n - 1} \sum_{i=1}^{n} (X_{i} - \overline{x})^{2}}$

- 표본 비율 : $\displaystyle \hat{p} = \frac{X}{n}$, `X` 는 특정한 성질을 갖는 자료의 수

예제 : 소수점 이하 셋짜 자리에서 반올림하여 다음을 구하여라.

(a) 모평균

(b) 모분산

(c) 모표준 편차

(a)

$\sum x_{i} = 402.88$ 이므로, 모평균은 다음과 같다.

$$μ = \frac{1}{33} \sum_{i=1}^{33} x_{i} = \frac{402.88}{33} = 12.21(km)$$

(b)

$\sum (x_{i} - μ)^{2} = 1232.53$ 이므로 모분산은 다음과 같다.

$$σ^{2} = \frac{1}{33} \sum_{i=1}^{33} (x_{i} - μ)^{2} = \frac{1232.53}{33} = 37.35$$

(c)

모표준 편차는 모분산의 양의 제곱근이므로 $σ = \sqrt{37.35} = 6.11(km)$ 이다.

※ 단위는 평균과 표준 편차를 구할 때 붙이고, 분산을 구할 때는 붙이지 않는다.

표본 평균의 분포

표본의 크기에 따라 표본 평균의 분포가 어떻게 변하는지 살펴보고, 모평균과의 관계를 알아보자.
1, 2, 3, 4의 숫자가 적힌 카드가 들어있는 주머니에서 카드를 꺼낸다고 할 때, 추출된 카드의 숫자를 확률 변수 `X` 라 하면, 모집단 분포는 다음과 같다.
- 확률 변수 `X` 의 모평균은 `μ = 2.5` 이고, 모분산은 $σ^{2} = \frac{5}{4}$ 이다.

`X`	1	2	3	4
$P(X = x)$	$\frac{1}{4}$	$\frac{1}{4}$	$\frac{1}{4}$	$\frac{1}{4}$

이제 복원 추출로 주머니에서 카드를 2장 꺼내 첫 번째 카드의 수를 $X_{1}$, 두 번째 카드의 수를 $X_{2}$ 라 하자.
그러면 나올 수 있는 모든 경우 $(x_{1}, x_{2})$ 는 다음과 같다.

$$\begin{Bmatrix} (1, 1), (1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (2, 4) \\ (3, 1), (3, 2), (3, 3), (3, 4), (4, 1), (4, 2), (4, 3), (4, 4)\end{Bmatrix}$$

그러므로 표본 평균 $\displaystyle \overline{X} = \frac{X_{1} + X_{2}}{2}$ 가 취할 수 있는 값은 $1, 1.5, 2, 2.5, 3, 3.5, 4$ 뿐이고, $\overline{X}$ 의 확률 분포는 다음과 같다.

$\overline{X}$	$1$	`3/2`	$2$	`5/2`	`3`	`7/2`	4
$P(\overline{X} = \overline{x})$	`1/16`	`2/16`	`3/16`	`4/16`	`3/16`	`2/16`	`1/16`

따라서 크기가 2인 표본 평균 $\overline{X}$ 의 평균과 분산은 각각 다음과 같다.

$$E(\overline{X}) = \sum \overline{x} P(\overline{X} = \overline{x}) = \frac{5}{2}, \quad \text{Var}(\overline{X}) = \sum \overline{x}^{2} P(\overline{X} = \overline{x}) - \left ( \frac{5}{2} \right )^{2} = \frac{5}{8}$$

그러므로 크기 2인 표본 평균 $\overline{X}$ 의 평균을 $μ_{\overline{X}}$ 와 분산 $σ_{\overline{X}}^{2}$ 그리고 모평균 $μ$ 와 모분산 $σ^{2}$ 사이에는 다음 관계가 성립한다.

$$μ_{\overline{X}} = μ = \frac{5}{2}, \quad σ_{\overline{X}}^{2} = \frac{σ^{2}}{2} = \frac{5}{8}$$

한편, 이 모집단에서 크기가 3인 표본 $\{X_{1}, X_{2}, X_{3} \}$ 을 추출하여 표본 평균 $\displaystyle \overline{X} = \frac{X_{1} + X_{2} + X_{3}}{3}$ 의 확률 분포를 구하면 다음과 같다.

$\overline{X}$	`1`	`4/3`	`5/3`	`2`	`7/3`	`8/3`	`3`	`10/3`	`11/3`
$P(\overline{X} = \overline{x})$	`1/64`	`3/64`	`6/64`	`10/64`	`12/64`	`12/64`	`10/64`	`6/64`	`3/64`

이 때, 크기 3인 표본 평균 $\overline{X}$ 의 평균과 분산은 각각 다음과 같다.

따라서 $\overline{X}$ 의 평균과 분산, 그리고 모평균과 모분산 사이에는 다음 관계가 성립한다.

$$μ_{\overline{X}} = μ = \frac{5}{2}, \quad σ_{\overline{X}}^{2} = \frac{σ^{2}}{3} = \frac{5}{12}$$

이와 같은 방법으로 크기가 `n` 인 표본을 선정하여 표본 평균을 $\overline{X}$ 라 하면, 표본 평균 $\overline{X}$ 의 평균 $μ_{\overline{X}}$ 는 모평균 `μ` 와 동일하고, 표본 평균 $\overline{X}$ 의 분산 $σ_{\overline{X}}^{2}$ 는 모분산 $σ^{2}$ 을 표본의 크기 `n` 으로 나눈 것과 같음을 알 수 있다.
일반적으로 모평균 `μ` 와 모분산 $σ^{2}$ 인 모집단에서 크기 `n` 인 표본을 선정할 때, 표본 평균 $\overline{X}$ 의 평균과 분산에 대해 다음이 성립한다.

$$μ_{\overline{X}} = μ, \quad σ_{\overline{X}}^{2} = \frac{σ^{2}}{n}$$

또한 모집단 분포가 이산 확률 분포로 균등하게 나타나더라도 표본 평균의 표본 분포는 아래와 같이 `n` 이 커질수록 종 모양으로 변하는 것을 알 수 있다.
- 즉, `n` 이 커질수록 표본 평균 $\overline{X}$ 의 분포는 정규 분포에 근사한다.

표본 평균의 특성

모평균 `μ` 와 모분산 $σ^{2}$ 인 모집단에서 크기 `n` 인 표본을 선정할 때, 표본 평균 $\overline{X}$ 의 표본 분포에 대해 다음이 성립한다.

(1) 표본 평균의 평균은 $\displaystyle μ_{\overline{X}} = μ$ 이고, 분산은 $\displaystyle σ_{\overline{X}}^{2} = \frac{σ^{2}}{n}$ 이다.

(2) 모집단이 정규 분포 $\displaystyle N(μ, \; σ^{2})$ 이면, `n` 의 크기에 관계 없이 $\displaystyle \overline{X} \sim N(μ, \; \frac{σ^{2}}{n})$ 이다.

(3) 모집단의 분포가 정규 분포가 아닌 경우에도 충분히 큰 `n` 에 대해 근사적으로 $\displaystyle \overline{X} \approx N(μ, \; \frac{σ^{2}}{n})$ 이다.

예제 : 모집단의 확률 분포가 다음과 같다.

`X` `-1` `0` `1`

$P(X=x)$ `1/3` `1/2` `1/6`

이 모집단에서 크기가 2인 표본을 복원 추출할 때, 표본 평균 $\overline{X}$ 에 대해 다음을 구하라.

(a) $\overline{X}$ 의 분포

(b) $\overline{X}$ 의 평균

(c) $\overline{X}$ 의 분산

(a)

크기가 2인 표본을 $\{X_{1}, X_{2} \}$ 이라 하면, 복원 추출이므로 다음이 성립한다.

$$P(X_{1} = x_{1}, \; X_{2} = x_{2}) = P(X_{1} = x_{1})P(X_{2} = x_{2}), \; x_{1}, x_{2} = -1, 0, 1$$

따라서 다음 확률표를 얻는다.

$X_{2}$ \ $X_{1}$	`-1`	`0`	`1`
`-1`	`1/9`	`1/6`	`1/18`
`0`	`1/6`	`1/4`	`1/12`
`1`	`1/18`	`1/12`	`1/36`

아 때, 표본 평균 $\displaystyle \overline{X} = \frac{X_{1} + X_{2}}{2}$ 가 취할 수 있는 값은 `-1, -0.5, 0, 0.5, 1` 뿐이고, $\overline{X}$ 의 확률 분포는 다음과 같다.

$\overline{X}$	`-1`	`-0.5`	`0`	`0.5`	`1`
$P(\overline{X} = \overline{x})$	`4/36`	`12/36`	`13/36`	`6/36`	`1/36`

(b)

모평균이 $μ = - \frac{1}{6}$ 이므로, $\overline{X}$ 의 평균은 $μ_{\overline{X}} = - \frac{1}{6}$ 이다.

(c)

모분산이 $σ^{2} = \frac{17}{36}$ 이므로, $\overline{X}$ 의 분산은 $σ_{\overline{X}}^{2} = \frac{17/36}{2} = \frac{17}{72}$ 이다.

표본 비율의 분포

모비율이 `p` 인 모집단에서 크기 `n` 인 표본을 임의로 선정하여 표본을 $\{X_{1}, X_{2}, \cdots, X_{n} \}$ 이라 하자.
그러면 $X_{i}, \; i = 1, 2, \cdots, n$ 은 0 또는 1 을 취하는 확률 변수이고, $X = X_{1} + X_{2} + \cdots + X_{n}$ 은 표본에서 성공한 횟수를 나타낸다.
따라서 `n` 개로 구성된 표본 중에서 특정 사건이 나타나는 비율인 표본 비율은 $\displaystyle \hat{p} = \frac{X}{n}$ 이다.
독립인 베르누이 확률 변수들의 합 `X` 에 대해 $X \sim B(n, \; p)$ 이므로, 확률 변수 `X` 의 평균과 분산은 각각 $μ = np$ 와 $σ^{2} = npq$ 이고, 따라서 표본 비율 $\hat{p}$ 의 평균과 분산은 다음과 같다.

$$μ_{\hat{p}} = E \left (\frac{X}{n} \right ) = \frac{1}{n}E(X) = \frac{1}{n}(np) = p \\ σ_{\hat{p}}^{2} = \text{Var} \left (\frac{X}{n} \right ) = \frac{1}{n^{2}} \text{Var}(X) = \frac{1}{n^{2}}(npq) = \frac{pq}{n}$$

이 때, `n` 이 충분히 크면 이항 분포의 정규 근사에 의해 표본 비율 $\hat{p}$ 는 평균 $μ_{\hat{p}}$ 와 분산 $σ_{\hat{p}}^{2}$ 을 갖는 정규 분포에 근사한다.
즉, 표본 비율의 표본 분포는 다음과 같다.

$$\hat{p} \approx N \left( p, \frac{pq}{n} \right)$$

예제 : 모비율이 `p = 0.45` 인 모집단에서 크기 100인 표본을 추출했다. 표본 비율 $\hat{p}$ 에 대해 다음을 구하라.

(a) $\hat{p}$ 의 분포

(b) $P(\hat{p} \le 0.35)$

(c) $P(0.41 \le \hat{p} \le 0.51)$

(a)

$p = 0.45, \; n = 100$ 이므로 $\displaystyle μ_{\hat{p}} = 0.45, \; σ_{\hat{p}}^{2} = \frac{0.45 \times 0.55}{100} ≒ 0.05^{2}, \; \hat{p} \approx N(0.45, 0.05^{2})$ 이다.

(b)

$\displaystyle \eqalign{ P(\hat{p} \le 0.35) &= P \left ( \frac{\hat{p} - 0.45}{0.05} \le \frac{0.35 - 0.45}{0.05} \right ) \\ &= P(Z \le -2) = 1 - P(Z \le 2) = 1 - 0.9772 = 0.0228}$

(c)

$\displaystyle \eqalign{ P(0.41 \le \hat{p} \le 0.51) & = P \left ( \frac{0.41 - 0.45}{0.05} \le \frac{\hat{p} - 0.45}{0.05} \le \frac{0.51 - 0.45}{0.05} \right ) \\ & = P(-0.8 \le Z \le 1.2) \\ & = P(Z \le 1.2) - P(Z \le -0.8) \\ & = P(Z \le 1.2) - [1 - P(Z \le 0.8)] \\ & = 0.8849 - (1 - 0.7881) = 0.6730 }$

728x90

저작자표시 비영리 변경금지 (새창열림)

'Mathematics > 확률과 통계' 카테고리의 다른 글

[확률과 통계] 모평균의 검정(σ² : 기지) (0)	2022.11.30
[확률과 통계] 통계적 가설 검정 (0)	2022.11.28
[확률과 통계] 모비율의 추정 (0)	2022.11.28
[확률과 통계] 모평균의 추정 (0)	2022.11.27
[확률과 통계] 연속 확률 분포 (0)	2022.11.21
[확률과 통계] 이산 확률 분포 (0)	2022.11.14
[확률과 통계] 확률 변수의 평균과 분산 (0)	2022.11.14
[확률과 통계] 연속 확률 변수 (0)	2022.11.14

Per ardua ad astra.

"Hello, World!" 🤖

[확률과 통계] 모집단과 표본

모집단과 표본

모집단 분포와 표본 분포

모집단 분포(Population Distribution)와 모수(Parameter)

표본 분포와 통계량

표본 평균의 분포

표본 평균의 특성

표본 비율의 분포

'Mathematics > 확률과 통계' 카테고리의 다른 글

티스토리툴바