« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

[확률과 통계] 모평균의 추정

2022. 11. 27. 23:31

728x90

모평균의 추정

대부분의 모집단은 분포를 비롯하여 모집단의 특성을 나타내는 모수가 알려져 있지 않다.
따라서 표본을 선정하여 얻은 정보를 이용하여 모집단의 모수를 과학적으로 추론할 필요가 있다.
이와 같이 모집단으로부터 선정한 표본을 통해 얻은 정보를 이용하여 미지의 모수를 추측하는 것을 추정(Estimate)이라 한다.
이 때, 모집단이 정규 분포를 따르면 표본의 크기 `n` 에 관계 없이 표본 평균 $\overline{X}$ 는 정규 분포를 따른다.
그리고 모집단 분포가 정규 분포가 아닌 경우에도 표본의 크기 `n` 이 충분히 크면 표본 평균 $\overline{X}$ 가 근사적으로 정규 분포를 따르는 것을 살펴보았다.
이 페이지에서는 모집단으로부터 표본을 선정하여 과학적인 방법으로 모평균을 추정하는 방법에 대해 알아본다.

모평균의 점추정

모분산 $σ^{2}$ 이 알려져 있는 정규 모집단 $N(μ, \; σ^{2})$ 에서 모평균 `μ` 를 추정하기 위해서는 다음과 같이 선정한 표본의 표본 평균 $\overline{x}$ 를 이용한다.

이 때, 표본 $\{X_{1}, X_{2}, \cdots, X_{n} \}$ 의 관찰값인 $x_{1}, x_{2}, \cdots, x_{n}$ 의 평균 $\overline{x}$ 를 이용하여 모평균 `μ` 를 추정하는 과정을 점 추정(Point Estimate)이라 한다.
그리고 표본 평균 $\overline{X}$ 를 모평균 `μ` 에 대한 점 추정량(Point Estimator)이라 하고, 관찰값의 평균 $\overline{x}$ 를 `μ` 에 대한 점 추정값(Value of Point Estimate)이라 한다.

예제 : 분산이 4인 정규 모집단의 평균을 추정하기 위해 표본을 선정하여 다음을 얻었다. 이 때, 모평균 `μ` 에 대한 점 추정값을 구하라.

모평균 `μ` 를 추정하기 위해 표본 평균 $\overline{x}$ 를 이용하여 모평균에 대한 점 추정값을 구하면 다음과 같다.

$$\overline{x} = \frac{1}{10}(72 + 71 + 71 + 73 + 76 + 71 + 68 + 70 + 71 + 74) = 71.7$$

모평균의 신뢰 구간

모평균의 점 추정은 모집단으로부터 표본을 어떻게 선정하느냐에 따라 점 추정값이 다르게 나타날 뿐만 아니라 모평균의 참값을 왜곡하는 경우가 발생할 수도 있다.
이러한 오류를 방지하기 위해 모평균의 참값이 포함될 것으로 믿어지는 구간을 추정한다.
이와 같이 모평균 `μ` 의 참값이 포함될 것으로 믿어지는 구간을 추정하는 방법을 구간 추정(Interval Estimate)이라 한다.
모평균 `μ` 에 대한 구간 추정을 구하기 위해서는 `μ` 의 참값이 포함될 확률이 $1 - α, \; 0 < α < 1$ 이 되도록 추정값 $\overline{x_{1}}$ 과 $\overline{x_{2}}$ 를 구한다.

$$P(\overline{x_{1}} \le μ \le \overline{x_{2}}) = 1 - α$$

그러면 모평균 `μ` 의 참값을 포함하는 모든 구간 $(\overline{x_{1}}, \; \overline{x_{2}})$ 를 $100(1 - α)$% 신뢰 구간(Confidence Interval)이라 하며, 모수의 참값이 이 구간에 포함될 것으로 믿어지는 확신의 정도인 $100(1 - α)$% 를 신뢰도(Degree of Confidence)라 한다.
이 때, $α = 0.1, 0.05, 0.01$ 인 경우, 즉 90%, 95%, 99% 신뢰도를 사용하며, 신뢰 구간의 중심은 표본 평균 $\overline{x}$ 를 이용한다.
특히 신뢰도가 커질수록 다음과 같이 신뢰 구간은 커진다.

한편, 모집단이 정규 분포 $N(μ, σ^{2})$ 를 따르면, 표본 평균 $\overline{X}$ 는 근사적으로 정규 분포 $\displaystyle N(μ, \frac{σ^{2}}{n})$ 를 따른다. (관련 내용 바로가기)
따라서 $\overline{X}$ 를 표준화한 확률 변수 $\displaystyle Z = \frac{\overline{X} - μ}{\frac{σ}{\sqrt{n}} }$ 는 표준 정규 분포 $N(0, 1)$ 을 따른다.
그리고 표준 정규 분포에서 양쪽 꼬리 확률이 각각 `α / 2` 인 임계점은 다음과 같이 각각 $-z_{\frac{α}{2}}$ 와 $z_{\frac{α}{2}}$ 이다.

따라서 표본 평균 $\overline{X}$ 의 표준화 확률 변수 `Z` 로부터 다음을 얻는다.

$$P(|Z| \le z_{\frac{α}{2}}) = 1 - α \\ P \left ( \left |\frac{\overline{X} - μ}{\frac{σ}{\sqrt{n}}} \right | \le z_{\frac{α}{2}} \right ) = P(|\overline{X} - μ|) \le z_{\frac{α}{2}} \frac{σ}{\sqrt{n}} = 1 - α \\ P \left (\overline{X} - z_{\frac{α}{2}} \frac{σ}{\sqrt{n}} \le μ \le \overline{X} + z_{\frac{α}{2}} \frac{σ}{\sqrt{n}} \right ) = 1 - α$$

이 때, 표본 평균 $\overline{X}$ 의 관찰값을 $\overline{x}$ 라 하면, 모평균 `μ` 에 대한 $100(1 - α)$% 신뢰 구간은 다음과 같다.

$$\overline{x} - z_{\frac{α}{2}} \frac{σ}{\sqrt{n}} \le μ \le \overline{x} + z_{\frac{α}{2}} \frac{σ}{\sqrt{n}}$$

표준 정규 분포의 양쪽 꼬리 확률이 각각 $\frac{α}{2} = 0.05, 0.025, 0.005$ 가 되는 백분위수는 $z_{0.05} = 1.645, \; z_{0.025} = 1.96, \; z_{0.005} = 2.58$ 이고, 이에 대한 중심 확률 $P(|Z| < z_{\frac{α}{2}}$ 는 각각 다음과 같다. (관련 내용 바로가기)

$$P(|Z| < 1.645) = 0.9, \; P(|Z| < 1.96) = 0.95, \; P(|Z| < 2.58) = 0.99$$

그러므로 모분산 $σ^{2}$ 을 알고 있는 정규 모집단의 모평균 `μ` 에 대한 90%, 95%, 99% 신뢰 구간은 각각 다음과 같다.

- 90% 신뢰 구간 : $\displaystyle \overline{x} - 1.645 \frac{σ}{\sqrt{n}} \le μ \le \overline{x} + 1.645 \frac{σ}{\sqrt{n}}$

- 95% 신뢰 구간 : $\displaystyle \overline{x} - 1.96 \frac{σ}{\sqrt{n}} \le μ \le \overline{x} + 1.96 \frac{σ}{\sqrt{n}}$

- 99% 신뢰 구간 : $\displaystyle \overline{x} - 2.58 \frac{σ}{\sqrt{n}} \le μ \le \overline{x} + 2.58 \frac{σ}{\sqrt{n}}$

예제 : $σ^{2} = 9$ 인 정규 모집단의 모평균을 추정하기 위해 크기 25인 표본을 추출했다. 표본 평균이 30일 때, 모평균에 대한 95% 신뢰 구간을 구하라.

$\overline{x} = 30, \; σ^{2} = 9, \; n = 25$ 이므로 모평균 `μ` 에 대한 95% 신뢰 구간을 구하면 다음과 같다.

$$\displaystyle 30 - 1.96 \frac{3}{\sqrt{25}} \le μ \le 30 + 1.96 \frac{3}{\sqrt{25}} \\ 30 - 1.176 \le μ \le 30 + 1.176 \\ 28.824 \le μ \le 31.176$$

일반적으로 모집단은 매우 많은 자료로 구성되므로 모분산이 알려지는 경우가 거의 없다.
그러나 표본의 크기 `n` 이 충분히 크면 $s^{2} \approx σ^{2}$ 인 사실이 밝혀져 있다.
따라서 표본 평균 $\overline{X}$ 에 대해 다음과 같은 근사적인 확률 분포가 성립한다.

$\displaystyle \overline{X} \approx N(μ, \frac{s^{2}}{n})$ 또는 $\displaystyle \frac{\overline{X} - μ}{\frac{s}{\sqrt{n}}} \approx N(0, 1)$

그러므로 모분산이 알려져 있지 않으나 `n` 이 충분히 크면 $σ^{2}$ 을 $s^{2}$ 으로 대치하여 다음의 근사 신뢰 구간을 구할 수 있다.

- 90% 근사 신뢰 구간 : $\displaystyle \overline{x} - 1.645 \frac{s}{\sqrt{n}} \le μ \le \overline{x} + 1.645 \frac{s}{\sqrt{n}}$

- 95% 근사 신뢰 구간 : $\displaystyle \overline{x} - 1.96 \frac{s}{\sqrt{n}} \le μ \le \overline{x} + 1.96 \frac{s}{\sqrt{n}}$

- 99% 근사 신뢰 구간 : $\displaystyle \overline{x} - 2.58 \frac{s}{\sqrt{n}} \le μ \le \overline{x} + 2.58 \frac{s}{\sqrt{n}}$

예제 : 정규 모집단의 모평균을 추정하기 위해 크기 125인 표본을 추출했다. 표본 평균 75, 표본 표준 편차 9를 얻었다. 이때 모평균에 대한 95% 근사 신뢰 구간을 구하라.

$\overline{x} = 75, \; s = 9, \; n = 125$ 이므로 모평균 `μ` 에 대한 95% 근사 신뢰 구간을 구하면 다음과 같다.

$$\displaystyle 75 - 1.96 \frac{9}{\sqrt{125}} \le μ \le 75 + 1.96 \frac{9}{\sqrt{125}} \\ 75 - 1.58 \le μ \le 75 + 1.58 \\ 73.42 \le μ \le 76.58$$

두 모평균 차의 신뢰 구간

독립인 두 정규 모집단 $N(μ_{1}, σ^{2}_{1})$ 과 $N(μ_{2}, σ^{2}_{2})$ 의 모분산 $σ^{2}_{1}$ 과 $σ^{2}_{2}$ 이 알려져 있다고 하자.
이 때, 두 모평균의 차 $μ_{1} - μ_{2}$ 에 대한 신뢰 구간을 살펴보자.
우선 두 모집단에서 각각 크기가 `n` 과 `m` 인 표본의 표본 평균을 각각 $\overline{X}, \; \overline{Y}$ 라 하자.
그러면 두 표본 평균은 독립이고 각각 다음 정규 분포를 따른다.

$$\overline{X} \sim N(μ_{1}, \; \frac{σ^{2}_{1}}{n}), \quad \overline{Y} \sim N(μ_{2}, \; \frac{σ^{2}_{2}}{m})$$

따라서 두 표본 평균의 차 $\overline{X} - \overline{Y}$ 는 다음 정규 분포를 따른다. (관련 내용 바로가기)

$$\overline{X} - \overline{Y} \sim N(μ_{1} - μ_{2}, \; \frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{1}}{m})$$

그리고 $\overline{X} - \overline{Y}$ 의 표준화 확률 변수 `Z` 는 다음 표준 정규 분포를 따른다.

$$Z = \frac{(\overline{X} - \overline{Y}) - (μ_{1} - μ_{2})}{\sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}}} \sim N(0, \; 1)$$

그러면 양쪽 꼬리 확률이 각각 `α / 2` 인 백분위수 $-z_{\frac{α}{2}}$ 와 $z_{\frac{α}{2}}$ 에 대해 다음이 성립한다.

$$P(|Z| \le z_{\frac{α}{2}}) = 1 - α \\ P \left( -z_{\frac{α}{2}} \le \frac{(\overline{X} - \overline{Y}) - (μ_{1} - μ_{2})}{\sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}}} \le z_{\frac{α}{2}} \right) = 1 - α \\ P \left( (\overline{X} - \overline{Y}) - z_{\frac{α}{2}} \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{X} - \overline{Y}) + z_{\frac{α}{2}} \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}} \right) = 1 - α$$

따라서 두 모평균의 차 $μ_{1} - μ_{2}$ 에 대한 90%, 95%, 99% 신뢰 구간은 다음과 같다.

- 90% 신뢰 구간 : $\displaystyle (\overline{x} - \overline{y}) - 1.645 \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{x} - \overline{y}) + 1.645 \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}}$

- 95% 신뢰 구간 : $\displaystyle (\overline{x} - \overline{y}) - 1.96 \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{x} - \overline{y}) + 1.96 \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}}$

- 99% 신뢰 구간 : $\displaystyle (\overline{x} - \overline{y}) - 2.58 \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{x} - \overline{y}) + 2.58 \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}}$

두 정규 모집단의 모분산이 알려지지 않은 경우에는 각각 충분히 큰 `n` 과 `m` 에 대해 $s_{1}^{2} \approx σ^{2}_{1}, \; s_{2}^{2} \approx σ^{2}_{2}$ 이므로 $σ^{2}_{1}$ 과 $σ^{2}_{2}$ 를 각각 $s^{2}_{1}$ 과 $s^{2}_{2}$ 으로 대치하여 다음의 근사 신뢰 구간을 구할 수 있다.

- 90% 근사 신뢰 구간 : $\displaystyle (\overline{x} - \overline{y}) - 1.645 \sqrt{\frac{s^{2}_{1}}{n} + \frac{s^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{x} - \overline{y}) + 1.645 \sqrt{\frac{s^{2}_{1}}{n} + \frac{s^{2}_{2}}{m}}$

- 95% 근사 신뢰 구간 : $\displaystyle (\overline{x} - \overline{y}) - 1.96 \sqrt{\frac{s^{2}_{1}}{n} + \frac{s^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{x} - \overline{y}) + 1.96 \sqrt{\frac{s^{2}_{1}}{n} + \frac{s^{2}_{2}}{m}}$

- 99% 근사 신뢰 구간 : $\displaystyle (\overline{x} - \overline{y}) - 2.58 \sqrt{\frac{s^{2}_{1}}{n} + \frac{s^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{x} - \overline{y}) + 2.58 \sqrt{\frac{s^{2}_{1}}{n} + \frac{s^{2}_{2}}{m}}$

예제 : 남성과 여성의 평균 월급에 차이가 있는지 살펴보기 위해 표본을 선정하여 조사한 결과, 다음을 얻었다. 남성과 여성의 평균 월급의 차에 대한 95% 신뢰 구간을 구하라. 단, 월급은 정규 분포를 따른다고 한다.

구분	인원	평균 월급	표준 편차
남성 근로자	56	261.6만원	21.5만원
여성 근로자	44	254.4만원	14.3만원

$\overline{x} = 261.6, \; s_{1}^{2} = 21.5, \; n = 56, \; \overline{y} = 254.4, \; s_{2}^{2} = 14.3, \; m = 44$ 이므로 다음을 얻는다.

$$\overline{x} - \overline{y} = 261.6 - 254.4 = 7.2, \; 1.96 \times \sqrt{\frac{21.5^{2}}{56} + \frac{14.3^{2}}{44}} ≒ 7.04$$

따라서 모평균 $μ_{1} - μ_{2}$ 에 대한 95% 근사 신뢰 구간을 구하면 다음과 같다.

$$7.2 - 7.04 \le μ \le 7.2 + 7.04 \\ 0.16 \le μ \le 14.24$$

728x90

저작자표시 비영리 변경금지 (새창열림)

'Mathematics > 확률과 통계' 카테고리의 다른 글

[확률과 통계] 모평균의 검정 (σ² : 미지) (0)	2022.12.01
[확률과 통계] 모평균의 검정(σ² : 기지) (0)	2022.11.30
[확률과 통계] 통계적 가설 검정 (0)	2022.11.28
[확률과 통계] 모비율의 추정 (0)	2022.11.28
[확률과 통계] 모집단과 표본 (0)	2022.11.21
[확률과 통계] 연속 확률 분포 (0)	2022.11.21
[확률과 통계] 이산 확률 분포 (0)	2022.11.14
[확률과 통계] 확률 변수의 평균과 분산 (0)	2022.11.14

Per ardua ad astra.

"Hello, World!" 🤖