728x90

모평균의 추정

  • 대부분의 모집단은 분포를 비롯하여 모집단의 특성을 나타내는 모수가 알려져 있지 않다.
  • 따라서 표본을 선정하여 얻은 정보를 이용하여 모집단의 모수를 과학적으로 추론할 필요가 있다.
  • 이와 같이 모집단으로부터 선정한 표본을 통해 얻은 정보를 이용하여 미지의 모수를 추측하는 것 추정(Estimate)이라 한다.
  • 이 때, 모집단이 정규 분포를 따르면 표본의 크기 `n` 에 관계 없이 표본 평균 $\overline{X}$ 는 정규 분포를 따른다.
  • 그리고 모집단 분포가 정규 분포가 아닌 경우에도 표본의 크기 `n` 이 충분히 크면 표본 평균 $\overline{X}$ 가 근사적으로 정규 분포를 따르는 것을 살펴보았다.
  • 이 페이지에서는 모집단으로부터 표본을 선정하여 과학적인 방법으로 모평균을 추정하는 방법에 대해 알아본다.

 

모평균의 점추정

  • 모분산 $σ^{2}$ 이 알려져 있는 정규 모집단 $N(μ, \; σ^{2})$ 에서 모평균 `μ` 를 추정하기 위해서는 다음과 같이 선정한 표본의 표본 평균 $\overline{x}$ 를 이용한다.

모수의 추론 과정

  • 이 때, 표본 $\{X_{1}, X_{2}, \cdots, X_{n} \}$ 의 관찰값인 $x_{1}, x_{2}, \cdots, x_{n}$ 의 평균 $\overline{x}$ 를 이용하여 모평균 `μ` 를 추정하는 과정을 점 추정(Point Estimate)이라 한다.
  • 그리고 표본 평균 $\overline{X}$ 를 모평균 `μ` 에 대한 점 추정량(Point Estimator)이라 하고, 관찰값의 평균 $\overline{x}$ 를 `μ` 에 대한 점 추정값(Value of Point Estimate)이라 한다.

 

예제 : 분산이 4인 정규 모집단의 평균을 추정하기 위해 표본을 선정하여 다음을 얻었다. 이 때, 모평균 `μ` 에 대한 점 추정값을 구하라.
72 71 71 73 76 71 68 70 71 74
더보기

모평균 `μ` 를 추정하기 위해 표본 평균 $\overline{x}$ 를 이용하여 모평균에 대한 점 추정값을 구하면 다음과 같다.

$$\overline{x} = \frac{1}{10}(72 + 71 + 71 + 73 + 76 + 71 + 68 + 70 + 71 + 74) = 71.7$$

 

모평균의 신뢰 구간

  • 모평균의 점 추정은 모집단으로부터 표본을 어떻게 선정하느냐에 따라 점 추정값이 다르게 나타날 뿐만 아니라 모평균의 참값을 왜곡하는 경우가 발생할 수도 있다.
  • 이러한 오류를 방지하기 위해 모평균의 참값이 포함될 것으로 믿어지는 구간을 추정한다.
  • 이와 같이 모평균 `μ` 의 참값이 포함될 것으로 믿어지는 구간을 추정하는 방법구간 추정(Interval Estimate)이라 한다.
  • 모평균 `μ` 에 대한 구간 추정을 구하기 위해서는 `μ` 의 참값이 포함될 확률이 $1 - α, \; 0 < α < 1$ 이 되도록 추정값 $\overline{x_{1}}$ 과 $\overline{x_{2}}$ 를 구한다.
$$P(\overline{x_{1}} \le μ \le \overline{x_{2}}) = 1 - α$$
  • 그러면 모평균 `μ` 의 참값을 포함하는 모든 구간 $(\overline{x_{1}}, \; \overline{x_{2}})$ 를 $100(1 - α)$% 신뢰 구간(Confidence Interval)이라 하며, 모수의 참값이 이 구간에 포함될 것으로 믿어지는 확신의 정도인 $100(1 - α)$% 를 신뢰도(Degree of Confidence)라 한다.
  • 이 때, $α = 0.1, 0.05, 0.01$ 인 경우, 즉 90%, 95%, 99% 신뢰도를 사용하며, 신뢰 구간의 중심은 표본 평균 $\overline{x}$ 를 이용한다.
  • 특히 신뢰도가 커질수록 다음과 같이 신뢰 구간은 커진다.

신뢰도에 따른 신뢰 구간의 비교

  • 한편, 모집단이 정규 분포 $N(μ, σ^{2})$ 를 따르면, 표본 평균 $\overline{X}$ 는 근사적으로 정규 분포 $\displaystyle N(μ, \frac{σ^{2}}{n})$ 를 따른다. (관련 내용 바로가기)
  • 따라서 $\overline{X}$ 를 표준화한 확률 변수 $\displaystyle Z = \frac{\overline{X} - μ}{\frac{σ}{\sqrt{n}} }$ 는 표준 정규 분포 $N(0, 1)$ 을 따른다.
  • 그리고 표준 정규 분포에서 양쪽 꼬리 확률이 각각 `α / 2` 인 임계점은 다음과 같이 각각 $-z_{\frac{α}{2}}$ 와 $z_{\frac{α}{2}}$ 이다.

꼬리 확률과 백분위수

  • 따라서 표본 평균 $\overline{X}$ 의 표준화 확률 변수 `Z` 로부터 다음을 얻는다.
$$P(|Z| \le z_{\frac{α}{2}}) = 1 - α \\ P \left ( \left |\frac{\overline{X} - μ}{\frac{σ}{\sqrt{n}}} \right | \le z_{\frac{α}{2}} \right ) = P(|\overline{X} - μ|) \le z_{\frac{α}{2}} \frac{σ}{\sqrt{n}} = 1 - α \\ P \left (\overline{X} - z_{\frac{α}{2}} \frac{σ}{\sqrt{n}} \le μ \le \overline{X} + z_{\frac{α}{2}} \frac{σ}{\sqrt{n}} \right ) = 1 - α$$
  • 이 때, 표본 평균 $\overline{X}$ 의 관찰값을 $\overline{x}$ 라 하면, 모평균 `μ` 에 대한 $100(1 - α)$% 신뢰 구간은 다음과 같다.
$$\overline{x} - z_{\frac{α}{2}} \frac{σ}{\sqrt{n}} \le μ \le \overline{x} + z_{\frac{α}{2}} \frac{σ}{\sqrt{n}}$$
  • 표준 정규 분포의 양쪽 꼬리 확률이 각각 $\frac{α}{2} = 0.05, 0.025, 0.005$ 가 되는 백분위수는 $z_{0.05} = 1.645, \; z_{0.025} = 1.96, \; z_{0.005} = 2.58$ 이고, 이에 대한 중심 확률 $P(|Z| < z_{\frac{α}{2}}$ 는 각각 다음과 같다. (관련 내용 바로가기)
$$P(|Z| < 1.645) = 0.9, \; P(|Z| < 1.96) = 0.95, \; P(|Z| < 2.58) = 0.99$$
  • 그러므로 모분산 $σ^{2}$ 을 알고 있는 정규 모집단의 모평균 `μ` 에 대한 90%, 95%, 99% 신뢰 구간은 각각 다음과 같다.
- 90% 신뢰 구간 :    $\displaystyle \overline{x} - 1.645 \frac{σ}{\sqrt{n}} \le μ \le \overline{x} + 1.645 \frac{σ}{\sqrt{n}}$

- 95% 신뢰 구간 :    $\displaystyle \overline{x} - 1.96 \frac{σ}{\sqrt{n}} \le μ \le \overline{x} + 1.96 \frac{σ}{\sqrt{n}}$

- 99% 신뢰 구간 :    $\displaystyle \overline{x} - 2.58 \frac{σ}{\sqrt{n}} \le μ \le \overline{x} + 2.58 \frac{σ}{\sqrt{n}}$

 

예제 : $σ^{2} = 9$ 인 정규 모집단의 모평균을 추정하기 위해 크기 25인 표본을 추출했다. 표본 평균이 30일 때, 모평균에 대한 95% 신뢰 구간을 구하라.
더보기

$\overline{x} = 30, \; σ^{2} = 9, \; n = 25$ 이므로 모평균 `μ` 에 대한 95% 신뢰 구간을 구하면 다음과 같다.

$$\displaystyle 30 - 1.96 \frac{3}{\sqrt{25}} \le μ \le 30 + 1.96 \frac{3}{\sqrt{25}} \\ 30 - 1.176 \le μ \le 30 + 1.176 \\ 28.824 \le μ \le 31.176$$

 

  • 일반적으로 모집단은 매우 많은 자료로 구성되므로 모분산이 알려지는 경우가 거의 없다.
  • 그러나 표본의 크기 `n` 이 충분히 크면 $s^{2} \approx σ^{2}$ 인 사실이 밝혀져 있다.
  • 따라서 표본 평균 $\overline{X}$ 에 대해 다음과 같은 근사적인 확률 분포가 성립한다.
$\displaystyle \overline{X} \approx N(μ, \frac{s^{2}}{n})$ 또는 $\displaystyle \frac{\overline{X} - μ}{\frac{s}{\sqrt{n}}} \approx N(0, 1)$
  • 그러므로 모분산이 알려져 있지 않으나 `n` 이 충분히 크면 $σ^{2}$ 을 $s^{2}$ 으로 대치하여 다음의 근사 신뢰 구간을 구할 수 있다.
- 90% 근사 신뢰 구간 :    $\displaystyle \overline{x} - 1.645 \frac{s}{\sqrt{n}} \le μ \le \overline{x} + 1.645 \frac{s}{\sqrt{n}}$

- 95% 근사 신뢰 구간 :    $\displaystyle \overline{x} - 1.96 \frac{s}{\sqrt{n}} \le μ \le \overline{x} + 1.96 \frac{s}{\sqrt{n}}$

- 99% 근사 신뢰 구간 :    $\displaystyle \overline{x} - 2.58 \frac{s}{\sqrt{n}} \le μ \le \overline{x} + 2.58 \frac{s}{\sqrt{n}}$

 

예제 : 정규 모집단의 모평균을 추정하기 위해 크기 125인 표본을 추출했다. 표본 평균 75, 표본 표준 편차 9를 얻었다. 이때 모평균에 대한 95% 근사 신뢰 구간을 구하라.
더보기

$\overline{x} = 75, \; s = 9, \; n = 125$ 이므로 모평균 `μ` 에 대한 95% 근사 신뢰 구간을 구하면 다음과 같다.

$$\displaystyle 75 - 1.96 \frac{9}{\sqrt{125}} \le μ \le 75 + 1.96 \frac{9}{\sqrt{125}} \\ 75 - 1.58 \le μ \le 75 + 1.58 \\ 73.42 \le μ \le 76.58$$

 

두 모평균 차의 신뢰 구간

  • 독립인 두 정규 모집단 $N(μ_{1}, σ^{2}_{1})$ 과 $N(μ_{2}, σ^{2}_{2})$ 의 모분산 $σ^{2}_{1}$ 과 $σ^{2}_{2}$ 이 알려져 있다고 하자.
  • 이 때, 두 모평균의 차 $μ_{1} - μ_{2}$ 에 대한 신뢰 구간을 살펴보자.
  • 우선 두 모집단에서 각각 크기가 `n` 과 `m` 인 표본의 표본 평균을 각각 $\overline{X}, \; \overline{Y}$ 라 하자.
  • 그러면 두 표본 평균은 독립이고 각각 다음 정규 분포를 따른다.
$$\overline{X} \sim N(μ_{1}, \; \frac{σ^{2}_{1}}{n}), \quad \overline{Y}  \sim N(μ_{2}, \; \frac{σ^{2}_{2}}{m})$$
  • 따라서 두 표본 평균의 차 $\overline{X} - \overline{Y}$ 는 다음 정규 분포를 따른다. (관련 내용 바로가기)
$$\overline{X} - \overline{Y} \sim N(μ_{1} - μ_{2}, \; \frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{1}}{m})$$
  • 그리고 $\overline{X} - \overline{Y}$ 의 표준화 확률 변수 `Z` 는 다음 표준 정규 분포를 따른다.
$$Z = \frac{(\overline{X} - \overline{Y}) - (μ_{1} - μ_{2})}{\sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}}} \sim N(0, \; 1)$$
  • 그러면 양쪽 꼬리 확률이 각각 `α / 2` 인 백분위수 $-z_{\frac{α}{2}}$ 와 $z_{\frac{α}{2}}$ 에 대해 다음이 성립한다.
$$P(|Z| \le z_{\frac{α}{2}}) = 1 - α \\ P \left( -z_{\frac{α}{2}} \le  \frac{(\overline{X} - \overline{Y}) - (μ_{1} - μ_{2})}{\sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}}}  \le z_{\frac{α}{2}} \right) = 1 - α \\ P \left( (\overline{X} - \overline{Y}) - z_{\frac{α}{2}} \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{X} - \overline{Y}) + z_{\frac{α}{2}} \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}} \right) = 1 - α$$
  • 따라서 두 모평균의 차 $μ_{1} - μ_{2}$ 에 대한 90%, 95%, 99% 신뢰 구간은 다음과 같다.
- 90% 신뢰 구간 :    $\displaystyle (\overline{x} - \overline{y}) - 1.645 \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{x} - \overline{y}) + 1.645 \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}}$

- 95% 신뢰 구간 :    $\displaystyle (\overline{x} - \overline{y}) - 1.96 \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{x} - \overline{y}) + 1.96 \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}}$

- 99% 신뢰 구간 :    $\displaystyle (\overline{x} - \overline{y}) - 2.58 \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{x} - \overline{y}) + 2.58 \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}}$
  • 두 정규 모집단의 모분산이 알려지지 않은 경우에는 각각 충분히 큰 `n` 과 `m` 에 대해 $s_{1}^{2} \approx σ^{2}_{1}, \; s_{2}^{2} \approx σ^{2}_{2}$ 이므로 $σ^{2}_{1}$ 과 $σ^{2}_{2}$ 를 각각 $s^{2}_{1}$ 과 $s^{2}_{2}$ 으로 대치하여 다음의 근사 신뢰 구간을 구할 수 있다.
- 90% 근사 신뢰 구간 :    $\displaystyle (\overline{x} - \overline{y}) - 1.645 \sqrt{\frac{s^{2}_{1}}{n} + \frac{s^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{x} - \overline{y}) + 1.645 \sqrt{\frac{s^{2}_{1}}{n} + \frac{s^{2}_{2}}{m}}$

- 95% 근사 신뢰 구간 :    $\displaystyle (\overline{x} - \overline{y}) - 1.96 \sqrt{\frac{s^{2}_{1}}{n} + \frac{s^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{x} - \overline{y}) + 1.96 \sqrt{\frac{s^{2}_{1}}{n} + \frac{s^{2}_{2}}{m}}$

- 99% 근사 신뢰 구간 :    $\displaystyle (\overline{x} - \overline{y}) - 2.58 \sqrt{\frac{s^{2}_{1}}{n} + \frac{s^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{x} - \overline{y}) + 2.58 \sqrt{\frac{s^{2}_{1}}{n} + \frac{s^{2}_{2}}{m}}$

 

예제 : 남성과 여성의 평균 월급에 차이가 있는지 살펴보기 위해 표본을 선정하여 조사한 결과, 다음을 얻었다. 남성과 여성의 평균 월급의 차에 대한 95% 신뢰 구간을 구하라. 단, 월급은 정규 분포를 따른다고 한다.
구분 인원 평균 월급 표준 편차
남성 근로자 56 261.6만원 21.5만원
여성 근로자 44 254.4만원 14.3만원
더보기

$\overline{x} = 261.6, \; s_{1}^{2} = 21.5, \; n = 56, \; \overline{y} = 254.4, \; s_{2}^{2} = 14.3, \; m = 44$ 이므로 다음을 얻는다.

$$\overline{x} - \overline{y} = 261.6 - 254.4 = 7.2, \; 1.96 \times \sqrt{\frac{21.5^{2}}{56} + \frac{14.3^{2}}{44}} ≒ 7.04$$

 

따라서 모평균 $μ_{1} - μ_{2}$ 에 대한 95% 근사 신뢰 구간을 구하면 다음과 같다.

$$7.2 - 7.04 \le μ \le 7.2 + 7.04 \\ 0.16 \le μ \le 14.24$$

 

728x90