728x90
728x90
모평균의 추정
- 대부분의 모집단은 분포를 비롯하여 모집단의 특성을 나타내는 모수가 알려져 있지 않다.
- 따라서 표본을 선정하여 얻은 정보를 이용하여 모집단의 모수를 과학적으로 추론할 필요가 있다.
- 이와 같이 모집단으로부터 선정한 표본을 통해 얻은 정보를 이용하여 미지의 모수를 추측하는 것을 추정(Estimate)이라 한다.
- 이 때, 모집단이 정규 분포를 따르면 표본의 크기 `n` 에 관계 없이 표본 평균 $\overline{X}$ 는 정규 분포를 따른다.
- 그리고 모집단 분포가 정규 분포가 아닌 경우에도 표본의 크기 `n` 이 충분히 크면 표본 평균 $\overline{X}$ 가 근사적으로 정규 분포를 따르는 것을 살펴보았다.
- 이 페이지에서는 모집단으로부터 표본을 선정하여 과학적인 방법으로 모평균을 추정하는 방법에 대해 알아본다.
모평균의 점추정
- 모분산 $σ^{2}$ 이 알려져 있는 정규 모집단 $N(μ, \; σ^{2})$ 에서 모평균 `μ` 를 추정하기 위해서는 다음과 같이 선정한 표본의 표본 평균 $\overline{x}$ 를 이용한다.
- 이 때, 표본 $\{X_{1}, X_{2}, \cdots, X_{n} \}$ 의 관찰값인 $x_{1}, x_{2}, \cdots, x_{n}$ 의 평균 $\overline{x}$ 를 이용하여 모평균 `μ` 를 추정하는 과정을 점 추정(Point Estimate)이라 한다.
- 그리고 표본 평균 $\overline{X}$ 를 모평균 `μ` 에 대한 점 추정량(Point Estimator)이라 하고, 관찰값의 평균 $\overline{x}$ 를 `μ` 에 대한 점 추정값(Value of Point Estimate)이라 한다.
예제 : 분산이 4인 정규 모집단의 평균을 추정하기 위해 표본을 선정하여 다음을 얻었다. 이 때, 모평균 `μ` 에 대한 점 추정값을 구하라.
72 | 71 | 71 | 73 | 76 | 71 | 68 | 70 | 71 | 74 |
더보기
모평균 `μ` 를 추정하기 위해 표본 평균 $\overline{x}$ 를 이용하여 모평균에 대한 점 추정값을 구하면 다음과 같다.
$$\overline{x} = \frac{1}{10}(72 + 71 + 71 + 73 + 76 + 71 + 68 + 70 + 71 + 74) = 71.7$$
모평균의 신뢰 구간
- 모평균의 점 추정은 모집단으로부터 표본을 어떻게 선정하느냐에 따라 점 추정값이 다르게 나타날 뿐만 아니라 모평균의 참값을 왜곡하는 경우가 발생할 수도 있다.
- 이러한 오류를 방지하기 위해 모평균의 참값이 포함될 것으로 믿어지는 구간을 추정한다.
- 이와 같이 모평균 `μ` 의 참값이 포함될 것으로 믿어지는 구간을 추정하는 방법을 구간 추정(Interval Estimate)이라 한다.
- 모평균 `μ` 에 대한 구간 추정을 구하기 위해서는 `μ` 의 참값이 포함될 확률이 $1 - α, \; 0 < α < 1$ 이 되도록 추정값 $\overline{x_{1}}$ 과 $\overline{x_{2}}$ 를 구한다.
$$P(\overline{x_{1}} \le μ \le \overline{x_{2}}) = 1 - α$$ |
- 그러면 모평균 `μ` 의 참값을 포함하는 모든 구간 $(\overline{x_{1}}, \; \overline{x_{2}})$ 를 $100(1 - α)$% 신뢰 구간(Confidence Interval)이라 하며, 모수의 참값이 이 구간에 포함될 것으로 믿어지는 확신의 정도인 $100(1 - α)$% 를 신뢰도(Degree of Confidence)라 한다.
- 이 때, $α = 0.1, 0.05, 0.01$ 인 경우, 즉 90%, 95%, 99% 신뢰도를 사용하며, 신뢰 구간의 중심은 표본 평균 $\overline{x}$ 를 이용한다.
- 특히 신뢰도가 커질수록 다음과 같이 신뢰 구간은 커진다.
- 한편, 모집단이 정규 분포 $N(μ, σ^{2})$ 를 따르면, 표본 평균 $\overline{X}$ 는 근사적으로 정규 분포 $\displaystyle N(μ, \frac{σ^{2}}{n})$ 를 따른다. (관련 내용 바로가기)
- 따라서 $\overline{X}$ 를 표준화한 확률 변수 $\displaystyle Z = \frac{\overline{X} - μ}{\frac{σ}{\sqrt{n}} }$ 는 표준 정규 분포 $N(0, 1)$ 을 따른다.
- 그리고 표준 정규 분포에서 양쪽 꼬리 확률이 각각 `α / 2` 인 임계점은 다음과 같이 각각 $-z_{\frac{α}{2}}$ 와 $z_{\frac{α}{2}}$ 이다.
- 따라서 표본 평균 $\overline{X}$ 의 표준화 확률 변수 `Z` 로부터 다음을 얻는다.
$$P(|Z| \le z_{\frac{α}{2}}) = 1 - α \\ P \left ( \left |\frac{\overline{X} - μ}{\frac{σ}{\sqrt{n}}} \right | \le z_{\frac{α}{2}} \right ) = P(|\overline{X} - μ|) \le z_{\frac{α}{2}} \frac{σ}{\sqrt{n}} = 1 - α \\ P \left (\overline{X} - z_{\frac{α}{2}} \frac{σ}{\sqrt{n}} \le μ \le \overline{X} + z_{\frac{α}{2}} \frac{σ}{\sqrt{n}} \right ) = 1 - α$$ |
- 이 때, 표본 평균 $\overline{X}$ 의 관찰값을 $\overline{x}$ 라 하면, 모평균 `μ` 에 대한 $100(1 - α)$% 신뢰 구간은 다음과 같다.
$$\overline{x} - z_{\frac{α}{2}} \frac{σ}{\sqrt{n}} \le μ \le \overline{x} + z_{\frac{α}{2}} \frac{σ}{\sqrt{n}}$$
- 표준 정규 분포의 양쪽 꼬리 확률이 각각 $\frac{α}{2} = 0.05, 0.025, 0.005$ 가 되는 백분위수는 $z_{0.05} = 1.645, \; z_{0.025} = 1.96, \; z_{0.005} = 2.58$ 이고, 이에 대한 중심 확률 $P(|Z| < z_{\frac{α}{2}}$ 는 각각 다음과 같다. (관련 내용 바로가기)
$$P(|Z| < 1.645) = 0.9, \; P(|Z| < 1.96) = 0.95, \; P(|Z| < 2.58) = 0.99$$ |
- 그러므로 모분산 $σ^{2}$ 을 알고 있는 정규 모집단의 모평균 `μ` 에 대한 90%, 95%, 99% 신뢰 구간은 각각 다음과 같다.
- 90% 신뢰 구간 : $\displaystyle \overline{x} - 1.645 \frac{σ}{\sqrt{n}} \le μ \le \overline{x} + 1.645 \frac{σ}{\sqrt{n}}$
- 95% 신뢰 구간 : $\displaystyle \overline{x} - 1.96 \frac{σ}{\sqrt{n}} \le μ \le \overline{x} + 1.96 \frac{σ}{\sqrt{n}}$
- 99% 신뢰 구간 : $\displaystyle \overline{x} - 2.58 \frac{σ}{\sqrt{n}} \le μ \le \overline{x} + 2.58 \frac{σ}{\sqrt{n}}$
예제 : $σ^{2} = 9$ 인 정규 모집단의 모평균을 추정하기 위해 크기 25인 표본을 추출했다. 표본 평균이 30일 때, 모평균에 대한 95% 신뢰 구간을 구하라.
더보기
$\overline{x} = 30, \; σ^{2} = 9, \; n = 25$ 이므로 모평균 `μ` 에 대한 95% 신뢰 구간을 구하면 다음과 같다.
$$\displaystyle 30 - 1.96 \frac{3}{\sqrt{25}} \le μ \le 30 + 1.96 \frac{3}{\sqrt{25}} \\ 30 - 1.176 \le μ \le 30 + 1.176 \\ 28.824 \le μ \le 31.176$$ |
- 일반적으로 모집단은 매우 많은 자료로 구성되므로 모분산이 알려지는 경우가 거의 없다.
- 그러나 표본의 크기 `n` 이 충분히 크면 $s^{2} \approx σ^{2}$ 인 사실이 밝혀져 있다.
- 따라서 표본 평균 $\overline{X}$ 에 대해 다음과 같은 근사적인 확률 분포가 성립한다.
$\displaystyle \overline{X} \approx N(μ, \frac{s^{2}}{n})$ 또는 $\displaystyle \frac{\overline{X} - μ}{\frac{s}{\sqrt{n}}} \approx N(0, 1)$ |
- 그러므로 모분산이 알려져 있지 않으나 `n` 이 충분히 크면 $σ^{2}$ 을 $s^{2}$ 으로 대치하여 다음의 근사 신뢰 구간을 구할 수 있다.
- 90% 근사 신뢰 구간 : $\displaystyle \overline{x} - 1.645 \frac{s}{\sqrt{n}} \le μ \le \overline{x} + 1.645 \frac{s}{\sqrt{n}}$
- 95% 근사 신뢰 구간 : $\displaystyle \overline{x} - 1.96 \frac{s}{\sqrt{n}} \le μ \le \overline{x} + 1.96 \frac{s}{\sqrt{n}}$
- 99% 근사 신뢰 구간 : $\displaystyle \overline{x} - 2.58 \frac{s}{\sqrt{n}} \le μ \le \overline{x} + 2.58 \frac{s}{\sqrt{n}}$
예제 : 정규 모집단의 모평균을 추정하기 위해 크기 125인 표본을 추출했다. 표본 평균 75, 표본 표준 편차 9를 얻었다. 이때 모평균에 대한 95% 근사 신뢰 구간을 구하라.
더보기
$\overline{x} = 75, \; s = 9, \; n = 125$ 이므로 모평균 `μ` 에 대한 95% 근사 신뢰 구간을 구하면 다음과 같다.
$$\displaystyle 75 - 1.96 \frac{9}{\sqrt{125}} \le μ \le 75 + 1.96 \frac{9}{\sqrt{125}} \\ 75 - 1.58 \le μ \le 75 + 1.58 \\ 73.42 \le μ \le 76.58$$ |
두 모평균 차의 신뢰 구간
- 독립인 두 정규 모집단 $N(μ_{1}, σ^{2}_{1})$ 과 $N(μ_{2}, σ^{2}_{2})$ 의 모분산 $σ^{2}_{1}$ 과 $σ^{2}_{2}$ 이 알려져 있다고 하자.
- 이 때, 두 모평균의 차 $μ_{1} - μ_{2}$ 에 대한 신뢰 구간을 살펴보자.
- 우선 두 모집단에서 각각 크기가 `n` 과 `m` 인 표본의 표본 평균을 각각 $\overline{X}, \; \overline{Y}$ 라 하자.
- 그러면 두 표본 평균은 독립이고 각각 다음 정규 분포를 따른다.
$$\overline{X} \sim N(μ_{1}, \; \frac{σ^{2}_{1}}{n}), \quad \overline{Y} \sim N(μ_{2}, \; \frac{σ^{2}_{2}}{m})$$ |
- 따라서 두 표본 평균의 차 $\overline{X} - \overline{Y}$ 는 다음 정규 분포를 따른다. (관련 내용 바로가기)
$$\overline{X} - \overline{Y} \sim N(μ_{1} - μ_{2}, \; \frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{1}}{m})$$ |
- 그리고 $\overline{X} - \overline{Y}$ 의 표준화 확률 변수 `Z` 는 다음 표준 정규 분포를 따른다.
$$Z = \frac{(\overline{X} - \overline{Y}) - (μ_{1} - μ_{2})}{\sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}}} \sim N(0, \; 1)$$ |
- 그러면 양쪽 꼬리 확률이 각각 `α / 2` 인 백분위수 $-z_{\frac{α}{2}}$ 와 $z_{\frac{α}{2}}$ 에 대해 다음이 성립한다.
$$P(|Z| \le z_{\frac{α}{2}}) = 1 - α \\ P \left( -z_{\frac{α}{2}} \le \frac{(\overline{X} - \overline{Y}) - (μ_{1} - μ_{2})}{\sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}}} \le z_{\frac{α}{2}} \right) = 1 - α \\ P \left( (\overline{X} - \overline{Y}) - z_{\frac{α}{2}} \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{X} - \overline{Y}) + z_{\frac{α}{2}} \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}} \right) = 1 - α$$ |
- 따라서 두 모평균의 차 $μ_{1} - μ_{2}$ 에 대한 90%, 95%, 99% 신뢰 구간은 다음과 같다.
- 90% 신뢰 구간 : $\displaystyle (\overline{x} - \overline{y}) - 1.645 \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{x} - \overline{y}) + 1.645 \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}}$
- 95% 신뢰 구간 : $\displaystyle (\overline{x} - \overline{y}) - 1.96 \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{x} - \overline{y}) + 1.96 \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}}$
- 99% 신뢰 구간 : $\displaystyle (\overline{x} - \overline{y}) - 2.58 \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{x} - \overline{y}) + 2.58 \sqrt{\frac{σ^{2}_{1}}{n} + \frac{σ^{2}_{2}}{m}}$
- 두 정규 모집단의 모분산이 알려지지 않은 경우에는 각각 충분히 큰 `n` 과 `m` 에 대해 $s_{1}^{2} \approx σ^{2}_{1}, \; s_{2}^{2} \approx σ^{2}_{2}$ 이므로 $σ^{2}_{1}$ 과 $σ^{2}_{2}$ 를 각각 $s^{2}_{1}$ 과 $s^{2}_{2}$ 으로 대치하여 다음의 근사 신뢰 구간을 구할 수 있다.
- 90% 근사 신뢰 구간 : $\displaystyle (\overline{x} - \overline{y}) - 1.645 \sqrt{\frac{s^{2}_{1}}{n} + \frac{s^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{x} - \overline{y}) + 1.645 \sqrt{\frac{s^{2}_{1}}{n} + \frac{s^{2}_{2}}{m}}$
- 95% 근사 신뢰 구간 : $\displaystyle (\overline{x} - \overline{y}) - 1.96 \sqrt{\frac{s^{2}_{1}}{n} + \frac{s^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{x} - \overline{y}) + 1.96 \sqrt{\frac{s^{2}_{1}}{n} + \frac{s^{2}_{2}}{m}}$
- 99% 근사 신뢰 구간 : $\displaystyle (\overline{x} - \overline{y}) - 2.58 \sqrt{\frac{s^{2}_{1}}{n} + \frac{s^{2}_{2}}{m}} \le μ_{1} - μ_{2} \le (\overline{x} - \overline{y}) + 2.58 \sqrt{\frac{s^{2}_{1}}{n} + \frac{s^{2}_{2}}{m}}$
예제 : 남성과 여성의 평균 월급에 차이가 있는지 살펴보기 위해 표본을 선정하여 조사한 결과, 다음을 얻었다. 남성과 여성의 평균 월급의 차에 대한 95% 신뢰 구간을 구하라. 단, 월급은 정규 분포를 따른다고 한다.
구분 | 인원 | 평균 월급 | 표준 편차 |
남성 근로자 | 56 | 261.6만원 | 21.5만원 |
여성 근로자 | 44 | 254.4만원 | 14.3만원 |
더보기
$\overline{x} = 261.6, \; s_{1}^{2} = 21.5, \; n = 56, \; \overline{y} = 254.4, \; s_{2}^{2} = 14.3, \; m = 44$ 이므로 다음을 얻는다.
$$\overline{x} - \overline{y} = 261.6 - 254.4 = 7.2, \; 1.96 \times \sqrt{\frac{21.5^{2}}{56} + \frac{14.3^{2}}{44}} ≒ 7.04$$
따라서 모평균 $μ_{1} - μ_{2}$ 에 대한 95% 근사 신뢰 구간을 구하면 다음과 같다.
$$7.2 - 7.04 \le μ \le 7.2 + 7.04 \\ 0.16 \le μ \le 14.24$$
728x90
728x90
'Mathematics > 확률과 통계' 카테고리의 다른 글
[확률과 통계] 모평균의 검정 (σ² : 미지) (0) | 2022.12.01 |
---|---|
[확률과 통계] 모평균의 검정(σ² : 기지) (0) | 2022.11.30 |
[확률과 통계] 통계적 가설 검정 (0) | 2022.11.28 |
[확률과 통계] 모비율의 추정 (0) | 2022.11.28 |
[확률과 통계] 모집단과 표본 (0) | 2022.11.21 |
[확률과 통계] 연속 확률 분포 (0) | 2022.11.21 |
[확률과 통계] 이산 확률 분포 (0) | 2022.11.14 |
[확률과 통계] 확률 변수의 평균과 분산 (0) | 2022.11.14 |