728x90

모비율의 추정

모비율의 신뢰 구간

  • 표본의 크기 `n` 이 충분히 크다면, 모집단의 모비율 `p` 에 대한 점 추정량은 표본 비율 $\displaystyle \hat{p} = \frac{X}{n}$ 이고, $\hat{p}$ 는 다음과 같은 정규 분포에 근사한다. (관련 내용 바로가기)
$\displaystyle \hat{p} \approx N(p, \; \frac{pq}{n})$    또는    $\displaystyle Z = \frac{\hat{p} - p}{\sqrt{\frac{pq}{n}}} \approx N(0, \; 1)$    (단,    $q = 1 - p$)
  • 그러므로 다음을 얻는다.
$$P(|Z| \le z_{\frac{α}{2}}) \approx 1 - α \\ P \left( \left | \frac{\hat{p} - p}{\sqrt{\frac{pq}{n}}} \right | \le z_{\frac{α}{2}} \right ) = P \left ( | \hat{p} - p | \le z_{\frac{α}{2}}\sqrt{\frac{pq}{n}} \right ) \approx 1 - α \\ P \left ( \hat{p} - z_{\frac{α}{2}} \sqrt{\frac{pq}{n}} \le p \le \hat{p} +   z_{\frac{α}{2}} \sqrt{\frac{pq}{n}} \right ) \approx 1 - α$$
  • 따라서 모비율 `p` 에 대한 $100(1 - α)$ % 신뢰 구간은 다음과 같다.
$$\hat{p} - z_{\frac{α}{2}} \sqrt{\frac{pq}{n}} \le p \le \hat{p} +   z_{\frac{α}{2}} \sqrt{\frac{pq}{n}}$$
  • 한편, 모비율 `p` 는 알려지지 않은 수치이므로 신뢰 구간의 $\sqrt{ }$ 값을 계산할 수 없다.
  • 그러나 표본의 크기 `n` 이 충분히 크다면 $\hat{p} \approx p$ 가 알려져 있으며, $\sqrt{ }$ 안의 `p` 와 `q` 를 각각 $\hat{p}$ 와 $\hat{q} = 1 - \hat{p}$ 로 대치할 수 있다.
  • 그러면 모비율 `p` 에 대한 90%, 95%, 99% 신뢰 구간은 다음과 같다.
- 90% 신뢰 구간 :    $\displaystyle \hat{p} - 1.645 \sqrt{\frac{\hat{p}\hat{q}}{n}} \le p \le \hat{p} + 1.645 \sqrt{\frac{\hat{p}\hat{q}}{n}}$

- 95% 신뢰 구간 :    $\displaystyle \hat{p} - 1.96 \sqrt{\frac{\hat{p}\hat{q}}{n}} \le p \le \hat{p} + 1.96 \sqrt{\frac{\hat{p}\hat{q}}{n}}$

- 99% 신뢰 구간 :    $\displaystyle \hat{p} - 2.58 \sqrt{\frac{\hat{p}\hat{q}}{n}} \le p \le \hat{p} + 2.58 \sqrt{\frac{\hat{p}\hat{q}}{n}}$

 

예제 : 정부에서 실시하고자 하는 특정한 정책에 대해 찬성률을 알고자 한다. 이를 위해 국민 1,200명을 임의로 선정하여 조사한 결과 560명이 찬성하였다. 이 정책에 대한 국민의 몇 %가 찬성하는지 신뢰도 95%의 신뢰 구간을 구하라. 단, 소수점 이하 셋째 자리에서 반올림한다.
더보기

$\displaystyle n = 1200, \; \hat{p} = \frac{580}{1200} \approx 0.48, \; \hat{q} \approx 0.52$ 이므로 95% 신뢰 구간을 구하면 다음과 같다.

$$\displaystyle 0.48 - 1.96 \sqrt{\frac{0.48 \times 0.52}{1200}} \le p \le 0.48 + 1.96 \sqrt{\frac{0.48 \times 0.52}{1200}} \\ 0.48 - 0.0283 \le p \le 0.48 + 0.0283 \\ 0.45 \le p \le 0.51$$

 

두 모비율 차의 신뢰 구간

  • 독립인 두 모집단에 대해 모비율이 각각 $p_{1}$ 과 $p_{2}$ 라고 하자.
  • 이 때 두 모비율의 차 $p_{1} - p_{2}$ 에 대한 신뢰 구간을 구하는 방법을 살펴보자.
  • 두 모집단에서 각각 크기 `n` 과 `m` 인 표본을 선정하여 표본 비율을 각각 $\hat{p_{1}}. \; \hat{p_{2}}$ 라 하자.
  • 이 때 표본의 크기 `n` 과 `m` 이 충분히 크면, $\hat{p_{1}} \approx p_{1}, \; \hat{p_{2}} \approx p_{2}$ 이고 두 표본 비율은 독립이다.
  • 표본 비율 정규 분포에 근사하므로 다음이 성립한다. (관련 내용 바로가기)
$$\hat{p_{1}} \approx N \left ( p_{1}, \; \frac{\hat{p_{1}} \hat{q_{1}}}{n} \right ), \quad \hat{p_{2}} \approx N \left ( p_{2}, \; \frac{\hat{p_{2}} \hat{q_{2}} }{m} \right )$$
  • 따라서 두 표본 비율의 차 $\hat{p_{1}} - \hat{p_{2}}$ 의 표준화 확률 변수 `Z` 는 다음 정규 분포에 근사한다.
$$\hat{p_{1}} - \hat{p_{2}} \approx N \left ( p_{1} - p_{2}, \;  \frac{\hat{p_{1}} \hat{q_{1}}}{n} + \frac{\hat{p_{2}} \hat{q_{2}}}{m} \right ) \\ Z = \frac{(\hat{p_{1}} - \hat{p_{2}}) - (p_{1} - p_{2})}{\sqrt{ \frac{\hat{p_{1}} \hat{q_{1}}}{n} + \frac{\hat{p_{2}} \hat{q_{2}}}{m}}} \approx N(0, \; 1)$$
  • 그러므로 양쪽 꼬리 확률이 각각 `α / 2` 인 임계점 $-z_{\frac{α}{2}}$ 와 $z_{\frac{α}{2}}$ 에 대해 다음이 성립한다.
$$P(|Z| \le z_{\frac{α}{2}}) = 1 - α \\ P \left( -z_{\frac{α}{2}} \le  \frac{(\hat{p_{1}} - \hat{p_{2}}) - (p_{1} - p_{2})}{\sqrt{ \frac{\hat{p_{1}} \hat{q_{1}}}{n} + \frac{\hat{p_{2}} \hat{q_{2}}}{m}}}  \le z_{\frac{α}{2}} \right) = 1 - α \\ P \left( (\hat{p_{1}} - \hat{p_{2}}) - z_{\frac{α}{2}} \sqrt{ \frac{\hat{p_{1}} \hat{q_{1}}}{n} + \frac{\hat{p_{2}} \hat{q_{2}}}{m}} \le p_{1} - p_{2} \le (\hat{p_{1}} - \hat{p_{2}}) + z_{\frac{α}{2}} \sqrt{ \frac{\hat{p_{1}} \hat{q_{1}}}{n} + \frac{\hat{p_{2}} \hat{q_{2}}}{m}}   \right) = 1 - α$$
  • 따라서 두 모비율의 차 $p_{1} - p_{2}$ 에 대한 90%, 95%, 99% 신뢰 구간은 다음과 같다.
- 90% 신뢰 구간 :    $\displaystyle (\hat{p_{1}} - \hat{p_{2}}) - 1.645 \sqrt{ \frac{\hat{p_{1}} \hat{q_{1}}}{n} + \frac{\hat{p_{2}} \hat{q_{2}}}{m}} \le {p_{1} - p_{2}} \le (\hat{p_{1}} - \hat{p_{2}}) + 1.645 \sqrt{ \frac{\hat{p_{1}} \hat{q_{1}}}{n} + \frac{\hat{p_{2}} \hat{q_{2}}}{m}}$

- 95% 신뢰 구간 :    $\displaystyle (\hat{p_{1}} - \hat{p_{2}}) - 1.96 \sqrt{ \frac{\hat{p_{1}} \hat{q_{1}}}{n} + \frac{\hat{p_{2}} \hat{q_{2}}}{m}} \le {p_{1} - p_{2}} \le (\hat{p_{1}} - \hat{p_{2}}) + 1.96 \sqrt{ \frac{\hat{p_{1}} \hat{q_{1}}}{n} + \frac{\hat{p_{2}} \hat{q_{2}}}{m}}$

- 99% 신뢰 구간 :    $\displaystyle (\hat{p_{1}} - \hat{p_{2}}) - 2.58 \sqrt{ \frac{\hat{p_{1}} \hat{q_{1}}}{n} + \frac{\hat{p_{2}} \hat{q_{2}}}{m}} \le {p_{1} - p_{2}} \le (\hat{p_{1}} - \hat{p_{2}}) + 2.58 \sqrt{ \frac{\hat{p_{1}} \hat{q_{1}}}{n} + \frac{\hat{p_{2}} \hat{q_{2}}}{m}}$

 

예제 : 어떤 제품을 생산하는 생산 라인 A와 B의 불량률의 차이를 알아보고자 한다. 생산 라인 A에서 생산한 제품 450개 중에서 18개가 불량품이었고, 생산 라인 B에서 생산한 제품 400개 중에서 14개가 불량품이었다. 두 생산 라인의 불량률의 차에 대한 95% 신뢰 구간을 구하라.
더보기

생산 라인 A와 B에 대한 표본 조사 결과는 다음과 같다.

생산 라인 A $$n = 450, \; \hat{p_{1}} = \frac{18}{450} = 0.04, \; \hat{q_{1}} = 0.96$$
생산 라인 B $$m = 400, \; \hat{p_{2}} = \frac{14}{400} = 0.035, \; \hat{q_{2}} = 0.965$$

따라서 $\hat{p_{1}} - \hat{p_{2}} = 0.005$ 이고 다음을 얻는다.

$$1.96 \sqrt{ \frac{0.04 \times 0.96}{450} + \frac{0.035 \times 0.965}{400}} = 0.0255$$

두 생산 라인에 대한 불량률의 차에 대한 95% 신뢰 구간을 구하면 다음과 같다.

$$0.005 - 0.0255 \le p_{1} - p_{2} \le 0.005 + 0.0225 \\ -0.0205 \le p_{1} - p_{2} \le 0.0275$$

 

728x90