728x90
728x90

모비율의 검정

  • 이 페이지에서는 정당의 지지율, TV 프로그램의 시청률 또는 생산 제품의 불량률 등과 같은 모집단의 비율에 대한 주장을 검정하는 방법을 살펴본다.

 

단일 모비율에 대한 검정

  • 모비율 `p` 에 대한 추정을 위해 표본 비율 $\hat{p}$ 를 사용한 것과 동일하게, 모비율 `p` 에 대한 가설을 검정하기 위해 표본 비율 $\hat{p}$ 를 사용한다.
  • 그러면 모비율 $p$ 에 대해 다음과 같은 3가지 유형의 귀무 가설을 생각할 수 있다.
$$H_{0} : p = p_{0}, \quad H_{0} : p \le p_{0}, \quad H_{0} : p \ge p_{0}$$
  • 그리고 이에 대한 대립 가설은 각각 다음과 같다.
$$H_{0} : p \ne p_{0}, \quad H_{0} : p > p_{0}, \quad H_{0} : p < p_{0}$$
  • 특히 모비율 `p` 에 대한 귀무 가설의 참 또는 거짓이 밝혀지기 전까지 모비율은 $p = p_{0}$ 로 생각한다.
  • 따라서 표본의 크기 `n` 이 충분히 크면 표본 비율 $\hat{p}$ 는 점근적으로 정규 분포 $\displaystyle N(p_{0}, \; \frac{p_{0}q_{0}}{n})$ 를 따르므로 모비율 `p` 의 주장에 대한 검정 통계량과 확률 분포는 다음과 같다.
$$Z = \frac{\hat{p} - p_{0}}{\sqrt{\frac{p_{0}q_{0}}{n}}} \approx N(0, \; 1)$$

 

양측 검정

  • 두 가설 $H_{0} : p = p_{0}, \; H_{1} : p \ne p_{0}$ 에 대해 유의 수준을 $\alpha$ 라 하자.
  • 그러면 양쪽 꼬리 확률이 각각 $\frac{\alpha}{2}$ 가 되는 두 임계값이 $±z_{\frac{α}{2}}$ 이므로 귀무 가설의 기각역은 다음과 같다.
$$Z \le -z_{\frac{\alpha}{2}}, \quad Z \ge z_{\frac{\alpha}{2}}$$
  • 그러면 표본 비율의 관찰값 $\hat{p}$ 에 대해 검정 통계량의 관찰값 $z_{0}$ 는 다음과 같다.
$$z_{0} = \frac{\hat{p} - p_{0}}{\sqrt{\frac{p_{0}q_{0}}{n}}}$$
  • 이 때, 검정 통계량의 관찰값 $z_{0}$ 에 대해 $z_{0} \le -z_{\frac{\alpha}{2}}$ 또는 $z_{0} \ge z_{\frac{\alpha}{2}}$ 이면 $H_{0}$ 를 기각하고, $-z_{\frac{\alpha}{2}} < z_{0} < z_{\frac{\alpha}{2}}$ 이면 $H_{0}$ 를 기각하지 못한다.
  • 그리고 `p`-값은 모평균에 대한 검정과 동일하게 정의된다.
  • 이 때, $p-값 > \alpha$ 이면 $H_{0}$ 를 채택하고, $p-값 \le \alpha$ 이면 $H_{0}$ 를 기각한다.

 

상단측 검정

  • 두 가설 $H_{0} : p \le p_{0}, \; H_{1} : p > p_{0}$ 에 대해 유의 수준을 $\alpha$ 라 하면 기각역은 다음과 같다.
$$Z \ge z_{\alpha}$$
  • 이 때, 검정 통계량의 관찰값 $z_{0}$ 에 대해 $z_{0} \ge z_{\alpha}$ 이면 $H_{0}$ 를 기각하고, $z_{0} < z_{\alpha}$ 이면 $H_{0}$ 를 기각하지 못한다.
  • 또한 $p-값 > \alpha$ 이면 $H_{0}$ 를 채택하고, $p-값 \le \alpha$ 이면 $H_{0}$ 를 기각한다.

 

하단측 검정

  • 두 가설 $H_{0} : p \ge p_{0}, \; H_{1} : p < p_{0}$ 에 대해 유의 수준을 $\alpha$ 라 하면 기각역은 다음과 같다.
$$Z \le -z_{\alpha}$$
  • 이 때, 검정 통계량의 관찰값 $z_{0}$ 에 대해 $z_{0} \le -z_{\alpha}$ 이면 $H_{0}$ 를 기각하고, $z_{0} > z_{\alpha}$ 이면 $H_{0}$ 를 기각하지 못한다.
  • 또한 $p-값 > \alpha$ 이면 $H_{0}$ 를 채택하고, $p-값 \le \alpha$ 이면 $H_{0}$ 를 기각한다.

 

모비율에 대한 검정 유형과 기각역 그리고 `p`-값

검정 방법 \ 가설과 기각역 귀무 가설 $H_{0}$ 대립 가설 $H_{1}$ $H_{0}$ 의 기각역 `p`-값
하단측 검정 $p \ge p_{0}$ $p < p_{0}$ $Z \le -z_{\alpha}$ $P(Z < z_{0})$
상단측 검정 $p \le p_{0}$ $p > p_{0}$ $Z \ge z_{\alpha}$ $P(Z > z_{0})$
양측 검정 $p = p_{0}$ $p \ne p_{0}$ $|Z| \ge z_{\frac{α}{2}}$ $2[1 - P(Z < z_{0})]$

 

예제 : 한 포털 사이트에서 인터넷 신문을 이용하는 사람의 비율이 54.5%를 초과한다고 주장하고 있다. 이를 검정하기 위해 427명을 임의로 선정한 결과, 256명이 인터넷 신문을 이용하는 것으로 조사되었다. `p`-값을 구하여 유의 수준 5%에서 조사하라.
더보기

(1)

검정하고자 하는 주장은 $p > 0.545$ 이므로 등호를 포함하지 않는다. 

따라서 이 주장을 대립 가설로 설정한다.

즉, 귀무 가설 $H_{0} : p \le 0.545$ 와 대립 가설 $H_{1} : p > 0.545$ (주장)를 설정한다.

 

(2)

$n = 427, p_{0} = 0.545, \; q_{0} = 0.455$ 이므로 검정 통계량은 다음과 같다.

$$Z = \frac{\hat{p} - 0.545}{\sqrt{\frac{0.545 \times 0.455}{427}}} = \frac{\hat{p} - 0.545}{0.024}$$

 

(3)

$\displaystyle \hat{p} = \frac{256}{427} = 0.5995$ 이므로 검정 통계량의 관찰값은 $z_{0} = \frac{0.5995 - 0545}{0.024} = 2.27$ 이다.

 

(4)

$p-값 = P(Z > 2.27) = 0.0116$

 

(5)

`p`-값이 유의 수준 $\alpha = 0.05$ 보다 작으므로 귀무 가설을 기각한다. 

즉, 포털 사이트의 주장은 설득력이 없다.

 

두 모비율의 차에 대한 검정

  • 모비율이 $p_{1}$ 과 $p_{2}$ 이고 독립인 두 모집단의 모비율 차 $p_{1} - p_{2}$ 에 대해 다음과 같은 귀무 가설을 생각할 수 있다.
$$H_{0} : p_{1} - p_{2} = p_{0}, \; H_{0} : p_{1} - p_{2} \le p_{0}, \; H_{0} : p_{1} - p_{2} \ge p_{0}$$
  • 그리고 이에 대한 대립 가설은 각각 다음과 같다.
$$H_{1} : p_{1} - p_{2} \ne p_{0}, \; H_{1} : p_{1} - p_{2} > p_{0}, \; H_{1} : p_{1} - p_{2} < p_{0}$$
  • 이 때, 두 모집단에서 각각 크기가 `n` 과 `m` 인 두 표본의 표본 비율을 각각 $\hat{p_{1}}$ 과 $\hat{p_{2}}$ 라 하면, 다음 정규 분포를 따른다.
$$\hat{p_{1}} \sim N(p_{1}, \; \frac{p_{1}q_{1}}{n}), \quad \hat{p_{2}} \sim N(p_{2}, \; \frac{p_{2}q_{2}}{m})$$
  • 따라서 두 표본 비율의 차 $\hat{p_{1}} - \hat{p_{2}}$ 는 다음 정규 분포를 따른다.
$$\hat{p_{1}} - \hat{p_{2}} \sim N(p_{1} - p_{2}, \; \frac{p_{1}q_{1}}{n} + \frac{p_{2}q_{2}}{m})$$
  • 그러므로 $\hat{p_{1}} - \hat{p_{2}}$ 의 표준화 확률 변수는 다음과 같다.
$$Z = \frac{(\hat{p_{1}} - \hat{p_{2}}) - (p_{1} - p_{2})}{\sqrt{\frac{p_{1}q_{1}}{n} + \frac{p_{2}q_{2}}{m}}} \approx N(0, \; 1)$$
  • 한편, 크기 `n` 과 `m` 이 클수록 $\hat{p_{1}} \approx p_{1}, \hat{p_{2}} \approx p_{2}$ 이므로 두 모비율의 차에 대한 주장 $p_{1} - p_{2} = p_{0}$ 인 귀무 가설을 검정하기 위한 검정 통계량 `Z` 와 그에 대한 확률 분포는 다음과 같다.
$$Z = \frac{(\hat{p_{1}} - \hat{p_{2}}) - p_{0}}{\sqrt{\frac{p_{1}q_{1}}{n} + \frac{p_{2}q_{2}}{m}}} \approx N(0, \; 1)$$
  • 특히, $p_{0} = 0$ 이면 두 모비율이 동일하다는 가설이므로 공동의 모비율 $p_{1} = p_{2} = p$ 에 대한 추론이고, 이 때 `p` 에 대한 검정을 위해 합동 표본 비율을 사용한다.

 

합동 표본 비율(Pooled Sample Proportion) 
크기가 `n` 과 `m` 인 두 표본에 대한 성공의 횟수 `x` 와 `y` 에 대해 비율 $\displaystyle \hat{p} = \frac{x + y}{n + m}$ 를 합동 표본 비율(Pooled Sample Proportion)이라 한다.

 

  • 따라서 모비율 $p_{1} = p_{2} = p$ 에 대한 가설을 검정하기 위한 검정 통계량확률 분포는 다음과 같다.
$$Z = \frac{\hat{p_{1}} - \hat{p_{2}}}{\sqrt{\hat{p}\hat{q} \left (\frac{1}{n} + \frac{1}{m} \right )}} \approx N(0, \; 1)$$
  • 그러면 유의 수준이 $\alpha$ 에 대한 가설 검정의 기각역 `p`-값을 정리하면 다음과 같다.
검정 방법 \ 가설과 기각역 귀무 가설 $H_{0}$ 대립 가설 $H_{1}$ $H_{0}$ 의 기각역 `p`-값
하단측 검정 $p_{1} \ge p_{2}$ $p_{1} < p_{2}$ $Z \le -z_{\alpha}$ $P(Z < z_{0})$
상단측 검정 $p_{1} \le p_{2}$ $p_{1} > p_{2}$ $Z \ge z_{\alpha}$ $P(Z > z_{0})$
양측 검정 $p_{1} = p_{2}$ $p_{1} \ne p_{2}$ $|Z| \ge z_{\frac{α}{2}}$ $2[1 - P(Z < z_{0})]$

 

예제 : A와 B 두 도시에서 각각 450명, 490명을 임의로 선정하여 특정 정당의 지지도를 조사했다. 조사 결과 A와 B 도시의 지지자는 각각 245명, 239명이었다. 이 자료를 근거로 두 도시의 지지도에 차이가 있는지 유의 수준 5%에서 조사하라.
더보기

(1)

A와 B 도시의 정당 지지율을 각각 $p_{1}, p_{2}$ 라고 하고, 귀무 가설 $H_{0} : p_{1} = p_{2}$ 와 대립 가설 $H_{1} : p_{1} \ne p_{2}$ 를 설정한다.

즉 귀무 가설은 $H_{0} : p_{1} - p_{2} = 0$, 대립 가설은 $H_{1} : p_{1} - p_{2} \ne 0$ 이다.

 

(2)

유의 수준이 $\alpha = 0.05$ 이므로 $z_{0.025} = 1.96$ 이고, 기각역은 $Z \le -1.96, \; Z \ge 1.96$ 이다.

 

(3)

$n = 450, \; m = 490$ 이므로 합동 표본 비율은 $\displaystyle \hat{p} = \frac{245 + 239}{450 + 490} = 0.5149, \; \hat{q} = 0.4851$ 이다. 

따라서 검정 통계량은 다음과 같다.

$$Z =\frac{\hat{p_{1}} - \hat{p_{2}}}{\sqrt{0.5149 \times 0.4851 \times (\frac{1}{450} + \frac{1}{490})}} = \frac{\hat{p_{1}} - \hat{p_{2}}}{0.0326}$$

 

(4)

$\hat{p_{1}} = \frac{245}{450} = 0.5444, \; \hat{p_{2}} = \frac{239}{490} = 0.4878, \; \hat{p_{1}} - \hat{p_{2}} = 0.0566$ 이므로 검정 통계량의 관찰값은 $z_{0} = \frac{0.0566}{0.0326} = 1.736$ 이다.

 

(5)

관찰값 $z_{0} = 1.736$ 은 기각역 안에 놓이지 않으므로 귀무 가설을 기각할 수 없다.

즉, A와 B 두 도시간의 어떤 정당 지지율에 차이가 없다고 할 수 있다.

728x90
728x90