728x90
728x90

통계적 가설 검정

  • 어느 학원에서 합격률이 전국 최고인 85.4% 라는 광고를 한다고 하자. 그러면 이 학원의 주장이 참인지 아니면 거짓인지 확인할 필요가 있을 것이다.
  • 이와 같이 모수에 대한 주장을 검정하기 위해 반대인 주장을 설정하고, 어느 주장이 참인지 검정하는 일반적인 방법을 살펴본다.

 

가설 검정의 의미

  • 합격률이 전국 최고인 85.4% 라는 광고가 참인지 확인하기 위해서는, 이 주장을 타당한 것으로 인정하고 이와 반대되는 주장을 설정한다.
  • 그리고 이러한 두 주장 중에서 어느 것이 참인지 결정해야 한다.
  • 이 때, 임의로 표본을 선정하고, 검정을 위한 표본 통계량을 이용하여 얻은 정보를 근거로 어느 주장이 참인지 판정한다.
  • 이와 같이 참인지 거짓인지 명확히 밝히고자 하는 모수에 대한 주장가설(Hypothesis)이라 한다.
  • 그리고 표본으로부터 얻은 통계량을 이용하여 모수에 대한 주장의 진위 여부를 검정하는 과정가설 검정(Hypothesis Testing)이라 한다.
  • 이 때, "합격률이 85.4%이다." 라는 주장과 이에 반대되는 주장인 "합격률이 85.4%가 아니다." 를 설정한다.
  • 학원 측의 주장과 같이 통계적으로 검증받아야 할 주장귀무 가설이라 하고, 귀무 가설을 부정하는 가설대립 가설이라 한다.

 

귀무 가설(Null Hypothesis)와 대립 가설(Alternative Hypothesis)

- 귀무 가설(Null Hypothesis) : 거짓이 명확히 구명될 때까지 참인 것으로 인정되는 모수에 대한 주장
- 대립 가설(Alternative Hypothesis) : 귀무 가설이 거짓이라면 참이 되는 가설
  • 귀무 가설은 타당성을 입증해야 할 가설을 의미하고 $H_{0}$ 로 나타낸다.
  • 대립 가설은 귀무 가설을 부정하는 새로운 가설을 의미하고 $H_{1}$ 으로 나타낸다.
  • 귀무 가설에는 항상 등호(`=`) 를 사용하고, 대립 가설에는 등호를 사용하지 않는다.
  • 예를 들어, 합격률 `p` 에 대한 귀무 가설은 다음과 같다.
$$H_{0} : p \le 0.854. \quad H_{0} : p = 0.854, \quad H_{0} : p \ge 0.854$$
  • 그리고 이에 반대되는 대립 가설은 각각 다음과 같다.
$$H_{1} : p > 0.854. \quad H_{1} : p ≠ 0.854, \quad H_{1} : p < 0.854$$
  • 한편, 임의로 선정한 표본을 이용하여 귀무 가설 $H_{0}$ 의 진위 여부를 검정하며, 검정을 위해 사용하는 표본 통계량검정 통계량이라고 한다.

 

검정 통계량(Test Statistic)

귀무 가설 $H_{0}$ 의 진위 여부를 판정하기 위해 표본으로부터 얻은 통계량
  • 검정 통계량의 관찰값을 이용하여 귀무 가설거짓으로 판정된다면 귀무 가설 $H_{0}$ 를 기각(Reject)한다고 한다.
  • 그리고 귀무 가설을 부정하지 못하는 경우에는 귀무 가설 $H_{0}$ 를 채택(Accept)한다고 한다.
  • 이 때, 귀무 가설을 기각하는 검정 통계량의 영역기각역이라 하고, 반대로 귀무 가설을 채택하는 영역채택역이라고 한다.

 

채택역(Acceptance Region)과 기각역(Critical Region)

- 채택역(Acceptance Region) : 귀무 가설 $H_{0}$ 를 채택하는 검정 통계량의 영역(범위)
- 기각역(Critical Region) : 귀무 가설 $H_{0}$ 를 기각하는 검정 통계량의 영역(범위)
  • 한편, 표본을 아무리 공정하게 선정하더라도 귀무 가설 $H_{0}$ 가 실제로 참이지만 검정 결과는 참 또는 거짓으로 판정하는 경우가 발생한다.
  • 그리고 반대로 $H_{0}$ 가 실제로 거짓이지만 검정 결과는 참 또는 거짓으로 판정하는 경우가 발생한다.
  • 이 때, 실제로 $H_{0}$ 가 참(또는 거짓)이고 검정 결과도 $H_{0}$ 를 채택(또는 기각)한다면 올바른 결정을 하게 된다.
  • 그러나 $H_{0}$ 가 실제로 참이지만, 검정한 결과 $H_{0}$ 를 기각한다거나, 반대로 $H_{0}$ 가 실제로 거짓이지만 검정한 결과 $H_{0}$ 를 채택한다면 오류를 범하게 된다.
  • 이 때, 다음과 같이 인 귀무 가설을 기각함으로써 발생하는 오류제1종 오류, 거짓인 귀무 가설을 채택함으로써 발생하는 오류제2종 오류라 한다.
검정 결과 \ 실제 $H_{0}$ 가 참 $H_{0}$ 가 거짓
$H_{0}$ 를 채택 올바른 결정 제2종 오류
$H_{0}$ 를 기각 제1종 오류 올바른 결정
  • 그리고 제1종 오류를 범할 확률의 최대 허용 한계유의 수준이라 하며, 전통적으로 유의 수준 `α` 는 0.01(1%), 0.05(5%), 0.1(10%)을 많이 사용한다.
    • 유의 수준 $α = 0.05$ 라 함은 원칙적으로 기각할 것을 예상하여 설정한 가설을 기각한다고 하더라도, 그것에 의한 오차가 최대 5%임을 나타낸다.

 

제1종 오류(Type I Error)와 유의 수준(Significance Level)

- 제1종 오류(Type I Error) : 귀무 가설 $H_{0}$ 가 이지만 검정 결과 귀무 가설을 기각함으로써 발생하는 오류
- 유의 수준(Significance Level) : 제1종 오류를 범할 확률 `α`

 

기각역을 이용한 검정 방법

  • 귀무 가설 $H_{0}$ 에 대한 주장, 즉 모평균 `μ` 또는 모비율 `p` 와 같은 모수 `θ` 에 대한 주장은 부등호($\le, \ge$) 또는 등호(`=`) 를 사용한다.
  • 따라서 이러한 귀무 가설에 대립되는 대립 가설 $H_{1}$ 을 설정하며, 각 경우의 검정 유형은 다음과 같다.
검정 유형 귀무 가설 대립 가설
양측 검정 $H_{0} : θ = θ_{0}$ $H_{1} : θ \ne θ_{0}$
상단측 검정 $H_{0} : θ \le θ_{0}$ $H_{1} : θ > θ_{0}$
하단측 검정 $H_{0} : θ \ge θ_{0}$ $H_{1} : θ < θ_{0}$
  • 그러면 귀무 가설은 다음 순서에 따라 검정한다.
귀무 가설 $H_{0}$ 와 대립 가설 $H_{1}$ 을 설정한다.
유의 수준 `α` 를 정한다.
③ 적당한 검정 통계량을 선택한다.
④ 유의 수준 `α` 에 대한 임계값기각역을 구한다.
⑤ 검정 통계량의 관찰값을 구하여, 이 값이 기각역 안에 놓이면 $H_{0}$ 를 기각한다.
  • 이 때, 미리 주어진 유의 수준 `α` 에 대한 검정 유형별 $H_{0}$ 의 기각역과 채택역은 다음과 같다.

H0의 기각역과 채택역

  • 검정 통계량의 관찰값이 기각역 안에 놓이면 $H_{0}$ 를 기각하고, 관찰값이 채택역 안에 놓이면, $H_{0}$ 를 기각하지 못한다.

 

양측 검정(Two Sided Hypothesis)

  • 두 가설 $H_{0} : θ = θ_{0}, \; H_{1} : θ \ne θ_{0}$ 에 대해 유의 수준을 `α` 라 하자.
  • 그러면 양쪽 꼬리 확률이 각각 `α / 2` 가 되는 두 임계값 $±z_{\frac{α}{2}}$ 에 대해 기각역은 다음과 같다.
$$Z \le - z_{\frac{α}{2}}, \quad Z \ge z_{\frac{α}{2}}$$
  • 즉, 양측 검정의 기각역채택역은 다음 그림과 같다.

양측 검정에 대한 기각역과 채택역

  • 따라서 검정 통계량의 관찰값 $z_{0}$ 에 대해 $z_{0} \le -z_{\frac{α}{2}}$ 또는 $z_{0} \ge z_{\frac{α}{2}}$ 이면 $H_{0}$ 를 기각하고 $-z_{\frac{α}{2}} < z_{0} < z_{\frac{α}{2}}$ 이면 $H_{0}$ 를 기각하지 못한다.
  • 이 때, 채택역은 신뢰도 $100(1 - α)$% 신뢰 구간과 일치한다.

 

상단측 검정(One Sided Upper Hypothesis)

  • 두 가설 $H_{0} : θ \le θ_{0}, \; H_{1} : θ > θ_{0}$ 에 대해 유의 수준을 `α` 라 하자.
  • 그러면 위쪽 꼬리 확률이 `α` 가 되는 임계값 $z_{α}$ 에 대해 기각역은 다음과 같다.
$$Z \ge z_{α}$$
  • 즉, 상단측 검정의 기각역채택역은 다음 그림과 같다.

상단측 검정에 대한 기각역과 채택역

  • 따라서 검정 통계량의 관찰값 $z_{0}$ 에 대해 $z_{0} \ge z_{α}$ 이면 $H_{0}$ 를 기각하고, $z_{0} < z_{α}$ 이면 $H_{0}$ 을 기각하지 못한다.

 

하단측 검정(One Sided Lower Hypothesis)

  • 두 가설 $H_{0} : θ \ge θ_{0}, \; H_{1} : θ < θ_{0}$ 에 대해 유의 수준을 `α` 라 하자.
  • 그러면 아래쪽 꼬리 확률이 `α` 가 되는 임계값 $-z_{α}$ 에 대해 기각역은 다음과 같다.
$$Z \le -z_{α}$$
  • 즉, 하단측 검정의 기각역채택역은 다음 그림과 같다.

하단측 검정에 대한 기각역과 채택역

  • 따라서 검정 통계량의 관찰값 $z_{0}$ 에 대해 $z_{0} \le -z_{α}$ 이면 $H_{0}$ 를 기각하고, $z_{0} > -z_{α}$ 이면 $H_{0}$ 을 기각하지 못한다.

 

`p`-값을 이용한 검정 방법

  • 기각역을 이용하여 $H_{0}$ 의 기각 또는 채택을 결정하는 방법 이외에 `p`-값을 이용하는 방법이 있다.
  • 예를 들어, 귀무 가설 $H_{0}$ 에 대한 상단측 검정에서 검정 통계량의 관찰값이 $z_{0} = 1.9$ 라 하자.
  • 그러면 다음과 같이 유의 수준이 $α = 5$% 이면 기각역은 $z \ge 1.645$ 이고 관찰값 $z_{0}$ 이 기각역 안에 들어가므로 유의 수준 5% 에서 귀무 가설을 기각한다.

관찰값과 유의 수준의 비교

  • 그러나 유의 수준을 $α = 1$% 라 하면 기각역이 $z \ge 2.33$ 이므로 관찰값 $z_{0}$ 가 채택역 안에 들어가고, 유의 수준 1%에서 귀무 가설을 기각할 수 없다.
  • 이 때, 관찰값 $z_{0} = 1.9$ 에 의해 귀무 가설 $H_{0}$ 를 기각시킬 가장 작은 확률은 $P(Z \ge 1.9) = 0.0287$ 이고, 이 확률은 $H_{0}$ 를 기각시킬 가장 작은 유의 수준이다.
  • 이와 같이 $H_{0}$ 를 기각시킬 가장 작은 유의 수준 `p`-값이라 한다.
  • 그러면 관찰값 $z_{0} = 1.9$ 에 대해 $0.01 < p-값 < 0.05$ 임을 알 수 있다.

 

`p`-값

귀무 가설 $H_{0}$ 를 이라고 가정할 때, 관찰값에 의해 $H_{0}$ 를 기각시키는 가장 작은 유의 수준
  • 따라서 `p`-값이 주어진 유의 수준보다 작으면 귀무 가설 $H_{0}$ 를 기각하고, `p`-값이 유의 수준보다 크면 $H_{0}$ 를 기각할 수 없다.
  • 그러면 `p`-값과 유의 수준 `α` 에 따른 귀무 가설 $H_{0}$ 의 기각 및 채택을 정리하면 다음과 같다.
`p`-값 유의 수준(`α`)
10% 5% 1%
$p \ge 0.01$ $H_{0}$ 를 채택 $H_{0}$ 를 채택 $H_{0}$ 를 채택
$0.05 \le p < 0.1$ $H_{0}$ 를 기각 $H_{0}$ 를 채택 $H_{0}$ 를 채택
$0.01 \le p < 0.05$ $H_{0}$ 를 기각 $H_{0}$ 를 기각 $H_{0}$ 를 채택
$p < 0.01$ $H_{0}$ 를 기각 $H_{0}$ 를 기각 $H_{0}$ 를 기각
  • 귀무 가설에 대한 타당성을 검정할 때, `p`-값을 이용한 방법은 다음과 같다.
귀무 가설 $H_{0}$ 와 대립 가설 $H_{1}$ 을 설정한다.
유의 수준 `α` 를 정한다.
③ 적당한 검정 통계량을 선택한다.
④ `p`-값을 구한다.
⑤ $p-값 \le α$ 이면 귀무 가설을 기각하고, $p-값 > α$ 이면 귀무 가설을 채택한다.
728x90
728x90