« 2024/06 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

[확률과 통계] 통계적 가설 검정

2022. 11. 28. 18:52

통계적 가설 검정

어느 학원에서 합격률이 전국 최고인 85.4% 라는 광고를 한다고 하자. 그러면 이 학원의 주장이 참인지 아니면 거짓인지 확인할 필요가 있을 것이다.
이와 같이 모수에 대한 주장을 검정하기 위해 반대인 주장을 설정하고, 어느 주장이 참인지 검정하는 일반적인 방법을 살펴본다.

가설 검정의 의미

합격률이 전국 최고인 85.4% 라는 광고가 참인지 확인하기 위해서는, 이 주장을 타당한 것으로 인정하고 이와 반대되는 주장을 설정한다.
그리고 이러한 두 주장 중에서 어느 것이 참인지 결정해야 한다.
이 때, 임의로 표본을 선정하고, 검정을 위한 표본 통계량을 이용하여 얻은 정보를 근거로 어느 주장이 참인지 판정한다.
이와 같이 참인지 거짓인지 명확히 밝히고자 하는 모수에 대한 주장을 가설(Hypothesis)이라 한다.
그리고 표본으로부터 얻은 통계량을 이용하여 모수에 대한 주장의 진위 여부를 검정하는 과정을 가설 검정(Hypothesis Testing)이라 한다.
이 때, "합격률이 85.4%이다." 라는 주장과 이에 반대되는 주장인 "합격률이 85.4%가 아니다." 를 설정한다.
학원 측의 주장과 같이 통계적으로 검증받아야 할 주장을 귀무 가설이라 하고, 귀무 가설을 부정하는 가설을 대립 가설이라 한다.

귀무 가설(Null Hypothesis)와 대립 가설(Alternative Hypothesis)

- 귀무 가설(Null Hypothesis) : 거짓이 명확히 구명될 때까지 참인 것으로 인정되는 모수에 대한 주장
- 대립 가설(Alternative Hypothesis) : 귀무 가설이 거짓이라면 참이 되는 가설

귀무 가설은 타당성을 입증해야 할 가설을 의미하고 $H_{0}$ 로 나타낸다.
대립 가설은 귀무 가설을 부정하는 새로운 가설을 의미하고 $H_{1}$ 으로 나타낸다.
귀무 가설에는 항상 등호(`=`) 를 사용하고, 대립 가설에는 등호를 사용하지 않는다.
예를 들어, 합격률 `p` 에 대한 귀무 가설은 다음과 같다.

$$H_{0} : p \le 0.854. \quad H_{0} : p = 0.854, \quad H_{0} : p \ge 0.854$$

그리고 이에 반대되는 대립 가설은 각각 다음과 같다.

$$H_{1} : p > 0.854. \quad H_{1} : p ≠ 0.854, \quad H_{1} : p < 0.854$$

한편, 임의로 선정한 표본을 이용하여 귀무 가설 $H_{0}$ 의 진위 여부를 검정하며, 검정을 위해 사용하는 표본 통계량을 검정 통계량이라고 한다.

검정 통계량(Test Statistic)

귀무 가설 $H_{0}$ 의 진위 여부를 판정하기 위해 표본으로부터 얻은 통계량

검정 통계량의 관찰값을 이용하여 귀무 가설이 거짓으로 판정된다면 귀무 가설 $H_{0}$ 를 기각(Reject)한다고 한다.
그리고 귀무 가설을 부정하지 못하는 경우에는 귀무 가설 $H_{0}$ 를 채택(Accept)한다고 한다.
이 때, 귀무 가설을 기각하는 검정 통계량의 영역을 기각역이라 하고, 반대로 귀무 가설을 채택하는 영역을 채택역이라고 한다.

채택역(Acceptance Region)과 기각역(Critical Region)

- 채택역(Acceptance Region) : 귀무 가설 $H_{0}$ 를 채택하는 검정 통계량의 영역(범위)
- 기각역(Critical Region) : 귀무 가설 $H_{0}$ 를 기각하는 검정 통계량의 영역(범위)

한편, 표본을 아무리 공정하게 선정하더라도 귀무 가설 $H_{0}$ 가 실제로 참이지만 검정 결과는 참 또는 거짓으로 판정하는 경우가 발생한다.
그리고 반대로 $H_{0}$ 가 실제로 거짓이지만 검정 결과는 참 또는 거짓으로 판정하는 경우가 발생한다.
이 때, 실제로 $H_{0}$ 가 참(또는 거짓)이고 검정 결과도 $H_{0}$ 를 채택(또는 기각)한다면 올바른 결정을 하게 된다.
그러나 $H_{0}$ 가 실제로 참이지만, 검정한 결과 $H_{0}$ 를 기각한다거나, 반대로 $H_{0}$ 가 실제로 거짓이지만 검정한 결과 $H_{0}$ 를 채택한다면 오류를 범하게 된다.
이 때, 다음과 같이 참인 귀무 가설을 기각함으로써 발생하는 오류를 제1종 오류, 거짓인 귀무 가설을 채택함으로써 발생하는 오류를 제2종 오류라 한다.

검정 결과 \ 실제	$H_{0}$ 가 참	$H_{0}$ 가 거짓
$H_{0}$ 를 채택	올바른 결정	제2종 오류
$H_{0}$ 를 기각	제1종 오류	올바른 결정

그리고 제1종 오류를 범할 확률의 최대 허용 한계를 유의 수준이라 하며, 전통적으로 유의 수준 `α` 는 0.01(1%), 0.05(5%), 0.1(10%)을 많이 사용한다.
- 유의 수준 $α = 0.05$ 라 함은 원칙적으로 기각할 것을 예상하여 설정한 가설을 기각한다고 하더라도, 그것에 의한 오차가 최대 5%임을 나타낸다.

제1종 오류(Type I Error)와 유의 수준(Significance Level)

- 제1종 오류(Type I Error) : 귀무 가설 $H_{0}$ 가 참이지만 검정 결과 귀무 가설을 기각함으로써 발생하는 오류
- 유의 수준(Significance Level) : 제1종 오류를 범할 확률 `α`

기각역을 이용한 검정 방법

귀무 가설 $H_{0}$ 에 대한 주장, 즉 모평균 `μ` 또는 모비율 `p` 와 같은 모수 `θ` 에 대한 주장은 부등호($\le, \ge$) 또는 등호(`=`) 를 사용한다.
따라서 이러한 귀무 가설에 대립되는 대립 가설 $H_{1}$ 을 설정하며, 각 경우의 검정 유형은 다음과 같다.

검정 유형	귀무 가설	대립 가설
양측 검정	$H_{0} : θ = θ_{0}$	$H_{1} : θ \ne θ_{0}$
상단측 검정	$H_{0} : θ \le θ_{0}$	$H_{1} : θ > θ_{0}$
하단측 검정	$H_{0} : θ \ge θ_{0}$	$H_{1} : θ < θ_{0}$

그러면 귀무 가설은 다음 순서에 따라 검정한다.

① 귀무 가설 $H_{0}$ 와 대립 가설 $H_{1}$ 을 설정한다.
② 유의 수준 `α` 를 정한다.
③ 적당한 검정 통계량을 선택한다.
④ 유의 수준 `α` 에 대한 임계값과 기각역을 구한다.
⑤ 검정 통계량의 관찰값을 구하여, 이 값이 기각역 안에 놓이면 $H_{0}$ 를 기각한다.

이 때, 미리 주어진 유의 수준 `α` 에 대한 검정 유형별 $H_{0}$ 의 기각역과 채택역은 다음과 같다.

검정 통계량의 관찰값이 기각역 안에 놓이면 $H_{0}$ 를 기각하고, 관찰값이 채택역 안에 놓이면, $H_{0}$ 를 기각하지 못한다.

양측 검정(Two Sided Hypothesis)

두 가설 $H_{0} : θ = θ_{0}, \; H_{1} : θ \ne θ_{0}$ 에 대해 유의 수준을 `α` 라 하자.
그러면 양쪽 꼬리 확률이 각각 `α / 2` 가 되는 두 임계값 $±z_{\frac{α}{2}}$ 에 대해 기각역은 다음과 같다.

$$Z \le - z_{\frac{α}{2}}, \quad Z \ge z_{\frac{α}{2}}$$

즉, 양측 검정의 기각역과 채택역은 다음 그림과 같다.

따라서 검정 통계량의 관찰값 $z_{0}$ 에 대해 $z_{0} \le -z_{\frac{α}{2}}$ 또는 $z_{0} \ge z_{\frac{α}{2}}$ 이면 $H_{0}$ 를 기각하고 $-z_{\frac{α}{2}} < z_{0} < z_{\frac{α}{2}}$ 이면 $H_{0}$ 를 기각하지 못한다.
이 때, 채택역은 신뢰도 $100(1 - α)$% 신뢰 구간과 일치한다.

상단측 검정(One Sided Upper Hypothesis)

두 가설 $H_{0} : θ \le θ_{0}, \; H_{1} : θ > θ_{0}$ 에 대해 유의 수준을 `α` 라 하자.
그러면 위쪽 꼬리 확률이 `α` 가 되는 임계값 $z_{α}$ 에 대해 기각역은 다음과 같다.

$$Z \ge z_{α}$$

즉, 상단측 검정의 기각역과 채택역은 다음 그림과 같다.

따라서 검정 통계량의 관찰값 $z_{0}$ 에 대해 $z_{0} \ge z_{α}$ 이면 $H_{0}$ 를 기각하고, $z_{0} < z_{α}$ 이면 $H_{0}$ 을 기각하지 못한다.

하단측 검정(One Sided Lower Hypothesis)

두 가설 $H_{0} : θ \ge θ_{0}, \; H_{1} : θ < θ_{0}$ 에 대해 유의 수준을 `α` 라 하자.
그러면 아래쪽 꼬리 확률이 `α` 가 되는 임계값 $-z_{α}$ 에 대해 기각역은 다음과 같다.

$$Z \le -z_{α}$$

즉, 하단측 검정의 기각역과 채택역은 다음 그림과 같다.

따라서 검정 통계량의 관찰값 $z_{0}$ 에 대해 $z_{0} \le -z_{α}$ 이면 $H_{0}$ 를 기각하고, $z_{0} > -z_{α}$ 이면 $H_{0}$ 을 기각하지 못한다.

`p`-값을 이용한 검정 방법

기각역을 이용하여 $H_{0}$ 의 기각 또는 채택을 결정하는 방법 이외에 `p`-값을 이용하는 방법이 있다.
예를 들어, 귀무 가설 $H_{0}$ 에 대한 상단측 검정에서 검정 통계량의 관찰값이 $z_{0} = 1.9$ 라 하자.
그러면 다음과 같이 유의 수준이 $α = 5$% 이면 기각역은 $z \ge 1.645$ 이고 관찰값 $z_{0}$ 이 기각역 안에 들어가므로 유의 수준 5% 에서 귀무 가설을 기각한다.

그러나 유의 수준을 $α = 1$% 라 하면 기각역이 $z \ge 2.33$ 이므로 관찰값 $z_{0}$ 가 채택역 안에 들어가고, 유의 수준 1%에서 귀무 가설을 기각할 수 없다.
이 때, 관찰값 $z_{0} = 1.9$ 에 의해 귀무 가설 $H_{0}$ 를 기각시킬 가장 작은 확률은 $P(Z \ge 1.9) = 0.0287$ 이고, 이 확률은 $H_{0}$ 를 기각시킬 가장 작은 유의 수준이다.
이와 같이 $H_{0}$ 를 기각시킬 가장 작은 유의 수준을 `p`-값이라 한다.
그러면 관찰값 $z_{0} = 1.9$ 에 대해 $0.01 < p-값 < 0.05$ 임을 알 수 있다.

`p`-값

귀무 가설 $H_{0}$ 를 참이라고 가정할 때, 관찰값에 의해 $H_{0}$ 를 기각시키는 가장 작은 유의 수준

따라서 `p`-값이 주어진 유의 수준보다 작으면 귀무 가설 $H_{0}$ 를 기각하고, `p`-값이 유의 수준보다 크면 $H_{0}$ 를 기각할 수 없다.
그러면 `p`-값과 유의 수준 `α` 에 따른 귀무 가설 $H_{0}$ 의 기각 및 채택을 정리하면 다음과 같다.

`p`-값	유의 수준(`α`)
`p`-값	10%	5%	1%
$p \ge 0.01$	$H_{0}$ 를 채택	$H_{0}$ 를 채택	$H_{0}$ 를 채택
$0.05 \le p < 0.1$	$H_{0}$ 를 기각	$H_{0}$ 를 채택	$H_{0}$ 를 채택
$0.01 \le p < 0.05$	$H_{0}$ 를 기각	$H_{0}$ 를 기각	$H_{0}$ 를 채택
$p < 0.01$	$H_{0}$ 를 기각	$H_{0}$ 를 기각	$H_{0}$ 를 기각

귀무 가설에 대한 타당성을 검정할 때, `p`-값을 이용한 방법은 다음과 같다.

① 귀무 가설 $H_{0}$ 와 대립 가설 $H_{1}$ 을 설정한다.
② 유의 수준 `α` 를 정한다.
③ 적당한 검정 통계량을 선택한다.
④ `p`-값을 구한다.
⑤ $p-값 \le α$ 이면 귀무 가설을 기각하고, $p-값 > α$ 이면 귀무 가설을 채택한다.

저작자표시 비영리 변경금지

'Mathematics > 확률과 통계' 카테고리의 다른 글

[확률과 통계] 모비율의 검정 (0)	2022.12.01
[확률과 통계] 모평균의 검정 (σ² : 미지) (0)	2022.12.01
[확률과 통계] 모평균의 검정(σ² : 기지) (0)	2022.11.30
[확률과 통계] 모비율의 추정 (0)	2022.11.28
[확률과 통계] 모평균의 추정 (0)	2022.11.27
[확률과 통계] 모집단과 표본 (0)	2022.11.21
[확률과 통계] 연속 확률 분포 (0)	2022.11.21
[확률과 통계] 이산 확률 분포 (0)	2022.11.14

Per ardua ad astra.

"Hello, World!" 🤖

[확률과 통계] 통계적 가설 검정

통계적 가설 검정

가설 검정의 의미

귀무 가설(Null Hypothesis)와 대립 가설(Alternative Hypothesis)

검정 통계량(Test Statistic)

채택역(Acceptance Region)과 기각역(Critical Region)

제1종 오류(Type I Error)와 유의 수준(Significance Level)

기각역을 이용한 검정 방법

양측 검정(Two Sided Hypothesis)

상단측 검정(One Sided Upper Hypothesis)

하단측 검정(One Sided Lower Hypothesis)

`p`-값을 이용한 검정 방법

`p`-값

'Mathematics > 확률과 통계' 카테고리의 다른 글

티스토리툴바