« 2024/06 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

[확률과 통계] 모평균의 검정 (σ² : 미지)

2022. 12. 1. 16:09

모평균의 검정 (σ² : 미지)

이전 글에서는 모집단의 분산을 알고 있는 경우에 모평균과 두 모평균 차에 대한 주장을 검정하는 방법을 살펴보았다.
그러나 대부분의 모집단은 모분산이 알려져 있지 않다.
따라서 모분산을 모르는 경우에 모평균에 대한 주장을 검정하는 방법을 살펴볼 필요가 있다.
모분산이 알려져 있지 않은 경우에는 정규 분포와 매우 흡사한 `t`-분포를 사용한다.
이 페이지에서는 `t`-분포를 이용하여 모분산이 알려져 있지 않은 정규 모집단의 모평균과 두 모평균의 차에 대한 주장을 검정하는 방법을 살펴본다.

`t`-검정(`t`-Test)

근대 통계학의 기초가 되는 소표본론에서 많은 업적을 남긴 영국의 통계학자인 윌리엄 고셋(William Sealey Gosset, 1876-1937)이 소표본을 분석하기 위해 고안한 검정 방법이다.
이 분포는 1908년에 Student's t-분포라는 필명으로 발표한 논문에서 처음으로 사용하면서 알려졌으며, 이러한 이유로 `t`-분포를 Student's `t`-분포라고도 한다.
이 분포는 표준 정규 분포와 매우 흡사하며, 모분산이 알려지지 않은 정규 모집단에서 소표본을 추출하여 모평균을 추론할 때 주로 사용한다.

`t`- 분포(`t`-Distribution)

표본의 크기가 작은 경우, 즉 `n < 30` 인 경우에 모평균 또는 모평균 차의 추론에 사용하며, 다음과 같이 정의한다.

연속 확률 변수 `X` 의 확률 밀도 함수 `f(x)` 가 다음과 같을 때, 확률 변수 `X` 는 자유도 `n` 인 `t`-분포(T-Distribution)을 따른다고 하고, $X \sim t(n)$ 으로 나타낸다.

$$f(x) = \frac{Γ \left( \frac{n + 1}{2} \right)}{\sqrt{nπ} \; Γ \left( \frac{n}{2} \right)} \left ( 1 + \frac{x^{2}}{n} \right )^{-\frac{n + 1}{2}}, \quad -\infty < x < \infty$$

특성

`t`-분포는 표준 정규 분포와 비교하여 다음과 같은 특성을 갖는다.

① 분포 곡선은 `x = 0` 에서 최댓값을 갖고, 좌우 대칭이다.
② 분포 곡선은 표준 정규 분포와 같이 종 모양이다.
③ `t`-분포의 꼬리 부분이 표준 정규 분포보다 약간 두텁다. (a)
④ 자유도 `n` 이 증가하면 `t`-분포는 표준 정규 분포에 근접하게 된다. (b)

일반적으로 자유도 `n` 인 `t`-분포에서 $100(1 - \alpha)$% 백분위수 $t = t_{\alpha}(n)$ 으로 나타낸다.
즉, 오른쪽 꼬리 확률 $α$ 에 대해 $P[T > t_{\alpha}(n)] = \alpha$ 이다.
그러면 `t`-분포는 `x = 0` 에 대해 대칭이므로 다음이 성립한다.

$$P[T \ge t_{\alpha}(n)] = P[T \le -t_{\alpha}(n)] = \alpha$$
$$P[|T| \le t_{\frac{\alpha}{2}}(n)] = 1 - \alpha$$

아래 그림은 이와 같은 성질을 보여준다.

`t`-분포표를 이용하여 백분위수 계산

자유도 `n` 인 `t`-분포에서 오른쪽 꼬리 확률이 `α` 인 $100(1 - α)$% 백분위수 $t_{\alpha}(n)$ 을 구하기 위해서는 $\color{#6164C6}t$-분포표($\color{#6164C6}t$-Distribution Table)를 이용한다.
예를 들어, 자유도가 5인 `t`-분포에서 97.5% 백분위수 $t_{0.025}(5)$ 를 다음과 같이 `t`-분포표를 이용하여 구할 수 있다.

① 자유도를 나타내는 d.f 열에서 5를 선택한다.
② 오른쪽 꼬리 확률을 나타내는 $\alpha$ 행에서 0.025를 선택한다.
③ d.f가 5인 행과 `α` 가 0.025인 열이 만나는 수 2.571을 선택한다.
④ $t_{0.025}(5) = 2.571$ 이다. 즉, $P(X \le 2.571) = 0.975$ 또는 $P(X \ge 2.571) = 0.025$

`t`-분포표(`t`-Distribution Table)

t-Distribution Table.pdf

0.22MB

`t`-검정(`t`-Test)

모분산 $\sigma^{2}$ 을 모르는 정규 모집단의 모평균 $\mu$ 에 대한 주장을 검정하는 방법을 살펴보자.
만약 모분산 $\sigma^{2}$ 을 알고 있다면, 크기 `n` 인 표본 평균의 표준화 화률 변수 `Z` 는 다음과 같다.

$$Z = \frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \sim t(n - 1)$$

그러나 모분산 $\sigma^{2}$ 을 모르기 때문에 검정 통계량 `Z` 와 표준 정규 분포를 사용할 수 없다. 한편, 크기 `n` 인 표본의 표본 분산 $s^{2}$ 또는 표본 표준 편차 `s` 를 구할 수 있다.
이 때, 검정 통계량 `Z` 에서 알려지지 않은 모표준 편차 $\sigma$ 대신에 표본 표준 편차 `s` 로 대치한 표본 평균의 표준화 확률 변수 `T` 는 다음과 같이 자유도가 `n - 1` 인 `t`-분포를 따르는 것이 알려져 있다.

$$T = \frac{\overline{X} - \mu}{\frac{s}{\sqrt{n}}} \sim t(n - 1)$$

따라서 모분산을 모르는 정규 모집단의 모평균에 대한 귀무 가설 $H_{0} : \mu = \mu_{0}$ 를 검정하기 위한 검정 통계량은 다음과 같다.

$$T = \frac{\overline{X} - \mu_{0}}{\frac{s}{\sqrt{n}}} \sim t(n - 1)$$

그러므로 모분산을 모르는 모집단 분포의 모평균에 대한 주장의 진위 여부를 검정하기 위해 자유도 `n - 1` 인 `t`-분포를 사용하며, 다음과 같은 순서로 구한다.

① 귀무 가설 $H_{0}$ 와 대립 가설 $H_{1}$ 을 설정한다.
② 유의 수준 $\alpha$ 를 정한다.
③ 검정 통계량 $\displaystyle \frac{\overline{X} - \mu_{0}}{\frac{s}{\sqrt{n}}}$ 를 선택한다.
④ 유의 수준 $\alpha$ 에 대한 임계값과 기각역을 구한다.
⑤ 표본으로부터 검정 통계량의 관찰값 $t_{0}$ 를 구하고, $H_{0}$ 의 채택과 기각 여부를 결정한다.

이 때, 미리 주어진 유의 수준 $\alpha$ 에 대한 기각역과 채택역에 대해 검정 통계량의 관찰값이 기각역 안에 있으면 귀무 가설 $H_{0}$ 를 기각하고, 그렇지 않으면 $H_{0}$ 를 기각하지 못한다.

단일 모평균에 대한 검정

모분산 $\sigma^{2}$ 를 모르는 정규 모집단에서 모평균에 대한 귀무 가설 $H_{0}$ 와 대립 가설 $H_{1}$ 에 대해 다음과 같이 검정한다.

양측 검정

귀무 가설 $H_{0} : \mu = \mu_{0}$ 라는 주장과 이에 대립하는 대립 가설 $H_{1} : \mu \ne \mu_{0}$ 를 검정하는 방법을 살펴보자.
이 때, 사용하는 검정 통계량과 확률 분포는 다음과 같다.

$$T = \frac{\overline{X} - \mu_{0}}{\frac{s}{\sqrt{n}}} \sim t(n - 1)$$

먼저 표본 평균의 관찰값 $\overline{x}$ 와 표본 표준 편차 `s` 에 대해 검정 통계량의 관찰값 $t_{0}$ 를 구한다.

$$t_{0} = \frac{\overline{x} - \mu_{0}}{\frac{s}{\sqrt{n}}}$$

그리고 유의 수준 $\alpha$ 에 대한 임계값 $t_{\frac{\alpha}{2}}(n - 1)$ 을 `t`-분포표에서 찾으면 귀무 가설 $H_{0}$ 에 대한 기각역은 다음과 같다.

$$T \le -t_{\frac{\alpha}{2}}(n - 1), \quad T \ge t_{\frac{\alpha}{2}}(n - 1)$$

이 때, 검정 통계량의 관찰값 $t_{0}$ 가 기각역 안에 놓이면 귀무 가설 $H_{0}$ 를 기각한다.

예제 : 정규 모집단의 평균이 26.5 라는 주장을 알아보기 위해 표본 조사를 실시하여 다음을 얻었다. 이 주장에 대해 유의 수준 5%에서 검정하라.

표본	표본의 크기	표본 평균	표본 표준 편차
A	16	29	4.8

(1)

귀무 가설 $H_{0} : \mu = 26.5$ 와 대립 가설 $H_{1} : \mu \ne 26.5$ 를 설정한다.

(2)

$α = 0.05$ 에 대해 $t_{0.025}(15) = 2.131$ 이므로 기각역은 다음과 같다.

$$T \le -2.131, \quad T \ge 2.131$$

(3)

`n = 16, s = 4.8` 이므로 검정 통계량을 구하면 다음과 같다.

$$T = \frac{\overline{X} - 26.5}{4.8 / \sqrt{16}} = \frac{\overline{X} - 26.5}{1.2}$$

(4)

$\overline{x} = 29$ 이므로 검정 통계량의 관찰값은 $\displaystyle t_{0} = \frac{29 - 26.5}{1.2} = 2.08$ 이다.

(5)

$t_{0} = 2.08$ 이 기각역 안에 놓이지 않으므로 귀무 가설을 기각할 수 없다. 즉, 모평균이 26.5라는 주장은 근거가 충분하다.

상단측 검정

귀무 가설 $H_{0} : \mu \le \mu_{0}$ 라는 주장과 이에 대립하는 대립 가설 $H_{1} : \mu > \mu_{0}$ 를 검정하는 방법을 살펴보자.
미리 설정된 유의 수준 $\alpha$ 에 대한 검정 통계량 `T` 에 대해 오른쪽 꼬리 확률이 $α$ 인 임계점은 $t_{\alpha}(n - 1)$ 이다.
그리고 귀무 가설 $H_{0}$ 에 대한 기각역은 다음과 같으며, 검정 통계량의 관찰값 $t_{0}$ 가 기각역 안에 놓이면 귀무 가설 $H_{0}$ 를 기각한다.

$$T \ge t_{\alpha}(n - 1)$$

예제 : 정규 모집단의 귀무 가설 $H_{0} : \mu \le 45$ 를 확인하기 위해 표본 조사를 실시하여 다음을 얻었다.

표본	표본의 크기	표본 평균	표본 표준 편차
A	25	46.2	2.75

(a) 이 주장에 대해 유의 수준 5%에서 검정하라.

(b) 이 주장에 대해 유의 수준 1%에서 검정하라.

[a]

유의 수준 $\alpha = 0.05$ 에서 다음 순서에 따라 $H_{0} : \mu \le 45$ 를 검정한다.

(a-1)

귀무 가설 $H_{0} : \mu = 45$ 와 대립 가설 $H_{1} : \mu > 45$ 를 설정한다.

(a-2)

$α = 0.05$ 에 대해 $t_{0.05}(24) = 1.711$ 이므로 기각역은 $T \ge 1.711$ 이다.

(a-3)

`n = 25, s = 2.75` 이므로 검정 통계량을 구하면 다음과 같다.

$$T = \frac{\overline{X} - 45}{2.75 / \sqrt{25}} = \frac{\overline{X} - 45}{0.55}$$

(a-4)

$\overline{x} = 46.2$ 이므로 검정 통계량의 관찰값은 $\displaystyle t_{0} = \frac{46.2 - 45}{0.55} = 2.182$ 이다.

(a-5)

$t_{0} = 2.182$ 는 기각역 안에 놓이므로 귀무 가설을 기각한다.

[b]

유의 수준이 $α = 0.01$ 이므로 $t_{0.01}(24) = 2.492$ 이다.

따라서 기각역은 $T \ge 2.492$ 이고 관찰값 $t_{0} = 2.182$ 는 기각역 안에 놓이지 않는다.

그러므로 귀무 가설을 기각할 수 없다.

하단측 검정

귀무 가설 $H_{0} : \mu \ge \mu_{0}$ 라는 주장과 이에 대립하는 대립 가설 $H_{1} : \mu < \mu_{0}$ 를 검정하는 방법을 살펴보자.
미리 설정된 유의 수준 $\alpha$ 에 대한 검정 통계량 `T` 에 대해 왼쪽 꼬리 확률이 $α$ 인 임계점은 $-t_{\alpha}(n - 1)$ 이다.
그리고 귀무 가설 $H_{0}$ 에 대한 기각역은 다음과 같으며, 검정 통계량의 관찰값 $t_{0}$ 가 기각역 안에 놓이면 귀무 가설 $H_{0}$ 를 기각한다.

$$T \le -t_{\alpha}(n - 1)$$

예제 : 성인이 컴퓨터 화면에 있는 텍스트 한 쪽을 읽는 데 걸리는 시간은 평균 48초 이상이라고 한다. 이를 확인하기 위해 표본 조사를 실시하여 다음을 얻었다. 이 주장에 대해 유의 수준 5%에서 검정하라.

표본	표본의 크기	표본 평균	표본 표준 편차
A	15	46.2	3.84

(1)

귀무 가설 $H_{0} : \mu \ge 48$ 과 대립 가설 $H_{1} : \mu < 48$ 를 설정한다.

(2)

$α = 0.05$ 에 대해 $t_{0.05}(14) = 1.761$ 이므로 기각역은 $T \le -1.761$ 이다.

(3)

`n = 15, s = 3.84` 이므로 검정 통계량을 구하면 다음과 같다.

$$T = \frac{\overline{X} - 48}{3.84 / \sqrt{15}} = \frac{\overline{X} - 48}{0.9915}$$

(4)

$\overline{x} = 46.2$ 이므로 검정 통계량의 관찰값은 $\displaystyle t_{0} = \frac{46.2 - 48}{0.9915} = -1.8154$ 이다.

(5)

$t_{0} = -1.8154$ 는 기각역 안에 놓이므로 귀무 가설을 기각한다.

`p`-값을 이용한 검정 방법

귀무 가설에 대한 타당성을 검정하기 위해 `p`-값을 이용한 방법은 다음과 같다.

① 귀무 가설 $H_{0}$ 와 대립 가설 $H_{1}$ 을 설정한다.
② 유의 수준 `α` 를 정한다.
③ 표본으로부터 표본 평균 $\overline{x}$ 와 표본 표준 편차 $s$ 를 구한다.
④ 검정 통계량 $\displaystyle \frac{\overline{X} - \mu_{0}}{\frac{s}{\sqrt{n}}}$ 를 선택하고, 관찰값 $t_{0}$ 를 구한다.
⑤ `p`-값을 구한다.
⑥ $p-값 \le \alpha$ 이면 귀무 가설을 기각하고, $p-값 > \alpha$ 이면 귀무 가설을 채택한다.

그리고 모분산을 모르고 소표본(`n < 30`)인 경우에 귀무 가설 $H_{0}$ 에 대한 검정은 다음과 같이 정리할 수 있다.

검정 방법 \ 가설과 기각역	귀무 가설 $H_{0}$	대립 가설 $H_{1}$	$H_{0}$ 의 기각역	`p`-값
하단측 검정	$\mu \le \mu_{0}$	$\mu <\mu_{0}$	$R : T \le -t_{\alpha}(n - 1)$	$P(T < t_{0})$
상단측 검정	$\mu \le \mu_{0}$	$\mu > \mu_{0}$	$R : T \ge t_{\alpha}(n - 1)$	$P(T > t_{0})$
양측 검정	$\mu = \mu_{0}$	$\mu \ne \mu_{0}$	$R : \|T\| \ge t_{\frac{\alpha}{2}}(n - 1)$	$P(\|T\| > t_{0})$

예제 : 성인이 컴퓨터 화면에 있는 텍스트 한 쪽을 읽는 데 걸리는 시간은 평균 48초 이상이라고 한다. 이를 확인하기 위해 표본 조사를 실시하여 다음을 얻었다. 이에 대해 `p`-값을 구하고, 유의 수준 5%에서 검정하라.

표본	표본의 크기	표본 평균	표본 표준 편차
A	15	46.2	3.84

`n = 15` 인 하단측 검정이고, 검정 통계량의 관찰값 $t_{0} = -1.8154$ 를 얻었다.

자유도 14인 `t`-분포표에서 $t_{0.05}(14) = 1.761, \; t_{0.025} = 2.145$ 이므로 $-2.145 < t_{0} < -1.761$ 이고 다음을 얻는다.

$$P(T \le -1.761) = 0.05, \; P(T \le -2.145) = 0.025$$

따라서 $0.025 < p-값 < 0.05$ 이고, `p`-값이 유의 수준 5% 보다 작으므로 귀무 가설을 기각한다.

두 모평균 차에 대한 검정

독립이고 정규 분포를 따르는 두 모집단의 모분산 $\sigma_{1}^{2}$ 과 $\sigma_{2}^{2}$ 이 알려지지 않은 경우에 두 모평균의 차 $\mu_{1} - \mu_{2}$ 에 대한 가설을 검정하는 방법을 살펴보자.
이를 위해 각각 크기 `n` 과 `m` 인 표본을 선정하면 모분산을 모르는 단일 모집단과 동일하게 `t`-분포를 사용하지만 다음과 같은 차이가 있다.

① $\sigma_{1}^{2} = \sigma_{2}^{2} = \sigma^{2}$ 이고 $\sigma^{2}$ 은 미지이다.
② 자유도 $n + m - 2$ 인 `t`-분포를 사용한다.
③ 표본 표준 편차 `s` 대신에 합동 표본 표준 편차 $s_{p}$ 를 사용한다.

여기서 합동 표본 분산(Pooled Sample Variance)은 다음과 같이 정의한다.

$$S^{2}_{p} = \frac{1}{n + m - 2} \left [ \sum_{i=1}^{n} (X_{i} - \overline{X})^{2} + \sum_{j = 1}^{m}(Y_{j} - \overline{Y})^{2} \right ] $$

그리고 합동 표본 분산의 양의 제곱근을 합동 표본 표준 편차(Pooled Sample Standard Deviation)라 한다.
특히 두 표본 분산을 각각 $S_{1}^{2}, \; S_{2}^{2}$ 이라 하면 합동 표본 분산은 다음과 같이 간단히 구할 수 있다.

$$S_{p}^{2} = \frac{1}{n + m - 2}[(n - 1)S_{1}^{2} + (m - 1)S_{2}^{2}]$$

이 때, 귀무 가설 $H_{0} : \mu_{1} - \mu_{2} = d_{0}, \; H_{0} : \mu_{1} - \mu_{2} \ge d_{0}, \; H_{0} : \mu_{1} - \mu_{2} \le d_{0}$ 를 검정하기 위해 사용하는 검정 통계량은 다음과 같다.

$$T = \frac{(\overline{X} - \overline{Y}) - d_{0}}{s_{p} \sqrt{\frac{1}{n} + \frac{1}{m}}}$$

두 표본으로부터 얻은 표본 평균 $\overline{x}$ 와 $\overline{Y}$ 그리고 표본 분산 $s_{1}^{2}$ 과 $s_{2}^{2}$ 에 의해 검정 통계량의 관찰값 $t_{0}$ 를 구한다.
이 때, 관찰값 $t_{0}$ 가 기각역 안에 놓이면 귀무 가설 $H_{0}$ 를 기각하고, 그렇지 않으면 $H_{0}$ 를 기각하지 않는다.
한편 `p`-값을 구하여 $p-값 > \alpha$ 이면 $H_{0}$ 를 채택하고, $p-값 \le \alpha$ 이면 $H_{0}$ 를 기각한다.
따라서 두 모분산을 모르는 경우에 모평균의 차 $\mu_{1} - \mu_{2}$ 에 대한 가설 검정의 유형에 대한 기각역과 `p`-값을 정리하면 다음과 같다.

검정 방법 \ 가설과 기각역	귀무 가설 $H_{0}$	대립 가설 $H_{1}$	$H_{0}$ 의 기각역	`p`-값
하단측 검정	$\mu_{1} - \mu_{2} \ge d_{0}$	$\mu_{1} - \mu_{2} < d_{0}$	$T \le -t_{\alpha}(n + m - 2)$	$P(T < t_{0})$
상단측 검정	$\mu_{1} - \mu_{2} \le d_{0}$	$\mu_{1} - \mu_{2} > d_{0}$	$T \ge t_{\alpha}(n + m - 2)$	$P(T > t_{0})$
양측 검정	$\mu_{1} - \mu_{2} = d_{0}$	$\mu_{1} - \mu_{2} \ne d_{0}$	$\|T\| \ge t_{\frac{α}{2}}(n + m - 2)$	$2[1 - P(T < t_{0})]$

예제 : 독립인 두 정규 모집단의 모평균에 대해 $\mu_{1} - \mu_{2} = 2$ 라는 주장을 검정하기 위해 표본을 선정하여 다음 결과를 얻었다. 이 주장에 대해 유의 수준 5%에서 검정하라.

표본	표본의 크기	표본 평균	표본 표준 편차
표본 1	10	$\overline{x} = 18.7$	$s_{1} = 2.4$
표본 2	8	$\overline{y} = 14.2$	$s_{2} = 3.1$

(1)

귀무 가설 $H_{0} : \mu_{1} - \mu_{2} = 2$ 와 대립 가설 $H_{1} : \mu_{1} - \mu_{2} \ne 2$ 를 설정한다.

(2)

$\alpha = 0.05$ 에 대해 $t_{0.025}(16) = 2.12$ 이므로 기각역은 $T \le -2.12, \; T \ge 2.12$ 이다.

(3)

$n = 10, \; s_{1} = 2.4, \; m = 8, \; s_{2} = 3.1$ 이므로 합동 표본 분산을 구하면 다음과 같다.

$$s_{p}^{2} = \frac{1}{10 + 8 - 2}(9 \times 2.4^{2} + 7 \times 3.1^{2}) = 7.4444$$

따라서 합동 표본 표준 편차는 $s_{p} = \sqrt{7.4444} = 2.728$ 이다.

(4)

검정 통계량을 구하면 다음과 같다.

$$T = \frac{(\overline{X} - \overline{Y}) - 2}{2.728 \times \sqrt{\frac{1}{10} + \frac{1}{8}}} = \frac{(\overline{X} - \overline{Y}) - 2}{1.294}$$

(5)

$\overline{x} = 18.7, \; \overline{y} = 14.2$ 이므로 검정 통계량의 관찰값은 $\displaystyle t_{0} = \frac{(18.7 - 14.2) - 2}{1.294} = 1.932$ 이다.

(6)

$t_{0} = 1.932$ 는 기각역 안에 놓이지 않으므로 귀무 가설을 기각할 수 없다.

저작자표시 비영리 변경금지

'Mathematics > 확률과 통계' 카테고리의 다른 글

[확률과 통계] 모비율의 검정 (0)	2022.12.01
[확률과 통계] 모평균의 검정(σ² : 기지) (0)	2022.11.30
[확률과 통계] 통계적 가설 검정 (0)	2022.11.28
[확률과 통계] 모비율의 추정 (0)	2022.11.28
[확률과 통계] 모평균의 추정 (0)	2022.11.27
[확률과 통계] 모집단과 표본 (0)	2022.11.21
[확률과 통계] 연속 확률 분포 (0)	2022.11.21
[확률과 통계] 이산 확률 분포 (0)	2022.11.14

Per ardua ad astra.

"Hello, World!" 🤖

[확률과 통계] 모평균의 검정 (σ² : 미지)

모평균의 검정 (σ² : 미지)

`t`-검정(`t`-Test)

`t`- 분포(`t`-Distribution)

특성

`t`-분포표를 이용하여 백분위수 계산

`t`-검정(`t`-Test)

단일 모평균에 대한 검정

양측 검정

상단측 검정

하단측 검정

`p`-값을 이용한 검정 방법

두 모평균 차에 대한 검정

'Mathematics > 확률과 통계' 카테고리의 다른 글

티스토리툴바