728x90
728x90
대푯값
- 지금까지는 양적 자료의 특성을 쉽게 이해하는 방법으로 여러 가지 표와 그림을 이용했다.
- 특히 양적 자료에 대한 도수 히스토그램을 그리면 자료의 흩어진 모양 등을 쉽게 알 수 있다.
- 이 때, 도수 히스토그램의 중심 위치를 나타내는 수치를 중심 위치의 척도(Measure of Centrality) 또는 대푯값(Representative Value)이라 한다.
- 대푯값은 수집한 양적 자료 전체를 대표할 수 있는 하나의 수치이다.
예
- 도수 히스토그램의 넓이를 이등분하는 수치를 대푯값이라 한다.
평균(Mean)
- 가장 널리 사용하는 대푯값
- 모평균(Population Mean) : `N` 개로 구성된 모집단의 각 자료값을 모두 더해 `N` 으로 나눈 수치
- 표본 평균(Sample Mean) : `n` 개로 구성된 표본의 각 자료값을 모두 더해 `n` 으로 나눈 수치
- 모평균과 표본 평균은 각각 다음과 같이 구한다.
모평균 : $\displaystyle μ = \frac{1}{N} \sum^{N}_{i=1} x_{i}$
표본 평균 : $\displaystyle \overline{x} = \frac{1}{n} \sum^{n}_{i=1} x_{i}$
예
- 표본 A [1 2 3 4 5 6 7 8 9 10] 와 표본 B [1 2 3 4 5 6 7 8 9 100] 의 평균을 각각 $\overline{x}_{A}$ 와 $\overline{x}_{B}$ 라 하면, 다음과 같다.
$\displaystyle \overline{x}_{A} = \frac{1}{10}(1 + 2 + \cdots + 9 + 10) = 5.5$
$\displaystyle \overline{x}_{B} = \frac{1}{10}(1 + 2 + \cdots + 9 + 100) = 14.5$
- 이 때, 두 표본의 점도표를 그리고 평균의 위치를 구하면 중심 위치가 크게 차이나는 것을 확인할 수 있다.
- 이와 같이 평균은 자료 안에 포함된 특이값의 유무에 따라 큰 차이를 보인다.
평균의 특징
- 평균은 유일한 하나의 값으로 표현한다.
- 계산이 단순하고 편리하다.
- 모든 측정값이 반영된다.
- 특이값(극단적인 값)에 영향을 받는다.
중앙값(Median)
자료를 작은 수부터 크기 순으로 나열하여 가장 가운데 놓이는 수를 의미하며, $M_{e}$ 로 나타낸다.
$$M_{e} = \cases{ x_{ \left( \frac{n + 1}{2} \right) }, & \text{n 이 홀수인 경우} \cr\frac{1}{2} \left( x_{ \left(\frac{n}{2} \right) } + x_{ \left( \frac{n}{2} + 1 \right) } \right) , & \text{n 이 짝수인 경우} } $$
- 평균은 특이값의 유무에 따라 차이가 크게 나타나지만, 중앙값은 특이값의 영향을 받지 않는다.
- 중앙값은 아래 그림과 같이 자료 집단의 분포 모양이 어느 한쪽 방향으로 치우치고, 다른 쪽 방향으로 긴 꼬리 모양을 갖는 경우의 대푯값으로 많이 사용한다.
- 중앙값은 특이값의 영향을 전혀 받지 않는다는 장점이 있으나, 자료의 수가 많으면 부적절하고 수리적으로 다루기 매우 힘들다.
예
- 자료의 개수가 홀수인 표본 A [1 50 4 3 2]와 자료의 개수가 짝수인 표본 B [5 4 1 60 3 2] 가 있을 때, 중앙값은 다음과 같다.
표본 A : 1 2 3 4 50 (중앙값 : 3)
표본 B : 1 2 3 | 4 5 60 (중앙값 : 3.5($=\frac{(3 + 4)}{2}$)
- 이처럼 표본 A를 이등분하는 경계가 되는 측정값 3을 대푯값으로 선정하면 가장 큰 측정값이 50이든 5이든 상관없이 대표값이 동일하다.
- 표본 B를 이등분하는 두 특정값 3과 4의 평균 3.5를 대푯값으로 선정하는 경우에도 특이값의 영향을 전혀 받지 않는다.
- 이 때, 측정값을 크기순으로 나열하여 `k` 번째 위치의 측정값을 $x_{(k)}$ 로 나타낸다.
중앙값의 특징
- 중앙값은 특이값(극단적인 값)에 영향을 받지 않는다.
- 자료의 개수가 많으면 부적절하다.
- 모든 측정값을 반영하지 않는다.
- 수리적으로 다루기 곤란하다.
최빈값(Mode)
두 번 이상 발생하는 자료값 중에서 가장 많은 도수를 가지는 자료값을 의미하며, $M_{0}$ 로 나타낸다.
- 특이값에 전혀 영향을 받지 않는 대푯값
- 최빈값은 의류의 표준 치수(S, L, XL, XXL) 등에 많이 사용한다.
최빈값의 특징
- 특이값(극단적인 값)에 대해 전혀 영향을 받지 않는다.
- 존재하지 않거나 여러 개 존재할 수 있다.
- 자료의 수가 많은 경우에 부적절하다.
- 수리적으로 다루기 매우 힘들다.
예
- 표본 A [1 2 3 3 5 6] 와 표본 B [1 2 3 3 4 4 5 5 6 7] 의 최빈값은 다음과 같다.
표본 A의 최빈값 : 3 ( [1 2 3 3 5 6] )
표본 B의 최빈값 : 3, 4, 5 ( [1 2 3 3 4 4 5 5 6 7] )
728x90
728x90
'Mathematics > 확률과 통계' 카테고리의 다른 글
[확률과 통계] 시행과 사건 (0) | 2022.10.31 |
---|---|
[확률과 통계] 도수 분포표에서의 평균과 분산 (1) | 2022.10.11 |
[확률과 통계] 위치 척도와 상자 그림 (0) | 2022.10.11 |
[확률과 통계] 산포도 (1) | 2022.10.10 |
[확률과 통계] 양적 자료의 정리 (0) | 2022.10.04 |
[확률과 통계] 질적 자료의 정리 (0) | 2022.10.04 |
[확률과 통계] 자료의 종류 (0) | 2022.10.03 |
[확률과 통계] 적분법 (1) | 2022.10.03 |