728x90

대푯값

  • 지금까지는 양적 자료의 특성을 쉽게 이해하는 방법으로 여러 가지 그림을 이용했다.
  • 특히 양적 자료에 대한 도수 히스토그램을 그리면 자료의 흩어진 모양 등을 쉽게 알 수 있다.
    • 이 때, 도수 히스토그램중심 위치를 나타내는 수치를 중심 위치의 척도(Measure of Centrality) 또는 대푯값(Representative Value)이라 한다.
  • 대푯값은 수집한 양적 자료 전체를 대표할 수 있는 하나의 수치이다.

 

대푯값

  • 도수 히스토그램의 넓이를 이등분하는 수치를 대푯값이라 한다.

 

평균(Mean)

  • 가장 널리 사용하는 대푯값
- 모평균(Population Mean) : `N` 개로 구성된 모집단의 각 자료값을 모두 더해 `N` 으로 나눈 수치
- 표본 평균(Sample Mean) : `n` 개로 구성된 표본의 각 자료값을 모두 더해 `n` 으로 나눈 수치

 

모평균은 집단의 전체 자료값의 평균을 의미하고, 표본 평균은 집단에서 일부 샘플을 뽑은 자료값의 평균을 의미한다.

 

  • 모평균표본 평균은 각각 다음과 같이 구한다.
모평균 : $\displaystyle μ = \frac{1}{N} \sum^{N}_{i=1} x_{i}$
표본 평균 : $\displaystyle \overline{x} = \frac{1}{n} \sum^{n}_{i=1} x_{i}$

 

  • 표본 A [1 2 3 4 5 6 7 8 9 10] 표본 B [1 2 3 4 5 6 7 8 9 100] 의 평균을 각각 $\overline{x}_{A}$ 와 $\overline{x}_{B}$ 라 하면, 다음과 같다.
$\displaystyle \overline{x}_{A} = \frac{1}{10}(1 + 2 + \cdots + 9 + 10) = 5.5$
$\displaystyle \overline{x}_{B} = \frac{1}{10}(1 + 2 + \cdots + 9 + 100) = 14.5$
  • 이 때, 두 표본의 점도표를 그리고 평균의 위치를 구하면 중심 위치가 크게 차이나는 것을 확인할 수 있다.
  • 이와 같이 평균은 자료 안에 포함된 특이값의 유무에 따라 큰 차이를 보인다.

 

평균의 특징

  • 평균은 유일한 하나의 값으로 표현한다.
  • 계산이 단순하고 편리하다.
  • 모든 측정값이 반영된다.
  • 특이값(극단적인 값)에 영향을 받는다.

 

중앙값(Median)

자료를 작은 수부터 크기 순으로 나열하여 가장 가운데 놓이는 수를 의미하며, $M_{e}$ 로 나타낸다.

$$M_{e} =  \cases{ x_{ \left( \frac{n + 1}{2} \right) }, & \text{n 이 홀수인 경우} \cr\frac{1}{2} \left( x_{ \left(\frac{n}{2} \right) } + x_{ \left( \frac{n}{2} + 1 \right) } \right) , & \text{n 이 짝수인 경우} }  $$

 

  • 평균특이값의 유무에 따라 차이가 크게 나타나지만, 중앙값특이값의 영향을 받지 않는다.
  • 중앙값은 아래 그림과 같이 자료 집단의 분포 모양이 어느 한쪽 방향으로 치우치고, 다른 쪽 방향으로 긴 꼬리 모양을 갖는 경우의 대푯값으로 많이 사용한다.

중앙값이 대푯값으로 사용되기 좋은 예

  • 중앙값은 특이값의 영향을 전혀 받지 않는다는 장점이 있으나, 자료의 수가 많으면 부적절하고 수리적으로 다루기 매우 힘들다.

 

  • 자료의 개수가 홀수인 표본 A [1 50 4 3 2]와 자료의 개수가 짝수인 표본 B [5 4 1 60 3 2] 가 있을 때, 중앙값은 다음과 같다.
표본 A : 1 2 3 4 50 (중앙값 : 3)
표본 B : 1 2 3 | 4 5 60 (중앙값 : 3.5($=\frac{(3 + 4)}{2}$)
  • 이처럼 표본 A를 이등분하는 경계가 되는 측정값 3을 대푯값으로 선정하면 가장 큰 측정값이 50이든 5이든 상관없이 대표값이 동일하다.
  • 표본 B를 이등분하는 두 특정값 3과 4의 평균 3.5를 대푯값으로 선정하는 경우에도 특이값의 영향을 전혀 받지 않는다.
  • 이 때, 측정값을 크기순으로 나열하여 `k` 번째 위치의 측정값을 $x_{(k)}$ 로 나타낸다.

 

중앙값의 특징

  • 중앙값은 특이값(극단적인 값)에 영향을 받지 않는다.
  • 자료의 개수가 많으면 부적절하다.
  • 모든 측정값을 반영하지 않는다.
  • 수리적으로 다루기 곤란하다.

 

최빈값(Mode)

두 번 이상 발생하는 자료값 중에서 가장 많은 도수를 가지는 자료값을 의미하며, $M_{0}$ 로 나타낸다.
  • 특이값에 전혀 영향을 받지 않는 대푯값
  • 최빈값은 의류의 표준 치수(S, L, XL, XXL) 등에 많이 사용한다.

 

최빈값의 특징

  • 특이값(극단적인 값)에 대해 전혀 영향을 받지 않는다.
  • 존재하지 않거나 여러 개 존재할 수 있다.
  • 자료의 수가 많은 경우에 부적절하다.
  • 수리적으로 다루기 매우 힘들다.

 

  • 표본 A [1 2 3 3 5 6]  표본 B [1 2 3 3 4 4 5 5 6 7] 의 최빈값은 다음과 같다.
표본 A의 최빈값 : 3 ( [1 2 3 3 5 6] )
표본 B의 최빈값 : 3, 4, 5 ( [1 2 3 3 4 4 5 5 6 7] )
728x90