728x90
728x90

산포도

산포도(Measure of Dispersion)

  • 두 자료 집단의 대푯값인 평균이 동일하더라도, 두 자료 집단의 특성이 동일한 것은 아니다.

 

자료 집단 A : [1 2 3 4 5 5 5 6 7 8 8 9 9 9 9]
자료 집단 B : [4 5 5 5 6 6 6 6 6 6 6 7 7 7 8]

두 자료 집단의 점도표

  • 두 자료 집단의 평균은 동일하게 6이지만, 점도표를 그리면 명확하게 다르다는 사실을 알 수 있다.
    • 자료 집단 A는 오른쪽으로 치우치고 왼쪽으로 길게 퍼지는 형태이지만, 자료 집단 B는 평균 6을 중심으로 집중되는 형태이다.

 

  • 따라서 수집한 자료의 분포를 충분히 설명하기 위해 대푯값 이외에 자료가 흩어져 있는 정도에 대한 척도가 필요하며, 이와 같이 흩어진 정도를 나타내는 척도를 산포도(Measure of Dispersion)라 한다.

 

범위(Range)

  • 자료값의 흩어진 모양이 평균을 중심으로 어느 정도 대칭성이 있는 경우에 사용하는 가장 간단한 형태의 산포도
  • 자료를 크기순으로 재배열하여 x(1),x(2),,x(n) 이라 하자.
수집한 자료의 가장 큰 측정값과 가장 작은 측정값의 차이를 의미하며, R=x(n)x(1) 로 표현한다.

 

  • 자료 A [1 2 3 4 5] 와 자료 B [1 2 3 4 50] 의 범위는 각각 RA=4(51),RB=49(501) 이다.
    • 최댓값이 5인 경우와 50인 경우에 대해 범위는 크게 차이가 난다.
  • 따라서 범위는 계산하기 쉽지만, 특이값의 유무에 따라 크게 영향을 받는다.
  • 또한, 최댓값최솟값만을 이용하므로 범위가 동일하더라도 자료 집단의 분포 모양은 다를 수 있다.

 

범위의 특징

  • 계산이 쉽다.
  • 특이값(극단적인 값)의 영향을 많이 받는다.
  • 각각의 측정값에 대한 정보를 반영하지 못한다.
  • 자료의 개수가 많으면 부적절하다.
  • 범위가 동일해도 분포가 다를 수 있다.

 

평균 편차(Mean Deviation)

각 자료의 측정값평균과의 편차에 대한 절댓값들의 평균

M.D=1ni=1n|xix¯|

 

예 : 표본 [3 4 6 7 7 9]의 평균 편차 구하기
우선 자료 3, 4, 6, 7, 7, 9 의 평균을 구하면 다음과 같다.

x¯=16(3+4+6+7+7+9)=6

따라서 각 자료값의 편차와 그 절댓값을 구하면 다음과 같다.
자료 3 4 6 7 7 9
평균과의 편차 -3(3-6) -2(4-6) 0(6-6) 1(7-6) 1(7-6) 3(9-3)
편차 절댓값 3 2 0 1 1 3

따라서 평균 편차M.D=16(3+2+0+1+1+3)1.67 이다.

 

평균 편차의 특징

  • 개개의 측정값에 대한 정보가 반영된다.
  • 특이값에 대한 영향을 범위보다는 적게 받는다.
  • 평균 편차클수록 폭넓은 분포가 형성된다.

 

분산(Variance)

  • 대푯값으로 평균을 사용할 때 널리 사용하는 산포도
- 모분산(Population Variance) : 모집단을 구성하는 모든 자료값모평균의 편차의 제곱합에 대한 평균
- 표본 분산(Sample Variance) : 표본을 구성하는 모든 자료값표본 평균의 편차의 제곱합n1 로 나눈 수치
  •  크기가 N 모분산과 크기가 n표본 분산은 각각 다음과 같이 구한다.
모분산 : σ2=1Ni=1N(xiμ)2 (μ : 모평균)
표본 분산 : s2=1n1i=1n(xix¯)2 (x¯ : 표본 평균)

 

예 : 표본 [3 4 6 7 7 9]의 표본 분산 구하기
우선 자료 3, 4, 6, 7, 7, 9 의 평균을 구하면 다음과 같다.

x¯=16(3+4+6+7+7+9)=6

따라서 각 자료값의 편차와 그 절댓값을 구하면 다음과 같다.
자료 3 4 6 7 7 9
평균과의 편차 -3(3-6) -2(4-6) 0(6-6) 1(7-6) 1(7-6) 3(9-3)
편차 제곱 9 4 0 1 1 9

표본의 크기 n=6 이므로, 분산을 구하면 s2=161(9+4+0+1+9)=4.8 이다.

 

분산의 특징

  • 개개의 측정값에 대한 정보가 반영된다.
  • 수리적으로 다루기 쉽다.
  • 특이값(극단적인 값)의 영향을 매우 크게 받는다.
  • 분산클수록 평균으로부터 넓은 분포가 형성된다.

분산이 클수록 평균으로부터 넓은 분포가 형성된다.

 

표준 편차(Standard Deviation)

  • 분산은 개개의 자료값에 대한 평균 편차의 제곱에 의해 정의되므로, 분산의 단위는 자료값의 단위를 제곱한 단위이다.
    • 예) 키의 단위로 cm 를 사용하면, 분산의 단위는 cm² 이 된다.
      •  cm² 단위는 통상적으로 넓이를 나타내므로 자료의 특성을 분석할 때 혼란이 생긴다.
  • 따라서 자료값의 단위와 동일한 척도를 이용할 필요가 있으며, 이를 위해 분산의 양의 제곱근을 택한다.
모 표준 편차(Population Standard Deviation) : 모분산의 양의 제곱근
표본 표준 편차(Sample Standard Deviation) : 표본 분산의 양의 제곱근
  • 표준 편차분산과 같은 성질을 가지며, 다음과 같이 구한다.
모 표준 편차 : σ=1Ni=1N(xiμ)2
표본 표준 편차 : s=1n1i=1n(xix¯)2

 

예 : 표본 [3 4 6 7 7 9]의 표본 표준 편차 구하기 (소수점 이하 둘째 자리까지)
우선 자료 3, 4, 6, 7, 7, 9 의 평균을 구하면 다음과 같다.

x¯=16(3+4+6+7+7+9)=6

따라서 각 자료값의 편차와 그 절댓값을 구하면 다음과 같다.
자료 3 4 6 7 7 9
평균과의 편차 -3(3-6) -2(4-6) 0(6-6) 1(7-6) 1(7-6) 3(9-3)
편차 제곱 9 4 0 1 1 9

표본의 크기 n=6 이므로, 분산을 구하면 s2=161(9+4+0+1+9)=4.8 이다.

s2=4.8 이므로 표준 편차s=4.82.19 이다. 

 

표준 편차의 특징

  • 표준 편차클수록 평균으로부터 넓은 분포가 형성된다.
표준 편차가 클수록 넓은 분포가 형성된다.

 

변동 계수(Coefficient of Variation)

표준 편차평균으로 나눈 백분율

 

  • 표준 편차평균을 중심으로 자료가 밀집되거나 흩어진 정도를 절대적인 수치로 나타낸 산포도이다.
  • 그러나 측정 단위가 서로 다른 몸무게와 키에 대한 산포를 비교하거나, 코끼리의 몸무게와 강아지의 몸무게와 같이 측정 단위가 동일하더라도 평균의 차이가 극심한 경우에 산포도를 절대적인 수치로 비교하는 것은 곤란하다.
  • 따라서 두 자료 집단의 산포도를 상대적으로 비교하는 산포도가 필요하며, 변동 계수가 이에 해당한다.
  • 모집단 표본변동 계수는 각각 다음과 같이 구한다.
모집단의 변동 계수 : C.Vp=σμ×100(%)    (μ : 모평균)
표본의 변동 계수 : C.Vs=sx¯×100(%)    (x¯ : 표본 평균)

 

예 : 두 표본 A [171 164 167 156 159 164], B [11.5 12.2 12.0 12.4 13.6 10.5]에 대해 어느 표본이 평균으로부터 상대적으로 더 넓게 분포하는지 결정하기
두 표본 A와 B의 평균x¯,y¯ 라 하고, 표준 편차sA,sB 라 하면,

x¯=171+164+167+156+159+1646=163.5
y¯=11.5+12.2+12+12.4+13.6+10.5612
sA2=15(x163.5)2=29.1
sA=29.15.39
sB2=15(x12)2=1.052 
sB=1.0521.026

이다. 따라서 두 표본의 변동 계수를 구하면 각각 다음과 같다.

C.VA=5.39163.50.033,C.VB=1.026120.0855

그러므로 절대 수치에 의하면 표본 A의 분포가 표본 B에 비해 폭넓게 나타나지만(sA2>sB2 이므로), 상대적으로 비교하면 표본 B의 분포가 표본 A에 비해 폭넓게 나타난다. (C.VA<C.VB 이므로)

 

변동 계수의 특징

  • 변동 계수클수록 평균으로부터 넓은 분포가 형성된다.

변동 계수가&nbsp;클수록&nbsp;평균으로부터&nbsp;넓은 분포가 형성된다.

 

728x90
728x90

산포도산포도(Measure of Dispersion)범위(Range)범위의 특징평균 편차(Mean Deviation)평균 편차의 특징분산(Variance)분산의 특징표준 편차(Standard Deviation)표준 편차의 특징변동 계수(Coefficient of Variation)변동 계수의 특징