(a) ¯x=163.5,¯y=12,sA=5.39,sB=1.026¯¯¯x=163.5,¯¯¯y=12,sA=5.39,sB=1.026 이다. 표본 A의 각 자료값에 zi=xi−163.55.39zi=xi−163.55.39 를 이용하면 다음을 얻는다.
자료값
171
164
167
156
159
164
zz-점수
1.39
0.09
0.65
-1.39
-0.83
0.09
표본 B의 각 자료값에 zi=yi−121.026zi=yi−121.026 를 이용하면 다음을 얻는다.
자료값
11.5
12.2
12.0
12.4
13.6
10.5
zz-점수
-0.49
0.19
0.00
0.39
1.56
-1.46
(b) 두 표본의zz-점수에 대한 점도표를 그리면 다음과 같다.
(c) 변동 계수에 의한 결과와 동일하게, 표본 B가 표본 A에 비해 상대적으로 넓게 분포한다.
백분위수(Percentile)와 사분위수(Quartiles)
- 백분위수(Percentile) : 수집한 자료를 크기순으로 나열할 때, 1% 씩 등간격으로 구분하는 척도 P1,P2,⋯,P99P1,P2,⋯,P99 - 사분위수(Quartiles) : 수집한 자료를 크기순으로 나열하여 4등분하는 척도 Q1,Q2,Q3Q1,Q2,Q3
수집한 자료를 크기순으로 나열하여 백등분하는 위치를 나타내는 척도와 사등분하는 위치를 나타내는 척도를 이용하는 경우가 종종 있다.
예) 대학수학능력시험에 대한 개개인의 원점수와 백분위 점수
백분위 점수는 전체 시험 응시자의 원점수를 백등분한 점수를 의미한다.
사분위수는 전체 자료를 4등분하는 척도이므로, 다음의 백분위수와 같다.
제1 사분위수 Q1Q1 = 제25 백분위수 P25P25
제2 사분위수 Q2Q2 = 제50 백분위수 P50P50 = 중앙값 MeMe
제3 사분위수 Q3Q3 = 제75 백분위수 P75P75
백분위수 구하기
nn 개의 자료로 구성된 자료 집단의 kk-백분위수PkPk 는 다음과 같은 순서로 구한다.
① 자료값을 가장 작은 수부터 크기순으로 재배열한다. ② m=kn100m=kn100 을 계산한다. ③ 이때 mm 이 정수인지 아닌지에 따라 PkPk 를 다음과 같이 구한다. - mm 이 정수이면, PkPk 는 다음과 같이 mm 번째와 m+1m+1 번째 위치하는 자료값의 평균이다.
Pk=x(m)+x(m+1)2Pk=x(m)+x(m+1)2
- mm 이 정수가 아니면, PkPk 는 mm 보다 큰 정수에서 가장 작은 정수에 해당하는 위치의 자료값이다.
사분위수를 이용하면 수집한 자료 집단의 중심부 50% 안에 놓이는 자료의 분포 모양과 꼬리 부분의 상태를 비롯하여 특이값을 나타내는 상자 그림을 그릴 수 있다.
상자 그림의 특징
상자 그림은 대푯값으로 중앙값을 사용하며, 다음과 같은 특징을 갖는다.
① 특이값에 대한 정보를 제공한다. ② 자료의 중심 위치와 흩어진 모양, 그리고 분포의 꼬리 부분을 쉽게 파악할 수 있다. ③ 상자 그림은 2개 이상의 자료 집단을 비교할 때 매우 유용하다.
용어 정리
안 울타리(Inner Fence)
사분위수Q1Q1 과 Q3Q3 에서 각각 1.5×I.Q.R1.5×I.Q.R 만큼 떨어져 있는 값
아래쪽 안 울타리(Lower Inner Fence) : fl=Q1−1.5×I.Q.Rfl=Q1−1.5×I.Q.R
위쪽 안 울타리(Upper Inner Fence) : fu=Q3+1.5×I.Q.Rfu=Q3+1.5×I.Q.R
바깥 울타리(Outer Fence)
사분위수Q1Q1 과 Q3Q3 에서 각각 3×I.Q.R3×I.Q.R 만큼 떨어져 있는 값
아래쪽 바깥 울타리(Lower Outer Fence) : fL=Q1−3×I.Q.RfL=Q1−3×I.Q.R
위쪽 바깥 울타리(Upper Outer Fence) : fU=Q3+3×I.Q.RfU=Q3+3×I.Q.R
인접값(Adjacent Value)
안 울타리 안에 놓이는 가장 극단적인 자료값
아래쪽 안 울타리보다 큰 자료값 중에서 가장 작은 자료값
위쪽 안 울타리보다 작은 자료값 중에서 가장 큰 자료값
보통 특이값(Mild Outlier)
안 울타리와 바깥 울타리 사이에 놓이는 자료값
특이값(Extreme Outlier)
바깥 울타리 외부에 놓이는 자료값
상자 그림 그리기
상자 그림은 다음 순서에 따라 그린다.
① 자료를 크기순으로 나열하여 사분위수Q1,Q2,Q3Q1,Q2,Q3 를 구한다. ② 사분위수 범위I.Q.R=Q3−Q1I.Q.R=Q3−Q1 을 구한다. ③ Q1Q1 에서 Q3Q3 까지 직사각형 모양의 상자를 그리고, 중위수 Q2Q2 위치인 상자 안에 수직선을 긋는다. ④ 안 울타리를 구하고 인접값에 기호 '|' 로 표시한 후, 각각 Q1Q1 과 Q3Q3 으로부터 인접값까지 선분으로 연결하여 상자 그림의 날개 부분을 작성한다. ⑤ 바깥 울타리를 구하여 관측 가능한 보통 특이값의 위치에 '○', 특이값의 위치에 'x' 로 표시한다.
이러한 순서에 따라 상자 그림을 그리면 다음을 얻는다.
상자 그림
이 그림으로부터 다음 사실을 쉽게 알 수 있다.
- 중앙값을 중심으로 중심부 50% 자료는 대칭성을 갖는다. - 아래쪽 날개 부분이 위쪽보다 짧다. 즉 자료의 분포에서 아래쪽 꼬리 부분보다 위쪽 꼬리 부분이 길게 분포한다. - 측정 가능한 보통 특이값이 3개이고, 특성값이 3개 있다.