728x90
728x90
위치 척도와 상자 그림
- 두 집단의 평균의 차이가 극심한 경우에는 표준 편차보다 상대적인 척도인 변동 계수를 사용한다.
- 그러나 두 집단의 평균을 일치시키고, 절대적인 수치로 주어진 자료값을 상대적인 위치로 변환할 수 있다.
- 중앙값은 가장 중앙에 놓이는 자료값이므로 자료값을 크기 순으로 나열하여 50% 위치에 놓이게 된다.
- 이 때 수집한 자료를 크기 순서로 나열하여 백등분하는 위치 또는 사등분하는 위치를 나타내는 백분위수와 사분위수를 구할 수 있다.
- 사분위수를 이용하면 특이값의 존재 여부를 명확하게 알 수 있다.
-점수(-Score) ; 표준 점수(Standardized Score)
각 자료의 측정값과 평균과의 편차를 표준 편차로 나눈 수치
- 자료 집단을 구성하는 개개의 자료값을 평균을 중심으로 한 상대적인 위치로 변환시킨 자료를 생각할 수 있다.
- 이와 같이 변환시킴으로써 평균이 크게 차이나는 두 집단을 상대적으로 동일하게 비교할 수 있다.
- 예) 대학수학능력시험에 대해 개개인의 원점수를 평균을 중심으로 한 상대적인 위치로 변환시킨 점수가 표준 점수이다.
- 이와 같이 변환시킴으로써 평균이 크게 차이나는 두 집단을 상대적으로 동일하게 비교할 수 있다.
- -점수는 다음과 같이 구한다.
모집단의 -점수 : ( : 모평균, : 모 표준 편차)
표본의 -점수 : ( : 표본 평균, : 표본 표준 편차)
- 이러한 -점수는 자료 집단의 평균을 0으로 변환시키고, 평균을 중심으로 각 자료값의 절대 위치를 상대적인 위치로 변환한 값을 나타낸다.
예 : 두 표본 A [4 9 3 5 7] 과 표본 B [400 900 300 500 700]
- 두 표본 각각의 평균을 구하면 이고, 으로, 두 표본을 동일한 점도표로 나타내면 비교가 되지 않는다.
- 하지만, -점수를 이용하여 각 자료값의 상대적인 위치로 변환하면 다음과 같이 동일한 것을 알 수 있다.

예 : 두 표본 A [171 164 167 156 159 164], B [11.5 12.2 12.0 12.4 13.6 10.5]에 대해 다음을 구하여라.
(a) 표본 A와 표본 B의 -점수
(b) -점수에 대한 점도표
(c) 변동 계수의 결과와 비교하기
해설 보기
두 표본 A와 B의 평균을 라 하고, 표준 편차를 라 하면,
이다. 두 표본의 변동 계수를 구하면 각각 다음과 같다.
(a)
이다.
표본 A의 각 자료값에 를 이용하면 다음을 얻는다.
표본 B의 각 자료값에 를 이용하면 다음을 얻는다.
(b)
두 표본의 -점수에 대한 점도표를 그리면 다음과 같다.

이다. 두 표본의 변동 계수를 구하면 각각 다음과 같다.
(a)
이다.
표본 A의 각 자료값에 를 이용하면 다음을 얻는다.
자료값 | 171 | 164 | 167 | 156 | 159 | 164 |
-점수 | 1.39 | 0.09 | 0.65 | -1.39 | -0.83 | 0.09 |
표본 B의 각 자료값에 를 이용하면 다음을 얻는다.
자료값 | 11.5 | 12.2 | 12.0 | 12.4 | 13.6 | 10.5 |
-점수 | -0.49 | 0.19 | 0.00 | 0.39 | 1.56 | -1.46 |
(b)
두 표본의 -점수에 대한 점도표를 그리면 다음과 같다.

(c)
변동 계수에 의한 결과와 동일하게, 표본 B가 표본 A에 비해 상대적으로 넓게 분포한다.
백분위수(Percentile)와 사분위수(Quartiles)
- 백분위수(Percentile) : 수집한 자료를 크기순으로 나열할 때, 1% 씩 등간격으로 구분하는 척도
- 사분위수(Quartiles) : 수집한 자료를 크기순으로 나열하여 4등분하는 척도
- 수집한 자료를 크기순으로 나열하여 백등분하는 위치를 나타내는 척도와 사등분하는 위치를 나타내는 척도를 이용하는 경우가 종종 있다.
- 예) 대학수학능력시험에 대한 개개인의 원점수와 백분위 점수
- 백분위 점수는 전체 시험 응시자의 원점수를 백등분한 점수를 의미한다.
- 예) 대학수학능력시험에 대한 개개인의 원점수와 백분위 점수
- 사분위수는 전체 자료를 4등분하는 척도이므로, 다음의 백분위수와 같다.
- 제1 사분위수 = 제25 백분위수
- 제2 사분위수 = 제50 백분위수 = 중앙값
- 제3 사분위수 = 제75 백분위수
백분위수 구하기
- 개의 자료로 구성된 자료 집단의 -백분위수 는 다음과 같은 순서로 구한다.
① 자료값을 가장 작은 수부터 크기순으로 재배열한다.
② 을 계산한다.
③ 이때 이 정수인지 아닌지에 따라 를 다음과 같이 구한다.
- 이 정수이면, 는 다음과 같이 번째와 번째 위치하는 자료값의 평균이다.
- 이 정수가 아니면, 는 보다 큰 정수에서 가장 작은 정수에 해당하는 위치의 자료값이다.
예제 : 다음 표본에 대한 사분위수를 구하라.
26 | 31 | 27 | 38 | 42 | 26 | 18 | 17 | 25 | 29 |
39 | 38 | 38 | 40 | 46 | 38 | 39 | 41 | 41 | 40 |
26 | 19 | 39 | 28 | 45 | 34 | 21 | 41 | 30 | 30 |
12 | 22 | 48 | 34 | 29 | 26 | 29 | 58 | 43 | 16 |
42 | 44 | 38 | 44 | 28 | 43 | 39 | 42 | 39 | 46 |
해설 보기
표본을 다음과 같이 크기순으로 재배열한다.
12 | 16 | 17 | 18 | 19 | 21 | 22 | 25 | 26 | 26 |
26 | 26 | 27 | 28 | 28 | 29 | 29 | 29 | 30 | 30 |
31 | 34 | 34 | 38 | 38 | 38 | 38 | 38 | 39 | 39 |
39 | 39 | 39 | 40 | 40 | 41 | 41 | 41 | 42 | 42 |
42 | 43 | 43 | 44 | 44 | 45 | 46 | 46 | 48 | 58 |
이고 사분위수의 위치는 각각 이므로 사분위수를 구하면 다음과 같다.
제1 사분위수 :
제2 사분위수 :
제3 사분위수 :
상자 그림(Box Plot)
사분위수 범위(Interquartile Range; I.Q.R)
수집한 자료의 제1 사분위수와 제3 사분위수인 과 사이의 범위를 의미하며 로 표현한다.
- 대푯값으로 중앙값을 사용하는 경우에 특이값의 영향을 받지 않는 범위로 사분위수 범위를 많이 사용한다.
- 사분위수 범위는 아래쪽과 위쪽으로부터 각각 25%의 자료를 제거한 범위이므로 특이값의 영향을 전혀 받지 않는다.
예제 : <백분위수 구하기> 예제의 자료에 대한 사분위수 범위를 구하라.
해설 보기
을 구했으므로, 사분위수 범위는 다음과 같다.
상자 그림(Box Plot)
사분위수를 이용하여 수집한 자료에 포함된 특이값을 알려주는 그림
- 사분위수를 이용하면 수집한 자료 집단의 중심부 50% 안에 놓이는 자료의 분포 모양과 꼬리 부분의 상태를 비롯하여 특이값을 나타내는 상자 그림을 그릴 수 있다.
상자 그림의 특징
- 상자 그림은 대푯값으로 중앙값을 사용하며, 다음과 같은 특징을 갖는다.
① 특이값에 대한 정보를 제공한다.
② 자료의 중심 위치와 흩어진 모양, 그리고 분포의 꼬리 부분을 쉽게 파악할 수 있다.
③ 상자 그림은 2개 이상의 자료 집단을 비교할 때 매우 유용하다.
용어 정리
- 안 울타리(Inner Fence)
- 사분위수 과 에서 각각 만큼 떨어져 있는 값
- 아래쪽 안 울타리(Lower Inner Fence) :
- 위쪽 안 울타리(Upper Inner Fence) :
- 바깥 울타리(Outer Fence)
- 사분위수 과 에서 각각 만큼 떨어져 있는 값
- 아래쪽 바깥 울타리(Lower Outer Fence) :
- 위쪽 바깥 울타리(Upper Outer Fence) :
- 인접값(Adjacent Value)
- 안 울타리 안에 놓이는 가장 극단적인 자료값
- 아래쪽 안 울타리보다 큰 자료값 중에서 가장 작은 자료값
- 위쪽 안 울타리보다 작은 자료값 중에서 가장 큰 자료값
- 보통 특이값(Mild Outlier)
- 안 울타리와 바깥 울타리 사이에 놓이는 자료값
- 특이값(Extreme Outlier)
- 바깥 울타리 외부에 놓이는 자료값
상자 그림 그리기
- 상자 그림은 다음 순서에 따라 그린다.
① 자료를 크기순으로 나열하여 사분위수 를 구한다.
② 사분위수 범위 을 구한다.
③ 에서 까지 직사각형 모양의 상자를 그리고, 중위수 위치인 상자 안에 수직선을 긋는다.
④ 안 울타리를 구하고 인접값에 기호 '|' 로 표시한 후, 각각 과 으로부터 인접값까지 선분으로 연결하여 상자 그림의 날개 부분을 작성한다.
⑤ 바깥 울타리를 구하여 관측 가능한 보통 특이값의 위치에 '○', 특이값의 위치에 'x' 로 표시한다.
- 이러한 순서에 따라 상자 그림을 그리면 다음을 얻는다.

- 이 그림으로부터 다음 사실을 쉽게 알 수 있다.
- 중앙값을 중심으로 중심부 50% 자료는 대칭성을 갖는다.
- 아래쪽 날개 부분이 위쪽보다 짧다. 즉 자료의 분포에서 아래쪽 꼬리 부분보다 위쪽 꼬리 부분이 길게 분포한다.
- 측정 가능한 보통 특이값이 3개이고, 특성값이 3개 있다.
728x90
728x90
'Mathematics > 확률과 통계' 카테고리의 다른 글
[확률과 통계] 조건부 확률 (0) | 2022.10.31 |
---|---|
[확률과 통계] 확률 (0) | 2022.10.31 |
[확률과 통계] 시행과 사건 (0) | 2022.10.31 |
[확률과 통계] 도수 분포표에서의 평균과 분산 (1) | 2022.10.11 |
[확률과 통계] 산포도 (1) | 2022.10.10 |
[확률과 통계] 대푯값 (0) | 2022.10.10 |
[확률과 통계] 양적 자료의 정리 (0) | 2022.10.04 |
[확률과 통계] 질적 자료의 정리 (0) | 2022.10.04 |