수집한 양적 자료의 특성을 알기 쉽게 정리하기 위해 개개의 측정값을 이용하거나 적당한 구간으로 집단화하여 표 또는 그림으로 표현할 수 있다.
점도표(Dot Plot)
질적 자료에서 사용한 점도표는 양적 자료에도 사용할 수 있다.
점도표는 다음과 같은 특성을 갖는다.
(1) 각 자료의 정확한 측정값을 알 수 있다. (2) 전체 자료의 흩어진 분포 모양을 알 수 있다. (3) 관찰값의 수만큼 점을 찍어서 나타내므로 자료의 수가 많으면 부적절하다.
점도표의 예
도수 분포표(Frequency Distribution Table)
양적 자료를 일정한 간격으로 묶어서 집단화하는 방법으로 도수 분포표를 사용한다.
양적 자료를 적당한 간격으로 집단화하여 계급, 도수, 상대 도수, 누적 도수, 누적 상대 도수, 계급값 등을 기입한 표
양적 자료를 집단화하여 도수 분포표를 작성하면, 다음과 같은 전체 자료가 갖는 특성을 좀더 쉽게 이해할 수 있다.
(1) 전체 자료에 대한 대략적인 중심의 위치를 알 수 있다. (2) 전체 자료의 흩어진 분포 모양을 대략적으로 알 수 있다. (3) 극단적으로 관찰된 자료값을 대략적으로 알 수 있다. (4) 각 계급 안에 들어있는 정확한 측정값을 알 수 없다.
이 떄, 극단적으로 관찰되는 자료값을 특이값(Outlier)이라 하며, 매우 특별한 경우에 관찰되는 값이거나 관찰값의 기입에 오류를 범한 자료값으로 생각할 수 있다.
도수 분포표에 기입하는 사항들을 정리하면 다음과 같다.
- 계급(Class) : 양적 자료를 일정한 간격으로 나눈 구간 - 계급 간격(Class Width) : 각 계급의 너비 - 누적 도수(Cumulative Frequency) : 이전 계급까지의 모든 도수를 합한 도수 - 누적 상대 도수(Cumulative Relative Frequency) : 이전 계급까지의 모든 상대 도수를 합한 상대 도수 - 계급값(Class Mark) : 각 계급의 중앙값, 즉 다음에 의해 결정되는 수치
계급값=각 계급의 양 끝값의 합2
중학교 과정의 수학에서는 도수 분포표를 작성할 때 이웃하는 계급들의 양 끝값이 중복되지 않도록 '30이상∽40미만' 과 같은 표현을 사용하였다.
하지만, 도수 분포표를 작성할 때, 이상, 미만을 사용하기 보다는 양 끝값보다 0.5 만큼 작은 수를 사용하는 것이 좋다.
'29.5 ~ 39.5' 와 같이 계급의 양 끝값인 30과 40보다0.5만큼 작게계급을 정하면, 이 계급은 30 이상부터 40 미만까지의 자료값으로 나타낼 수 있다.
도수 분포표는 다음 순서에 따라 작성한다.
① 계급의 수 k 를 적당히 정한다. ② R = 최대 측정값 - 최소 측정값 을 구한다. ③ 계급의 간격을 결정한다. 이 때, 계급 간격은 R 을 계급의 수 k 로 나눈 값보다 큰 가장 작은 정수로 택한다.
w≈Rk
④ 제 1계급에서 왼쪽 끝값을 최소 측정값보다 0.5 만큼 작은 수를 이용하여 간격이 w 인 계급을 작성한다. ⑤ 도수 분포표 안에 각 계급의 도수, 상대 도수, 누적 도수, 누적 상대 도수, 계급값 등을 기입한다.
예 : 청소년의 핸드폰 사용 시간
(단위 : 시간)
10
37
22
32
18
15
15
18
22
15
20
25
38
28
25
30
20
22
18
22
22
12
22
26
22
32
22
23
20
23
23
20
25
51
20
25
26
22
26
28
28
20
23
30
12
22
35
11
20
25
계급의 수(k)가 5인 도수 분포표를 만들어보자.
① 계급의 수가 5인 도수 분포표이므로 k=5 이다. ② 최대 측정값이 51이고 최소 측정값이 10이므로 R = 51 - 10 = 41 이다. ③ 415=8.2 이므로, 계급의 간격은 w=9 를 택한다. ④ 최소 측정값이 10이므로 제 1계급에서 왼쪽 끝값을 9.5로 정하고, 간격이 9인 계급을 작성한다. ⑤ 도수 분포표 안에 각 계급에 해당하는 도수, 상대 도수, 누적 도수, 누적 상대 도수, 계급값 등을 기입한다.
계급 간격
도수
상대 도수
누적 도수
누적 상대 도수
계급값
9.5 ~ 18.5
10
0.20
10
0.20
14
18.5 ~ 27.5
29
0.58
39
0.78
23
27.5 ~ 36.5
8
0.16
47
0.94
32
36.5 ~ 45.5
2
0.04
49
0.98
41
45.5 ~ 54.5
1
0.02
50
1.00
50
합계
50
1.00
※ 계급값 = (계급 간격 왼쪽의 값 + 계급 간격 오른쪽의 값) / 2
도수 히스토그램(Frequency Histogram)
도수 분포표로 정리한 자료를 시각적으로 쉽게 이해할 수 있도록 그린 것을 히스토그램(Histogram)이라 한다.
수평축에 도수 분포표의 계급 구간을 나타내고, 수직 방향으로 각 계급에 대응하는 도수를 높이로 갖는 사각형으로 나타낸 그림
막대 그래프는 각 범주를 중심으로 간격이 떨어지는 막대 모양이지만, 히스토그램은 각 계급을 나타내는 막대의 양 끝이 겹치게 된다.
이 때, 각 계급을 나타내는 막대의 중심은 계급값이고, 계급 간격이 일정하므로 막대의 넓이는 각 계급의 도수에 비례한다.
히스토그램은 도수 분포표에 비해 다음과 같은 장점이 있다.
(1) 대략적인 중심의 위치를 알 수 있다. (2) 수집한 자료의 흩어진 모양을 쉽게 알 수 있다.
히스토그램의 유형
수직축에 상대 도수 또는 누적 도수와 누적 상대 도수를 기입할 수 있으며, 이런 히스토그램을 각각 상대 도수 히스토그램, 누적 도수 히스토그램, 누적 상대 도수 히스토그램이라고 한다.
도수 다각형(Frequency Polygon)
2개 이상의 자료 집단으로 주어진 질적 자료를 비교하기 위해 꺾은선 그래프를 이용했다.
이와 동일하게 2개 이상의 자료 집단에 의한 양적 자료를 비교하기 위해 도수 다격형을 사용할 수 있다.
히스토그램에서 연속적인 막대의 상단 중심부를 선분으로 연결하여 다각형으로 표현한 그림
도수 다각형을 그릴 때, 첫 번째와 마지막 계급의 아래와 위에 각각 도수 0인 계급이 있다고 가정하고 선분을 연결한다.
도수 다각형은 2개 이상의 자료 집단에 대한 분포 모양을 비교하는 데 널리 사용한다.
이 때, 수직축에 도수, 상대 도수 또는 누적 도수와 누적 상대 도수를 기입할 수 있으며, 이러한 도수 다각형을 각각 도수 다각형, 상대 도수 다각형, 누적 도수 다각형, 누적 상대 도수 다각형이라 한다.
두 자료 집단에 대한 도수 다각형의 비교도수 히스토그램에서 도수 다각형 그리기
줄기-잎 그림(Stem-Leaf Display)
도수 분포표나 도수 히스토그램은 수집한 자료의 분포 모양을 제공하지만, 개개의 자료값에 대한 정보를 제공하지 못한다는 단점이 있다.
이러한 단점을 극복하면서도 도수 분포표와 같은 성질을 갖는 그림으로 줄기-잎 그림이 있다.
실제 측정값을 이용하여 변동이 적은 부분은 줄기, 변동이 많은 부분은 잎 모양으로 나타낸 그림
도수 분포표 또는 도수 히스토그램의 단점을 보완하는 줄기-잎 그림은 다음과 같은 특징을 갖는다.
(1) 도수 분포표나 도수 히스토그램이 갖고 있는 특성을 그대로 보존한다. (2) 각 계급 안에 들어있는 개개의 측정값을 제공한다. (3) 자료의 크기 순서로 나열하므로 중심의 위치를 알 수 있다. (4) 자료의 분포 모양을 쉽게 알 수 있다. (5) 자료의 수가 많은 경우에는 사용하기 불편하다. (5) 줄기(계급)의 수를 적당히 조절하기 어렵다.
줄기-잎 그림은 다음의 순서에 따라 그린다.
① 줄기와 잎을 구분한다. 이 때, 변동이 적은 부분을 줄기, 변동이 많은 부분을 잎으로 지정한다. ② 수직 방향으로 줄기 부분을 작은 수부터 순차적으로 나열하고, 양쪽에 수직선을 긋는다. ③ 각 줄기 부분에 해당하는 잎 부분을 원자료의 관찰 순서대로 나열한다. ④ 앞 부분의 자료값을 크기 순으로 재배열한다. ⑤ 전체 자료를 크기 순으로 나열하여 중앙에 놓이는 자료값이 있는 행의 왼쪽에 괄호( )를 만들고, 괄호 안에 그 행에 해당하는 잎의 개수를 기입한다. ⑥ 괄호가 있는 행을 중심으로 괄호와 동일한 열에 누적 도수를 위와 아래 방향에서 각각 기입하고, 최소 단위와 자료의 전체 개수를 기입한다.
예 : 청소년의 핸드폰 사용 시간
(단위 : 시간)
10
37
22
32
18
15
15
18
22
15
20
25
38
28
25
30
20
22
18
22
22
12
22
26
22
32
22
23
20
23
23
20
25
51
20
25
26
22
26
28
28
20
23
30
12
22
35
11
20
25
위의 자료를 바탕으로 줄기-잎 그림을 그려보자.
① 두 자릿수 중에서 변동이 적은 십의 자릿수를 줄기, 일의 자릿수를 잎으로 정한다. ② 수직 방향으로 줄기 부분을 작은 수부터 순차적으로 나열하고, 양쪽에 수직선을 긋는다. ③ 각 줄기 부분에 해당하는 잎 부분을 원자료의 관찰 순서대로 나열한다. ④ 잎 부분의 자료값을 크기 순으로 재배열한다. ⑤ 50개의 자료를 크기 순으로 나열할 때 중앙에 놓이는 자료값은 25번째와 26번째이므로, 제 2행 안에 놓인다. 따라서 제 2행의 왼쪽에 괄호를 만들고, 괄호 안에 그 행에 해당하는 잎의 수인 32를 기입한다. ⑥ 괄호가 있는 행을 중심으로 괄호와 동일한 열에 누적 도수를 위와 아래 방향에서 각각 기입하고, 최소 단위와 자료의 전체 개수를 기입한다. 그러면 간격이 10인 줄기-잎 그림이 완성되며, 이 줄기-잎 그림을 아래와 같이 왼쪽으로 90˚ 회전하면 계급 간격이 10인 도수 히스토그램을 얻는다. 이 때, 각 계급 안에 들어있는 각 자료의 정확한 값을 알 수 있다.
줄기-잎 그림을 왼쪽으로 90도 회전한 그림
한편, 잎의 부분을 0~4와 5~9로 세분하여 다음과 같이 계급 간격이 5인 줄기-잎 그림을 작성할 수 있다. (또한 0~2, 3~4, 5~6, 6~7, 8~9로 세분화할 수 있다.)