728x90
728x90

양적 자료의 정리

  • 수집한 양적 자료의 특성을 알기 쉽게 정리하기 위해 개개의 측정값을 이용하거나 적당한 구간으로 집단화하여 표 또는 그림으로 표현할 수 있다.

 

점도표(Dot Plot)

  • 질적 자료에서 사용한 점도표는 양적 자료에도 사용할 수 있다.
  • 점도표는 다음과 같은 특성을 갖는다.
(1) 각 자료의 정확한 측정값을 알 수 있다.
(2) 전체 자료의 흩어진 분포 모양을 알 수 있다.
(3) 관찰값의 수만큼 점을 찍어서 나타내므로 자료의 수가 많으면 부적절하다.

 

점도표의 예

 

도수 분포표(Frequency Distribution Table)

  • 양적 자료를 일정한 간격으로 묶어서 집단화하는 방법으로 도수 분포표를 사용한다.
양적 자료를 적당한 간격으로 집단화하여 계급, 도수, 상대 도수, 누적 도수, 누적 상대 도수, 계급값 등을 기입한 표

 

  • 양적 자료를 집단화하여 도수 분포표를 작성하면, 다음과 같은 전체 자료가 갖는 특성을 좀더 쉽게 이해할 수 있다.
(1) 전체 자료에 대한 대략적인 중심의 위치를 알 수 있다.
(2) 전체 자료의 흩어진 분포 모양을 대략적으로 알 수 있다.
(3) 극단적으로 관찰된 자료값을 대략적으로 알 수 있다.
(4) 각 계급 안에 들어있는 정확한 측정값을 알 수 없다.

 

  • 이 떄, 극단적으로 관찰되는 자료값특이값(Outlier)이라 하며, 매우 특별한 경우에 관찰되는 값이거나 관찰값의 기입에 오류를 범한 자료값으로 생각할 수 있다.
  • 도수 분포표에 기입하는 사항들을 정리하면 다음과 같다.
- 계급(Class) : 양적 자료를 일정한 간격으로 나눈 구간
- 계급 간격(Class Width) : 각 계급의 너비
- 누적 도수(Cumulative Frequency) : 이전 계급까지의 모든 도수를 합한 도수
- 누적 상대 도수(Cumulative Relative Frequency) : 이전 계급까지의 모든 상대 도수를 합한 상대 도수
- 계급값(Class Mark) : 각 계급의 중앙값, 즉 다음에 의해 결정되는 수치

$\displaystyle \text{계급값} = \frac{\text{각 계급의 양 끝값의 합}}{2}$

 

  • 중학교 과정의 수학에서는 도수 분포표를 작성할 때 이웃하는 계급들의 양 끝값이 중복되지 않도록 '$\text{30}^{\text{이상}} ∽ \text{40}^{\text{미만}}$' 과 같은 표현을 사용하였다.
  • 하지만, 도수 분포표를 작성할 때, 이상, 미만을 사용하기 보다는 양 끝값보다 0.5 만큼 작은 수를 사용하는 것이 좋다.
    • '29.5 ~ 39.5' 와 같이 계급의 양 끝값인 30과 40보다 0.5 만큼 작게 계급을 정하면, 이 계급은 30 이상부터 40 미만까지의 자료값으로 나타낼 수 있다.
  • 도수 분포표는 다음 순서에 따라 작성한다.
① 계급의 수 `k` 를 적당히 정한다.
$R$ = 최대 측정값 - 최소 측정값 을 구한다.
③ 계급의 간격을 결정한다. 이 때, 계급 간격은 `R` 을 계급의 수 `k` 로 나눈 값보다 큰 가장 작은 정수로 택한다.

$\displaystyle w \approx \frac{R}{k}$

④ 제 1계급에서 왼쪽 끝값을 최소 측정값보다 0.5 만큼 작은 수를 이용하여 간격이 `w` 인 계급을 작성한다.
⑤ 도수 분포표 안에 각 계급의 도수, 상대 도수, 누적 도수, 누적 상대 도수, 계급값 등을 기입한다.

 

예 : 청소년의 핸드폰 사용 시간

(단위 : 시간)

10 37 22 32 18 15 15 18 22 15
20 25 38 28 25 30 20 22 18 22
22 12 22 26 22 32 22 23 20 23
23 20 25 51 20 25 26 22 26 28
28 20 23 30 12 22 35 11 20 25

 

  • 계급의 수(`k`)가 5인 도수 분포표를 만들어보자.
① 계급의 수가 5인 도수 분포표이므로 `k = 5` 이다.
② 최대 측정값이 51이고 최소 측정값이 10이므로 `R` = 51 - 10 = 41 이다.
③ $\frac{41}{5} = 8.2$ 이므로, 계급의 간격은 `w = 9` 를 택한다.
④ 최소 측정값이 10이므로 제 1계급에서 왼쪽 끝값을 9.5로 정하고, 간격이 9인 계급을 작성한다.
⑤ 도수 분포표 안에 각 계급에 해당하는 도수, 상대 도수, 누적 도수, 누적 상대 도수, 계급값 등을 기입한다.

 

계급 간격 도수 상대 도수 누적 도수 누적 상대 도수 계급값
9.5 ~ 18.5 10 0.20 10 0.20 14
18.5 ~ 27.5 29 0.58 39 0.78 23
27.5 ~ 36.5 8 0.16 47 0.94 32
36.5 ~ 45.5 2 0.04 49 0.98 41
45.5 ~ 54.5 1 0.02 50 1.00 50
합계 50 1.00      

※ 계급값 = (계급 간격 왼쪽의 값 + 계급 간격 오른쪽의 값) / 2

 

도수 히스토그램(Frequency Histogram)

  • 도수 분포표로 정리한 자료를 시각적으로 쉽게 이해할 수 있도록 그린 것을 히스토그램(Histogram)이라 한다.
수평축에 도수 분포표의 계급 구간을 나타내고, 수직 방향으로 각 계급에 대응하는 도수를 높이로 갖는 사각형으로 나타낸 그림

 

  • 막대 그래프는 각 범주를 중심으로 간격이 떨어지는 막대 모양이지만, 히스토그램은 각 계급을 나타내는 막대의 양 끝이 겹치게 된다.
  • 이 때, 각 계급을 나타내는 막대의 중심계급값이고, 계급 간격이 일정하므로 막대의 넓이는 각 계급의 도수에 비례한다.
  • 히스토그램은 도수 분포표에 비해 다음과 같은 장점이 있다.
(1) 대략적인 중심의 위치를 알 수 있다.
(2) 수집한 자료의 흩어진 모양을 쉽게 알 수 있다.

히스토그램의 유형

 

  • 수직축에 상대 도수 또는 누적 도수누적 상대 도수를 기입할 수 있으며, 이런 히스토그램을 각각 상대 도수 히스토그램, 누적 도수 히스토그램, 누적 상대 도수 히스토그램이라고 한다.

 

도수 다각형(Frequency Polygon)

  • 2개 이상의 자료 집단으로 주어진 질적 자료를 비교하기 위해 꺾은선 그래프를 이용했다.
  • 이와 동일하게 2개 이상의 자료 집단에 의한 양적 자료를 비교하기 위해 도수 다격형을 사용할 수 있다.
히스토그램에서 연속적인 막대의 상단 중심부를 선분으로 연결하여 다각형으로 표현한 그림

 

  • 도수 다각형을 그릴 때, 첫 번째와 마지막 계급의 아래와 위에 각각 도수 0인 계급이 있다고 가정하고 선분을 연결한다.
  • 도수 다각형2개 이상의 자료 집단에 대한 분포 모양을 비교하는 데 널리 사용한다.
  • 이 때, 수직축에 도수, 상대 도수 또는 누적 도수 누적 상대 도수를 기입할 수 있으며, 이러한 도수 다각형을 각각 도수 다각형, 상대 도수 다각형, 누적 도수 다각형, 누적 상대 도수 다각형이라 한다.

 

두 자료 집단에 대한 도수 다각형의 비교
도수 히스토그램에서 도수 다각형 그리기

 

줄기-잎 그림(Stem-Leaf Display)

  • 도수 분포표도수 히스토그램은 수집한 자료의 분포 모양을 제공하지만, 개개의 자료값에 대한 정보를 제공하지 못한다는 단점이 있다.
  • 이러한 단점을 극복하면서도 도수 분포표와 같은 성질을 갖는 그림으로 줄기-잎 그림이 있다.
실제 측정값을 이용하여 변동이 적은 부분 줄기, 변동이 많은 부분 모양으로 나타낸 그림

 

  • 도수 분포표 또는 도수 히스토그램의 단점을 보완하는 줄기-잎 그림은 다음과 같은 특징을 갖는다.
(1) 도수 분포표도수 히스토그램이 갖고 있는 특성을 그대로 보존한다.
(2) 각 계급 안에 들어있는 개개의 측정값을 제공한다.
(3) 자료의 크기 순서로 나열하므로 중심의 위치를 알 수 있다.
(4) 자료의 분포 모양을 쉽게 알 수 있다.
(5) 자료의 수가 많은 경우에는 사용하기 불편하다.
(5) 줄기(계급)의 수를 적당히 조절하기 어렵다.

 

  • 줄기-잎 그림은 다음의 순서에 따라 그린다.
① 줄기와 잎을 구분한다. 이 때, 변동이 적은 부분을 줄기, 변동이 많은 부분을 으로 지정한다.
② 수직 방향으로 줄기 부분을 작은 수부터 순차적으로 나열하고, 양쪽에 수직선을 긋는다.
③ 각 줄기 부분에 해당하는 부분을 원자료의 관찰 순서대로 나열한다.
④ 앞 부분의 자료값을 크기 순으로 재배열한다.
⑤ 전체 자료를 크기 순으로 나열하여 중앙에 놓이는 자료값이 있는 행의 왼쪽에 괄호( )를 만들고, 괄호 안에 그 행에 해당하는 잎의 개수를 기입한다.
⑥ 괄호가 있는 행을 중심으로 괄호와 동일한 열에 누적 도수를 위와 아래 방향에서 각각 기입하고, 최소 단위자료의 전체 개수를 기입한다.

 

예 : 청소년의 핸드폰 사용 시간

(단위 : 시간)

10 37 22 32 18 15 15 18 22 15
20 25 38 28 25 30 20 22 18 22
22 12 22 26 22 32 22 23 20 23
23 20 25 51 20 25 26 22 26 28
28 20 23 30 12 22 35 11 20 25

 

  • 위의 자료를 바탕으로 줄기-잎 그림을 그려보자.
① 두 자릿수 중에서 변동이 적은 십의 자릿수 줄기, 일의 자릿수으로 정한다.
② 수직 방향으로 줄기 부분을 작은 수부터 순차적으로 나열하고, 양쪽에 수직선을 긋는다.

③ 각 줄기 부분에 해당하는 잎 부분을 원자료의 관찰 순서대로 나열한다.

잎 부분의 자료값을 크기 순으로 재배열한다.

⑤ 50개의 자료를 크기 순으로 나열할 때 중앙에 놓이는 자료값은 25번째와 26번째이므로, 제 2행 안에 놓인다. 따라서 제 2행의 왼쪽에 괄호를 만들고, 괄호 안에 그 행에 해당하는 잎의 수인 32를 기입한다.

⑥ 괄호가 있는 행을 중심으로 괄호와 동일한 열에 누적 도수를 위와 아래 방향에서 각각 기입하고, 최소 단위자료의 전체 개수를 기입한다.

그러면 간격이 10인 줄기-잎 그림이 완성되며, 이 줄기-잎 그림을 아래와 같이 왼쪽으로 90˚ 회전하면 계급 간격이 10인 도수 히스토그램을 얻는다. 이 때, 각 계급 안에 들어있는 각 자료의 정확한 값을 알 수 있다.
줄기-잎 그림을 왼쪽으로 90도 회전한 그림
한편, 잎의 부분0~4와 5~9로 세분하여 다음과 같이 계급 간격이 5인 줄기-잎 그림을 작성할 수 있다. (또한 0~2, 3~4, 5~6, 6~7, 8~9로 세분화할 수 있다.)

세분화 된 줄기-잎 그림

 

 

728x90
728x90