728x90
728x90
양적 자료의 정리
- 수집한 양적 자료의 특성을 알기 쉽게 정리하기 위해 개개의 측정값을 이용하거나 적당한 구간으로 집단화하여 표 또는 그림으로 표현할 수 있다.
점도표(Dot Plot)
- 질적 자료에서 사용한 점도표는 양적 자료에도 사용할 수 있다.
- 점도표는 다음과 같은 특성을 갖는다.
(1) 각 자료의 정확한 측정값을 알 수 있다.
(2) 전체 자료의 흩어진 분포 모양을 알 수 있다.
(3) 관찰값의 수만큼 점을 찍어서 나타내므로 자료의 수가 많으면 부적절하다.
도수 분포표(Frequency Distribution Table)
- 양적 자료를 일정한 간격으로 묶어서 집단화하는 방법으로 도수 분포표를 사용한다.
양적 자료를 적당한 간격으로 집단화하여 계급, 도수, 상대 도수, 누적 도수, 누적 상대 도수, 계급값 등을 기입한 표
- 양적 자료를 집단화하여 도수 분포표를 작성하면, 다음과 같은 전체 자료가 갖는 특성을 좀더 쉽게 이해할 수 있다.
(1) 전체 자료에 대한 대략적인 중심의 위치를 알 수 있다.
(2) 전체 자료의 흩어진 분포 모양을 대략적으로 알 수 있다.
(3) 극단적으로 관찰된 자료값을 대략적으로 알 수 있다.
(4) 각 계급 안에 들어있는 정확한 측정값을 알 수 없다.
- 이 떄, 극단적으로 관찰되는 자료값을 특이값(Outlier)이라 하며, 매우 특별한 경우에 관찰되는 값이거나 관찰값의 기입에 오류를 범한 자료값으로 생각할 수 있다.
- 도수 분포표에 기입하는 사항들을 정리하면 다음과 같다.
- 계급(Class) : 양적 자료를 일정한 간격으로 나눈 구간
- 계급 간격(Class Width) : 각 계급의 너비
- 누적 도수(Cumulative Frequency) : 이전 계급까지의 모든 도수를 합한 도수
- 누적 상대 도수(Cumulative Relative Frequency) : 이전 계급까지의 모든 상대 도수를 합한 상대 도수
- 계급값(Class Mark) : 각 계급의 중앙값, 즉 다음에 의해 결정되는 수치
$\displaystyle \text{계급값} = \frac{\text{각 계급의 양 끝값의 합}}{2}$
- 중학교 과정의 수학에서는 도수 분포표를 작성할 때 이웃하는 계급들의 양 끝값이 중복되지 않도록 '$\text{30}^{\text{이상}} ∽ \text{40}^{\text{미만}}$' 과 같은 표현을 사용하였다.
- 하지만, 도수 분포표를 작성할 때, 이상, 미만을 사용하기 보다는 양 끝값보다 0.5 만큼 작은 수를 사용하는 것이 좋다.
- '29.5 ~ 39.5' 와 같이 계급의 양 끝값인 30과 40보다 0.5 만큼 작게 계급을 정하면, 이 계급은 30 이상부터 40 미만까지의 자료값으로 나타낼 수 있다.
- 도수 분포표는 다음 순서에 따라 작성한다.
① 계급의 수 `k` 를 적당히 정한다.
② $R$ = 최대 측정값 - 최소 측정값 을 구한다.
③ 계급의 간격을 결정한다. 이 때, 계급 간격은 `R` 을 계급의 수 `k` 로 나눈 값보다 큰 가장 작은 정수로 택한다.
$\displaystyle w \approx \frac{R}{k}$
④ 제 1계급에서 왼쪽 끝값을 최소 측정값보다 0.5 만큼 작은 수를 이용하여 간격이 `w` 인 계급을 작성한다.
⑤ 도수 분포표 안에 각 계급의 도수, 상대 도수, 누적 도수, 누적 상대 도수, 계급값 등을 기입한다.
예 : 청소년의 핸드폰 사용 시간
(단위 : 시간)
10 | 37 | 22 | 32 | 18 | 15 | 15 | 18 | 22 | 15 |
20 | 25 | 38 | 28 | 25 | 30 | 20 | 22 | 18 | 22 |
22 | 12 | 22 | 26 | 22 | 32 | 22 | 23 | 20 | 23 |
23 | 20 | 25 | 51 | 20 | 25 | 26 | 22 | 26 | 28 |
28 | 20 | 23 | 30 | 12 | 22 | 35 | 11 | 20 | 25 |
- 계급의 수(`k`)가 5인 도수 분포표를 만들어보자.
① 계급의 수가 5인 도수 분포표이므로 `k = 5` 이다.
② 최대 측정값이 51이고 최소 측정값이 10이므로 `R` = 51 - 10 = 41 이다.
③ $\frac{41}{5} = 8.2$ 이므로, 계급의 간격은 `w = 9` 를 택한다.
④ 최소 측정값이 10이므로 제 1계급에서 왼쪽 끝값을 9.5로 정하고, 간격이 9인 계급을 작성한다.
⑤ 도수 분포표 안에 각 계급에 해당하는 도수, 상대 도수, 누적 도수, 누적 상대 도수, 계급값 등을 기입한다.
계급 간격 | 도수 | 상대 도수 | 누적 도수 | 누적 상대 도수 | 계급값 |
9.5 ~ 18.5 | 10 | 0.20 | 10 | 0.20 | 14 |
18.5 ~ 27.5 | 29 | 0.58 | 39 | 0.78 | 23 |
27.5 ~ 36.5 | 8 | 0.16 | 47 | 0.94 | 32 |
36.5 ~ 45.5 | 2 | 0.04 | 49 | 0.98 | 41 |
45.5 ~ 54.5 | 1 | 0.02 | 50 | 1.00 | 50 |
합계 | 50 | 1.00 |
※ 계급값 = (계급 간격 왼쪽의 값 + 계급 간격 오른쪽의 값) / 2
도수 히스토그램(Frequency Histogram)
- 도수 분포표로 정리한 자료를 시각적으로 쉽게 이해할 수 있도록 그린 것을 히스토그램(Histogram)이라 한다.
수평축에 도수 분포표의 계급 구간을 나타내고, 수직 방향으로 각 계급에 대응하는 도수를 높이로 갖는 사각형으로 나타낸 그림
- 막대 그래프는 각 범주를 중심으로 간격이 떨어지는 막대 모양이지만, 히스토그램은 각 계급을 나타내는 막대의 양 끝이 겹치게 된다.
- 이 때, 각 계급을 나타내는 막대의 중심은 계급값이고, 계급 간격이 일정하므로 막대의 넓이는 각 계급의 도수에 비례한다.
- 히스토그램은 도수 분포표에 비해 다음과 같은 장점이 있다.
(1) 대략적인 중심의 위치를 알 수 있다.
(2) 수집한 자료의 흩어진 모양을 쉽게 알 수 있다.
- 수직축에 상대 도수 또는 누적 도수와 누적 상대 도수를 기입할 수 있으며, 이런 히스토그램을 각각 상대 도수 히스토그램, 누적 도수 히스토그램, 누적 상대 도수 히스토그램이라고 한다.
도수 다각형(Frequency Polygon)
- 2개 이상의 자료 집단으로 주어진 질적 자료를 비교하기 위해 꺾은선 그래프를 이용했다.
- 이와 동일하게 2개 이상의 자료 집단에 의한 양적 자료를 비교하기 위해 도수 다격형을 사용할 수 있다.
히스토그램에서 연속적인 막대의 상단 중심부를 선분으로 연결하여 다각형으로 표현한 그림
- 도수 다각형을 그릴 때, 첫 번째와 마지막 계급의 아래와 위에 각각 도수 0인 계급이 있다고 가정하고 선분을 연결한다.
- 도수 다각형은 2개 이상의 자료 집단에 대한 분포 모양을 비교하는 데 널리 사용한다.
- 이 때, 수직축에 도수, 상대 도수 또는 누적 도수와 누적 상대 도수를 기입할 수 있으며, 이러한 도수 다각형을 각각 도수 다각형, 상대 도수 다각형, 누적 도수 다각형, 누적 상대 도수 다각형이라 한다.
줄기-잎 그림(Stem-Leaf Display)
- 도수 분포표나 도수 히스토그램은 수집한 자료의 분포 모양을 제공하지만, 개개의 자료값에 대한 정보를 제공하지 못한다는 단점이 있다.
- 이러한 단점을 극복하면서도 도수 분포표와 같은 성질을 갖는 그림으로 줄기-잎 그림이 있다.
실제 측정값을 이용하여 변동이 적은 부분은 줄기, 변동이 많은 부분은 잎 모양으로 나타낸 그림
- 도수 분포표 또는 도수 히스토그램의 단점을 보완하는 줄기-잎 그림은 다음과 같은 특징을 갖는다.
(1) 도수 분포표나 도수 히스토그램이 갖고 있는 특성을 그대로 보존한다.
(2) 각 계급 안에 들어있는 개개의 측정값을 제공한다.
(3) 자료의 크기 순서로 나열하므로 중심의 위치를 알 수 있다.
(4) 자료의 분포 모양을 쉽게 알 수 있다.
(5) 자료의 수가 많은 경우에는 사용하기 불편하다.
(5) 줄기(계급)의 수를 적당히 조절하기 어렵다.
- 줄기-잎 그림은 다음의 순서에 따라 그린다.
① 줄기와 잎을 구분한다. 이 때, 변동이 적은 부분을 줄기, 변동이 많은 부분을 잎으로 지정한다.
② 수직 방향으로 줄기 부분을 작은 수부터 순차적으로 나열하고, 양쪽에 수직선을 긋는다.
③ 각 줄기 부분에 해당하는 잎 부분을 원자료의 관찰 순서대로 나열한다.
④ 앞 부분의 자료값을 크기 순으로 재배열한다.
⑤ 전체 자료를 크기 순으로 나열하여 중앙에 놓이는 자료값이 있는 행의 왼쪽에 괄호( )를 만들고, 괄호 안에 그 행에 해당하는 잎의 개수를 기입한다.
⑥ 괄호가 있는 행을 중심으로 괄호와 동일한 열에 누적 도수를 위와 아래 방향에서 각각 기입하고, 최소 단위와 자료의 전체 개수를 기입한다.
예 : 청소년의 핸드폰 사용 시간
(단위 : 시간)
10 | 37 | 22 | 32 | 18 | 15 | 15 | 18 | 22 | 15 |
20 | 25 | 38 | 28 | 25 | 30 | 20 | 22 | 18 | 22 |
22 | 12 | 22 | 26 | 22 | 32 | 22 | 23 | 20 | 23 |
23 | 20 | 25 | 51 | 20 | 25 | 26 | 22 | 26 | 28 |
28 | 20 | 23 | 30 | 12 | 22 | 35 | 11 | 20 | 25 |
- 위의 자료를 바탕으로 줄기-잎 그림을 그려보자.
① 두 자릿수 중에서 변동이 적은 십의 자릿수를 줄기, 일의 자릿수를 잎으로 정한다.
② 수직 방향으로 줄기 부분을 작은 수부터 순차적으로 나열하고, 양쪽에 수직선을 긋는다.
③ 각 줄기 부분에 해당하는 잎 부분을 원자료의 관찰 순서대로 나열한다.
④ 잎 부분의 자료값을 크기 순으로 재배열한다.
⑤ 50개의 자료를 크기 순으로 나열할 때 중앙에 놓이는 자료값은 25번째와 26번째이므로, 제 2행 안에 놓인다. 따라서 제 2행의 왼쪽에 괄호를 만들고, 괄호 안에 그 행에 해당하는 잎의 수인 32를 기입한다.
⑥ 괄호가 있는 행을 중심으로 괄호와 동일한 열에 누적 도수를 위와 아래 방향에서 각각 기입하고, 최소 단위와 자료의 전체 개수를 기입한다.
그러면 간격이 10인 줄기-잎 그림이 완성되며, 이 줄기-잎 그림을 아래와 같이 왼쪽으로 90˚ 회전하면 계급 간격이 10인 도수 히스토그램을 얻는다. 이 때, 각 계급 안에 들어있는 각 자료의 정확한 값을 알 수 있다.
한편, 잎의 부분을 0~4와 5~9로 세분하여 다음과 같이 계급 간격이 5인 줄기-잎 그림을 작성할 수 있다. (또한 0~2, 3~4, 5~6, 6~7, 8~9로 세분화할 수 있다.)
728x90
728x90
'Mathematics > 확률과 통계' 카테고리의 다른 글
[확률과 통계] 도수 분포표에서의 평균과 분산 (1) | 2022.10.11 |
---|---|
[확률과 통계] 위치 척도와 상자 그림 (0) | 2022.10.11 |
[확률과 통계] 산포도 (1) | 2022.10.10 |
[확률과 통계] 대푯값 (0) | 2022.10.10 |
[확률과 통계] 질적 자료의 정리 (0) | 2022.10.04 |
[확률과 통계] 자료의 종류 (0) | 2022.10.03 |
[확률과 통계] 적분법 (1) | 2022.10.03 |
[확률과 통계] 미분법 (0) | 2022.09.27 |