[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -3. 수치 자료 정리

Notice

Recent Posts

Recent Comments

Link

여보 블로그

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

공부하는 블로그

[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -3. 수치 자료 정리 본문

통계/통계학의 이해Ⅰ

[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -3. 수치 자료 정리

young_o-o 2024. 1. 6. 16:29

728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.

K-MOOC 사이트 링크 공유합니다.

학습목표

수치자료를 범주화 하는 방법을 알아본다.
범주화된 수치자료를 표나 그래프를 이용하여 정리하는 방법을 알아본다.

도수분포표 (Frequency table)

수치자료에 대한 도수분포표
- 자료의 값이 몇 개로 한정된 경우에는 값을 범주로 처리한다.
- 자료를 범주화하고 도수분포표를 작성한다. (순서자료 형태로 변환)
- 도수, 상대도수 + (누적도수 또는 누적상대도수) 표시
- 관측된 값들을 몇 개의 구간으로 범주화하여 해당 그룹에 속한 관측개체의 빈도로 도수분포표로 만드는 것이다.
Geiissler(1889): 1876~1885년 독일 Saxony의 병원 기록

아들 수를 기준으로 나열한 표
12자녀 중 모두 딸이거나 아들인 가구는 10 (0.16%)가구 [아들 수 0 + 아들 수 12]
딸과 아들의 수가 같은 가구는 가장 많은 1,343 (21.96%) [아들 수 6인 가구]
딸이 많은 가구는 2,1202 (34.67%) [아들 수 5까지의 합]
아들이 많은 가구는 2,518 (100-56.63 = 43.37%) [아들 수 6까지의 합을 100에서 뺀다]
아들이 많은 구가구 딸이 많은 가구보다 더 많다.

범주화

수치자료를 범주화할 땐 몇 개의 범주로 나눌 것인지와 범주의 경계값을 얼마로 할지 정해야된다.
자료가 특정 구간에 집중되는 경우에는 자료가 밀집된 구간을 좀 더 세분화하여 범주화하는 것이 좋다.
계급의 수 결정
- 제곱근 방법, Struges 공식, Rice 공식 등 (공식을 사용하여 정할 수 있다)
- 자료의 특성을 고려하여 분석자가 결정 (분석자가 결정하는 것이 정확하다)
계급의 경계: 간격(크기)과 시작점과 끝점 지정
- 기본적으로 동일간격
- 하지만 자료의 구조와 설명을 고려해 설정할 수 있음

1번처럼 34-7 = 27 → 27 / 3 = 9 → 9 간격으로 하여 범주화 진행 할 수 있고,
2번처럼 앞과 뒤를 포괄하여 5의 배수 형태로 나타낼 수 있음

통계적인 분석을 위해서는 data가 많이 있는 구간을 좀 더 세밀하게 쪼개고 data가 없는 구간은 크게 잡아도 문제가 없음
- 1억 이상의 경우 data가 적기 때문에 1억 이상으로 잡음
- 이렇게 자료의 특성을 기반으로 데이터를 범주화하면 오히려 특성을 더 잘 파악할 수 있음

data를 전체적으로 살펴봤을 떄, 10~20사이, 30~40사이와 80이상의 data가 많지 않은 편
- 따라서 10~40으로 묶어서 표현하는 것이 더 좋다

밑으로 갈수록 높아지는 순서자료 형태이기 때문에 누적상대도수를 함께 표현한다.
취업률이 50%~60% 사이에 있는 학과가 31.0%인 13개로 가장 많고 60%~70% 학과가 두번째로 많다
50% 이상의 취엽률 학과의 비중은?
- 1 - 0.214(40%~50%구간의 누적상대도수) = 0.786

그래프를 이용한 자료 정리

점도표(dot plot)

각 관측값의 위치에 점을 표시하고 같은 관측값이 있는 경우 누적
ex) 통계학과 취업

히스토그램(Histogram)

히스토그램은 수치자료 중에서도 특히 연속자료의 분포형태를 표시
해당 구간의 상대도수, 즉 비율을 직사각형의 면적으로 표시한 것
히스토그램 vs 막대그래프
- 구간이 같다면 차이가 없고, 구간이 다르다면 차이가 존재
계급의 상대도수를 사각형의 면적으로 표시
- 전체면적 = 1
- 높이 = 상대도수/계급구간길이 = 밀도(density)
  - 밀도는 해당 구간에 자료들이 얼마나 모여 있는지를 나타내는 측도
  - 막대그래프와의 가장 큰 차이점은 계급구간길이가 반영된다는 것
  - 막대그래프는 y축을 상대도수, 히스토그램은 밀도로 표현을 많이함

50%~60%인 학과가 가장 많음
대부분이 40%에서 80%에 있음
히스토그램은 구간 설정에 따라 모양이 조금씩 달라진다.
- 예) 10%~40%를 15%~40%로 변경할 경우 밀도는 0.0024에서 0.0029로 변경된다.
- 예) [,) 이상, 미만에서 (,] 초과, 이하로 변경시 50.0, 80.0의 소속 계급이 바뀐다.
- 이러한 문제점이 존재하긴 하지만 데이터의 특성을 잘 표현해주는 그림이다.

밀도추정(density estimation)

계급을 정하지 않고 히스토그램과 같이 전체 면적이 1이 되게 하는 방법을 사용하기도 한다.
각각의 관측값을 면적이 1/n인 사각형으로 표시하여 해당 지점에 표시를 하고 사각형이 겹쳐지는 부분이 있으면 누젹시켜 표시하는 방법이다.
상좌 그림의 경우 폭이 10이고 높이가 1/(10 x 42)인 사각형들을 테트리스처럼 누적시킨 그림
상우 그림의 경우 폭이 20이고 높이가 1/(20 x 42)인 사각형을 적용한 그림
하좌 그림과 하우 그림은 사각형 대신 종 모양의 도형을 사용하였으며, 하좌는 폭이 좁은 도형, 하우는 폭이 넓은 도형을 사용한 것이다.
이와 같이 각 관측값에 적용된 도형의 모양과 폭에 따라 형태가 달라질 수 있는데 자세한 것은 '비모수통계학'에서 다룬다.

줄기-잎 그림(stem-and-leaf plot)

관측값의 정보를 그대로 간직하면서 자료의 분포를 알려주는 그림
히스토그램은 전체적인 분포의 형태를 파악할 수 있지만 그림을 그리면서 개별적인 데이터가 사라지고 확인할 수 없다. 이를 극복할 수 있는 그림
줄기-잎 그림 그리기
- 자료를 순서대로 정렬
- 줄기에는 기본단위의 10배의 값을 표시
- 잎에는 관측값의 기본단위에 해당되는 값을 표시
- 자료가 많은 경우 즐기를 5단위로 자름(0~4, 5~9)

data의 10의 자리가 줄기, 1의 자리가 잎이 되는 형태
1의 자리를 보며 41은 3개가 존재하는 구나를 알 수 있음
전체적인 data의 분포를 시각적으로 확인할 수 있음

요약

수지차료를 표로 정리할 때 우선 범주화를 하고, 범주에 따라 도수, 상대도수, 누적도수, 누적상대도수로 나타낸다.
수치자료의 도수분포표를 생성할 때에는 계급의 수와 경계를 결정해야 된다.
히스토그램은 막대그래프와 다르게 전체 면적을 1로 보고 계급구간길이를 반영하여 높이를 밀도로 표현한다.
줄기-잎 그림은 개별 데이터를 확인할 수 있으며 전체적은 분포 형태도 볼 수 있다.

'통계 > 통계학의 이해Ⅰ' 카테고리의 다른 글

[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -1. 수치자료 분포의 중심위치 - 평균 (0)	2024.01.13
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -4. 기술통계 실습 (R)-과제 (0)	2024.01.06
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -2. 범주형 자료 정리 (0)	2024.01.06
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -1. 자료의 분류와 특성 (0)	2024.01.01
[통계학의 이해Ⅰ] 1주차 통계학이란? -4. 통계프로그램(R) 안내 및 과제 (2)	2024.01.01

'통계/통계학의 이해Ⅰ' Related Articles

공부하는 블로그

[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -3. 수치 자료 정리 본문

[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -3. 수치 자료 정리

도수분포표 (Frequency table)

범주화

그래프를 이용한 자료 정리

'통계 > 통계학의 이해Ⅰ' 카테고리의 다른 글

티스토리툴바