공부하는 블로그
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -3. 수치 자료 정리 본문
728x90
해당 글은 숙명여자대학교 여인권 교수님의
K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.
추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.
학습목표
- 수치자료를 범주화 하는 방법을 알아본다.
- 범주화된 수치자료를 표나 그래프를 이용하여 정리하는 방법을 알아본다.
도수분포표 (Frequency table)
- 수치자료에 대한 도수분포표
- 자료의 값이 몇 개로 한정된 경우에는 값을 범주로 처리한다.
- 자료를 범주화하고 도수분포표를 작성한다. (순서자료 형태로 변환)
- 도수, 상대도수 + (누적도수 또는 누적상대도수) 표시
- 관측된 값들을 몇 개의 구간으로 범주화하여 해당 그룹에 속한 관측개체의 빈도로 도수분포표로 만드는 것이다.
- Geiissler(1889): 1876~1885년 독일 Saxony의 병원 기록
- 아들 수를 기준으로 나열한 표
- 12자녀 중 모두 딸이거나 아들인 가구는 10 (0.16%)가구 [아들 수 0 + 아들 수 12]
- 딸과 아들의 수가 같은 가구는 가장 많은 1,343 (21.96%) [아들 수 6인 가구]
- 딸이 많은 가구는 2,1202 (34.67%) [아들 수 5까지의 합]
- 아들이 많은 가구는 2,518 (100-56.63 = 43.37%) [아들 수 6까지의 합을 100에서 뺀다]
- 아들이 많은 구가구 딸이 많은 가구보다 더 많다.
범주화
- 수치자료를 범주화할 땐 몇 개의 범주로 나눌 것인지와 범주의 경계값을 얼마로 할지 정해야된다.
- 자료가 특정 구간에 집중되는 경우에는 자료가 밀집된 구간을 좀 더 세분화하여 범주화하는 것이 좋다.
- 계급의 수 결정
- 제곱근 방법, Struges 공식, Rice 공식 등 (공식을 사용하여 정할 수 있다)
- 자료의 특성을 고려하여 분석자가 결정 (분석자가 결정하는 것이 정확하다)
- 계급의 경계: 간격(크기)과 시작점과 끝점 지정
- 기본적으로 동일간격
- 하지만 자료의 구조와 설명을 고려해 설정할 수 있음
- 1번처럼 34-7 = 27 → 27 / 3 = 9 → 9 간격으로 하여 범주화 진행 할 수 있고,
- 2번처럼 앞과 뒤를 포괄하여 5의 배수 형태로 나타낼 수 있음
- 통계적인 분석을 위해서는 data가 많이 있는 구간을 좀 더 세밀하게 쪼개고 data가 없는 구간은 크게 잡아도 문제가 없음
- 1억 이상의 경우 data가 적기 때문에 1억 이상으로 잡음
- 이렇게 자료의 특성을 기반으로 데이터를 범주화하면 오히려 특성을 더 잘 파악할 수 있음
- data를 전체적으로 살펴봤을 떄, 10~20사이, 30~40사이와 80이상의 data가 많지 않은 편
- 따라서 10~40으로 묶어서 표현하는 것이 더 좋다
- 밑으로 갈수록 높아지는 순서자료 형태이기 때문에 누적상대도수를 함께 표현한다.
- 취업률이 50%~60% 사이에 있는 학과가 31.0%인 13개로 가장 많고 60%~70% 학과가 두번째로 많다
- 50% 이상의 취엽률 학과의 비중은?
- 1 - 0.214(40%~50%구간의 누적상대도수) = 0.786
그래프를 이용한 자료 정리
점도표(dot plot)
- 각 관측값의 위치에 점을 표시하고 같은 관측값이 있는 경우 누적
- ex) 통계학과 취업
히스토그램(Histogram)
- 히스토그램은 수치자료 중에서도 특히 연속자료의 분포형태를 표시
- 해당 구간의 상대도수, 즉 비율을 직사각형의 면적으로 표시한 것
- 히스토그램 vs 막대그래프
- 구간이 같다면 차이가 없고, 구간이 다르다면 차이가 존재
- 계급의 상대도수를 사각형의 면적으로 표시
- 전체면적 = 1
- 높이 = 상대도수/계급구간길이 = 밀도(density)
- 밀도는 해당 구간에 자료들이 얼마나 모여 있는지를 나타내는 측도
- 막대그래프와의 가장 큰 차이점은 계급구간길이가 반영된다는 것
- 막대그래프는 y축을 상대도수, 히스토그램은 밀도로 표현을 많이함
- 50%~60%인 학과가 가장 많음
- 대부분이 40%에서 80%에 있음
- 히스토그램은 구간 설정에 따라 모양이 조금씩 달라진다.
- 예) 10%~40%를 15%~40%로 변경할 경우 밀도는 0.0024에서 0.0029로 변경된다.
- 예) [,) 이상, 미만에서 (,] 초과, 이하로 변경시 50.0, 80.0의 소속 계급이 바뀐다.
- 이러한 문제점이 존재하긴 하지만 데이터의 특성을 잘 표현해주는 그림이다.
밀도추정(density estimation)
- 계급을 정하지 않고 히스토그램과 같이 전체 면적이 1이 되게 하는 방법을 사용하기도 한다.
- 각각의 관측값을 면적이 1/n인 사각형으로 표시하여 해당 지점에 표시를 하고 사각형이 겹쳐지는 부분이 있으면 누젹시켜 표시하는 방법이다.
- 상좌 그림의 경우 폭이 10이고 높이가 1/(10 x 42)인 사각형들을 테트리스처럼 누적시킨 그림
- 상우 그림의 경우 폭이 20이고 높이가 1/(20 x 42)인 사각형을 적용한 그림
- 하좌 그림과 하우 그림은 사각형 대신 종 모양의 도형을 사용하였으며, 하좌는 폭이 좁은 도형, 하우는 폭이 넓은 도형을 사용한 것이다.
- 이와 같이 각 관측값에 적용된 도형의 모양과 폭에 따라 형태가 달라질 수 있는데 자세한 것은 '비모수통계학'에서 다룬다.
줄기-잎 그림(stem-and-leaf plot)
- 관측값의 정보를 그대로 간직하면서 자료의 분포를 알려주는 그림
- 히스토그램은 전체적인 분포의 형태를 파악할 수 있지만 그림을 그리면서 개별적인 데이터가 사라지고 확인할 수 없다. 이를 극복할 수 있는 그림
- 줄기-잎 그림 그리기
- 자료를 순서대로 정렬
- 줄기에는 기본단위의 10배의 값을 표시
- 잎에는 관측값의 기본단위에 해당되는 값을 표시
- 자료가 많은 경우 즐기를 5단위로 자름(0~4, 5~9)
- data의 10의 자리가 줄기, 1의 자리가 잎이 되는 형태
- 1의 자리를 보며 41은 3개가 존재하는 구나를 알 수 있음
- 전체적인 data의 분포를 시각적으로 확인할 수 있음
요약
- 수지차료를 표로 정리할 때 우선 범주화를 하고, 범주에 따라 도수, 상대도수, 누적도수, 누적상대도수로 나타낸다.
- 수치자료의 도수분포표를 생성할 때에는 계급의 수와 경계를 결정해야 된다.
- 히스토그램은 막대그래프와 다르게 전체 면적을 1로 보고 계급구간길이를 반영하여 높이를 밀도로 표현한다.
- 줄기-잎 그림은 개별 데이터를 확인할 수 있으며 전체적은 분포 형태도 볼 수 있다.
'통계 > 통계학의 이해Ⅰ' 카테고리의 다른 글
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -1. 수치자료 분포의 중심위치 - 평균 (0) | 2024.01.13 |
---|---|
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -4. 기술통계 실습 (R)-과제 (0) | 2024.01.06 |
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -2. 범주형 자료 정리 (0) | 2024.01.06 |
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -1. 자료의 분류와 특성 (0) | 2024.01.01 |
[통계학의 이해Ⅰ] 1주차 통계학이란? -4. 통계프로그램(R) 안내 및 과제 (2) | 2024.01.01 |