공부하는 블로그

[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -3. 수치 자료 정리 본문

통계/통계학의 이해Ⅰ

[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -3. 수치 자료 정리

young_o-o 2024. 1. 6. 16:29
728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.

K-MOOC 사이트 링크 공유합니다.


학습목표

  • 수치자료를 범주화 하는 방법을 알아본다.
  • 범주화된 수치자료를 표나 그래프를 이용하여 정리하는 방법을 알아본다.

도수분포표 (Frequency table)

  • 수치자료에 대한 도수분포표
    • 자료의 값이 몇 개로 한정된 경우에는 값을 범주로 처리한다.
    • 자료를 범주화하고 도수분포표를 작성한다. (순서자료 형태로 변환)
    • 도수, 상대도수 + (누적도수 또는 누적상대도수) 표시
    • 관측된 값들을 몇 개의 구간으로 범주화하여 해당 그룹에 속한 관측개체의 빈도로 도수분포표로 만드는 것이다.
  • Geiissler(1889): 1876~1885년 독일 Saxony의 병원 기록

통계학의 이해Ⅰ 강의 자료 2-3의 페이지2

  • 아들 수를 기준으로 나열한 표
  • 12자녀 중 모두 딸이거나 아들인 가구는 10 (0.16%)가구 [아들 수 0 + 아들 수 12]
  • 딸과 아들의 수가 같은 가구는 가장 많은 1,343 (21.96%) [아들 수 6인 가구]
  • 딸이 많은 가구는 2,1202 (34.67%) [아들 수 5까지의 합]
  • 아들이 많은 가구는 2,518 (100-56.63 = 43.37%) [아들 수 6까지의 합을 100에서 뺀다]
  • 아들이 많은 구가구 딸이 많은 가구보다 더 많다.

범주화

  • 수치자료를 범주화할 땐 몇 개의 범주로 나눌 것인지와 범주의 경계값을 얼마로 할지 정해야된다.
  •  자료가 특정 구간에 집중되는 경우에는 자료가 밀집된 구간을 좀 더 세분화하여 범주화하는 것이 좋다.
  • 계급의 수 결정
    • 제곱근 방법, Struges 공식, Rice 공식 등 (공식을 사용하여 정할 수 있다)
    • 자료의 특성을 고려하여 분석자가 결정 (분석자가 결정하는 것이 정확하다)
  • 계급의 경계: 간격(크기)과 시작점과 끝점 지정
    • 기본적으로 동일간격
    • 하지만 자료의 구조와 설명을 고려해 설정할 수 있음

통계학의 이해Ⅰ 강의 자료 2-3의 페이지5

  • 1번처럼 34-7 = 27 → 27 / 3 = 9 → 9 간격으로 하여 범주화 진행 할 수 있고,
  • 2번처럼 앞과 뒤를 포괄하여 5의 배수 형태로 나타낼 수 있음

통계학의 이해Ⅰ 강의 자료 2-3의 페이지5

  • 통계적인 분석을 위해서는 data가 많이 있는 구간을 좀 더 세밀하게 쪼개고 data가 없는 구간은 크게 잡아도 문제가 없음
    • 1억 이상의 경우 data가 적기 때문에 1억 이상으로 잡음
    • 이렇게  자료의 특성을 기반으로 데이터를 범주화하면 오히려 특성을 더 잘 파악할 수 있음

통계학의 이해Ⅰ 강의 자료 2-3의 페이지6

  • data를 전체적으로 살펴봤을 떄, 10~20사이, 30~40사이와 80이상의 data가 많지 않은 편
    • 따라서 10~40으로 묶어서 표현하는 것이 더 좋다

통계학의 이해Ⅰ 강의 자료 2-3의 페이지7

  • 밑으로 갈수록 높아지는 순서자료 형태이기 때문에 누적상대도수를 함께 표현한다.
  • 취업률이 50%~60% 사이에 있는 학과가 31.0%인 13개로 가장 많고 60%~70% 학과가 두번째로 많다
  • 50% 이상의 취엽률 학과의 비중은? 
    • 1 - 0.214(40%~50%구간의 누적상대도수) = 0.786

그래프를 이용한 자료 정리

점도표(dot plot)

  • 관측값의 위치에 점을 표시하고 같은 관측값이 있는 경우 누적
  • ex) 통계학과 취업

통계학의 이해Ⅰ 강의 자료 2-3의 페이지8

히스토그램(Histogram)

  • 히스토그램은 수치자료 중에서도 특히 연속자료의 분포형태를 표시
  • 해당 구간의 상대도수, 즉 비율을 직사각형의 면적으로 표시한 것
  • 히스토그램 vs 막대그래프
    • 구간이 같다면 차이가 없고, 구간이 다르다면 차이가 존재
  • 계급의 상대도수를 사각형의 면적으로 표시
    • 전체면적 = 1 
    • 높이 = 상대도수/계급구간길이 = 밀도(density)
      • 밀도는 해당 구간에 자료들이 얼마나 모여 있는지를 나타내는 측도
      • 막대그래프와의 가장 큰 차이점은 계급구간길이가 반영된다는 것
      • 막대그래프는 y축을 상대도수, 히스토그램은 밀도로 표현을 많이함

통계학의 이해Ⅰ 강의 자료 2-3의 페이지10
통계학의 이해Ⅰ 강의 자료 2-3의 페이지11

  • 50%~60%인 학과가 가장 많음
  • 대부분이 40%에서 80%에 있음
  • 히스토그램은 구간 설정에 따라 모양이 조금씩 달라진다.
    • 예) 10%~40%를 15%~40%로 변경할 경우 밀도는 0.0024에서 0.0029로 변경된다.
    • 예) [,) 이상, 미만에서 (,] 초과, 이하로 변경시 50.0, 80.0의 소속 계급이 바뀐다.
    • 이러한 문제점이 존재하긴 하지만 데이터의 특성을 잘 표현해주는 그림이다.

밀도추정(density estimation)

통계학의 이해Ⅰ 강의 자료 2-3의 페이지13

  • 계급을 정하지 않고 히스토그램과 같이 전체 면적이 1이 되게 하는 방법을 사용하기도 한다.
  • 각각의 관측값을 면적이 1/n인 사각형으로 표시하여 해당 지점에 표시를 하고 사각형이 겹쳐지는 부분이 있으면 누젹시켜 표시하는 방법이다.
  • 상좌 그림의 경우 폭이 10이고 높이가 1/(10 x 42)인 사각형들을 테트리스처럼 누적시킨 그림
  • 상우 그림의 경우 폭이 20이고 높이가 1/(20 x 42)인 사각형을 적용한 그림
  • 하좌 그림과 하우 그림은 사각형 대신 종 모양의 도형을 사용하였으며, 하좌는 폭이 좁은 도형, 하우는 폭이 넓은 도형을 사용한 것이다.
  • 이와 같이 각 관측값에 적용된 도형의 모양과 폭에 따라 형태가 달라질 수 있는데 자세한 것은 '비모수통계학'에서 다룬다.

줄기-잎 그림(stem-and-leaf plot)

  • 관측값의 정보를 그대로 간직하면서 자료의 분포를 알려주는 그림
  • 히스토그램은 전체적인 분포의 형태를 파악할 수 있지만 그림을 그리면서 개별적인 데이터가 사라지고 확인할 수 없다. 이를 극복할 수 있는 그림
  • 줄기-잎 그림 그리기
    • 자료를 순서대로 정렬
    • 줄기에는 기본단위의 10배의 값을 표시
    • 잎에는 관측값의 기본단위에 해당되는 값을 표시
    • 자료가 많은 경우 즐기를 5단위로 자름(0~4, 5~9)

통계학의 이해Ⅰ 강의 자료 2-3의 페이지15

  • data의 10의 자리가 줄기, 1의 자리가 잎이 되는 형태
  • 1의 자리를 보며 41은 3개가 존재하는 구나를 알 수 있음
  • 전체적인 data의 분포를 시각적으로 확인할 수 있음

 


요약

  • 수지차료를 표로 정리할 때 우선 범주화를 하고, 범주에 따라 도수, 상대도수, 누적도수, 누적상대도수로 나타낸다.
  • 수치자료의 도수분포표를 생성할 때에는 계급의 수와 경계를 결정해야 된다.
  • 히스토그램은 막대그래프와 다르게 전체 면적을 1로 보고 계급구간길이를 반영하여 높이를 밀도로 표현한다.
  • 줄기-잎 그림은 개별 데이터를 확인할 수 있으며 전체적은 분포 형태도 볼 수 있다.