공부하는 블로그

[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -2. 범주형 자료 정리 본문

통계/통계학의 이해Ⅰ

[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -2. 범주형 자료 정리

young_o-o 2024. 1. 6. 14:45
728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.

K-MOOC 사이트 링크 공유합니다.


학습목표

  • 범주형 자료를 표나 그래프를 이용하여 정리하는 방법을 알아본다.

도수분포표 (Frequency table)

  • 각 범주에 몇 개의 관측개체가 있는지를정리한 표
  • 일변량 범주형자료를 정리하는데 기본이 되는 표
  • 순서자료 또는 수치자료에 대해서도 범주화하여 만들 수 있으며, 순서나 크기순으로 정렬하여 상대도수뿐만 아니라 도수나 상대도수를 누적시킨 값을 추가할 수 있다. 
    • 도수 (frequency): 범주에 속한 관측개체의 수 (=빈도)
    • 상대도수 (relative frequency):
      • 전체 자료 중 해당 범주에 속한 자료의 비율
      • 상대적으로 얼마나 그부분이 많이 차지하는지를 알아보기 위해 상대 비율을 사용한다. 이러한 상대 비율을 "상대도수"라고 하며, 상대 도수는 해당되는 범주에 얼마나 존재하는지를 비율로 나타낸 것이다. 
      • 전체 관측개체에서 해당 범주의 도수가 차지하는 비율

통계학의 이해Ⅰ 강의 자료 2-2의 페이지1

  • 상대도수에 100을 곱해 %로 표기하기도 한다.

예시)

  • 지난 1주일 동안 판매된 파이의 종류와 도수

통계학의 이해Ⅰ 강의 자료 2-2의 페이지2

  • 각각의 판매량은 "도수", 판매 비율은 "상대도수"이다. 
  • 상대도수는 얼마나 차지하는지 한눈에 파악하기 위해 비율로 표기한다.
  • '통계학의 이해' 성적분포

통계학의 이해Ⅰ 강의 자료 2-2의 페이지3

  • 해당 표는 위에서 아래로 갈수록 성적이 낮아진다. 따라서 범주형 자료에서도 순서자료이다. 
  • 순서자료일 경우 범주가 한 방향으로 진행되기 때문에 누적 인원을 함께 볼 수 있다. 
  • 예를 들어 B 이상을 받은 학생의 수는? 이런 질문에 누적 인원을 보면 한눈에 알 수 있다.
  • 따라서 순서자료일 경우 단순히, 도수, 상대도수 뿐만 아니라 누적도수와 누적상대도수도 같이 표시해주면 편리하게 데이터를 분석할 수 있다.

그래프를 이용한 자료정리

  • 대부분의 사람들은 숫자나 수식으로 설명할 때보다 그림과 같은 시각적 방법을 이용하면 이해를 잘 하는 경향이 있다.

원도표 (Pie chart)

  • 원을 먼저 그리고 원점을 기준으로 각 범주에 해당되는 비율만큼 각도를 분할하여 표시한 그래프
  1. 원에 각 범주에 해당되는 비율만큼 각도를 분할하여 표시
    • 해당 범주의 각도 = 비율 x 360
  • 원을 사용하는 이유는 각 범주의 각도와 면적의 비가 항상 동일하기 때문
    • 사각형을 각도에 따라 면적이 달라질 수 있지만, 원은 각도와 면적이 비례하여 항상 동일하기 때문에 원도표를 사용

파이판매량

  • 비율에 대한 원도표의 각도를 계산
    • 애플: 0.252 x 360 = 90.8 (각도)

통계학의 이해Ⅰ 강의 자료 2-2의 페이지9
통계학의 이해Ⅰ 강의 자료 2-2의 페이지10

  • 애플 파이와 딸기 파이의 각도가 상대적으로 큰 편에 속한다.
  • 바나나 파이의 각도가 다른 것에 비해 작다는 사실을 한눈에 알 수 있다.
    • 25%가 상대적으로 7%보다 얼마나 큰지 시각적으로 파악할 수 있다. 숫자로 나열되어 있을 때에는 2~3배 쯤이구나 라는 식의 느낌이 오지 않을 수 있지만 그림을 통해 데이터를 정리하고 얼마나 차지하는지 한눈에 상대적으로 비교할 수 있다.

나이팅게일 로즈 다이어그램 (Nightingale rose diagram)

  • 1854년 4월 ~ 1856년 3월까지 크림전쟁 이스트 지역에서 사망한 사병들의 사인(부상, 질병, 기타원인)을 분류하여 정리하였고, 각 원인별 사망자 수를 면적으로 표시했다.

통계학의 이해Ⅰ 강의 자료 2-2의 페이지12

  • 크림전쟁에서 병사들의 원인별 사망자 수를 (red: 부상, blue:질병, black:기타)로 구분하여 표기
  • 대다수의 사망 원인은 전염성 질병
    • 병원 환경 개선 필요성의 근거 자료로 활용하였음
  • 통계학적 공로를 인정받아 1859년 여성 최초로 영국 왕립 통계학회 회원과 이후 미국통계학회 명예회원으로 선출
    • 해당 자료를 시각화함으로 인해 부상이 아닌 질병에 의하여 사망자가 많다는 것을 효과적으로 보여주었고, 이를 통해 병원의 환경을 개선할 수 있도록 함

원도표의 단점

통계학의 이해Ⅰ 강의 자료 2-2의 페이지14

  • 딸기와 블루베리를 비교하고자 할 때, 숫자가 표기되어 있지 않다면 한눈에 파악하기 어려울 수 있음
  • 비교의 관점에서 본다면 면적에 비례하여 색상을 진하게 하는 등을 진행할 수 있긴 하지만 그렇게 표기가 되어있지 않다면 좋지 않은 방법
  • 따라서 비교를 목적으로 한다면 원도표보다는 막대그래프를 사용하는 것이 더 좋음

막대그래프 (Bar chart)

  • Cleveland(1985)
    • 차이(비교)에 대한 인지 순서: 동일한 척도에서의 위치, 길이. 각도와 기울기, 면적, 부피, 색상과 밀도 순서이다.
    • 따라서 비교를 하고자 할 때 원도표 보다는 길이와 위치를 기반으로한 표현이 좋다.
  • 각 범주의 도수나 상대도수를 막대의 길이로 표시한 그림
    • 동일한 척도에서의 길이 (비교 용이)

통계학의 이해Ⅰ 강의 자료 2-2의 페이지16

  • 위 원도표와 같은 데이터를 그린 막대그래프
  • 블루베리보다 딸기가 더 큰것을 눈으로도 쉽게 확인할 수 있다.

요약

  • 도수분포표는 각 범주에 몇 개의 관측개체가 있는지 정리한 표이다.
  • 도수는 범주에 속한 관측개체의 빈도이고, 상대도수는 전체 자료 중 범주에 속한 자료의 비율이다.
  • 숫자나 수식으로 하는 설명보다는 그림과 같은 시각적 방법을 이용하면 이해를 더 잘 할 수 있다. 
  • 원도표는 범주의 각도와 면적의 비가 동일하며 한눈에 데이터가 얼마나 차지하는지 확인할 수 있다.
  • 막대그래프는 범주의 도수를 막대의 길이로 표시한 것으로, 동일한 척도에서의 길이를 사용하여 비교하고자 할 때 많이 사용한다.