공부하는 블로그

[통계학의 이해Ⅰ] 4주차 다변량 자료 기술통계 -1. 분할표와 그래프 본문

통계/통계학의 이해Ⅰ

[통계학의 이해Ⅰ] 4주차 다변량 자료 기술통계 -1. 분할표와 그래프

young_o-o 2024. 1. 15. 00:08
728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.

K-MOOC 사이트 링크 공유합니다.


학습목표

  • 다변량 범주형 자료를 표나 그래프를 이용하여 정리하는 방법을 알아본다.

변수(자료) 형태

통계학의 이해Ⅰ 강의 자료 4-1의 페이지1

  • 1번일 경우 비교를 하는데, x에 따라 y의 빈도 또는 비율에 차이가 있는지 확인할 수 있다.
  • 2번일 경우 비교에 목적을 두고 x 에 따라 평균이나 분산에 차이가 있는지 확인할 수 있다.
  • 2번과 3번은 또한 분류에 목적을 두고 분석할 수 있다.
  • 4번의 경우 관계를 확인하기 위한 목적을 두고 x와 y의 수치적 관계를 확인할 수 있다.
  •  분석목적
    • 비교: X에 따라 Y에 차이가 있는가?
    • 관계: X와 Y가 관련이 있는가? X가 Y에 영향을 주는가?
    • 분류: X에 따라 Y를 분류할 수 있는가? X,Y가 비슷한 것끼리 묶을 수 있는가?
  • 이처럼 다변량 자료일 경우 변수의 형태와 분석 목적에 따라 분석하는 방법이 달라진다.

분할표(cotingency table)

  • 두 개 이상의 변수를 동시에 고려하여 각각의 범주에 관측개체의 빈도를 정리한 교차표(cross tabulation)

통계학의 이해Ⅰ 강의 자료 4-1의 페이지2

  • 칸(cell): 각 범주에 교차되는 부분
  • 행과 열의 범주 수를 같이 표시하여 위와 같은 표를 2x4 분할표라고 한다.
  • 분할표에도 비율을 표시할 수 있는데, 비율을 표시할 때에는 분석 목적 또는 자료를 어떻게 수집했는가에 따라 다르게 표시된다.

분할표 예시

  • 세 가지 스마트폰 모델에 대한 남녀별로 선호도 비교
    • 남자 76명과 여자 70명을 대상으로 세 가지 모델(A, B, C) 중 가장 마음에 다는 모델을 선택

통계학의 이해Ⅰ 강의 자료 4-1의 페이지3
통계학의 이해Ⅰ 강의 자료 4-1의 페이지4

비율(상대도수)표시

  • 분모
    • 성별 합계 (76, 70)
    • 스마트폰 모델별 합계 (56, 56, 38)
    • 전체 합 (146)
  • 비율은 분석 목적 또는 자료가 어떻게 수집되었는지에 따라 다르게 표시
    • 분석 목적은 선호도에서 남녀 간 차이 여부
    • 따라서 남자 중 각각의 모델을 선호한 비율과 여자 중 각각의 모델을 선호한 비율을 비교해야된다.

통계학의 이해Ⅰ 강의 자료 4-1의 페이지6
통계학의 이해Ⅰ 강의 자료 4-1의 페이지7

  • 성별에 따른 선호도 차이를 조사하는 것이 아닌, 146명을 무작위로 조사한 경우 146을 기준으로 비율을 표시해야된다.

수치자료의 분할표

  • 수치자료를 범주화하고 분할표를 작성한다.
    • 부자의 신장: 165, 170, 175, 180을 기준으로 범주화

통계학의 이해Ⅰ 강의 자료 4-1의 페이지8

  • 순서자료의 크기 순서대로 밑에서 위로, 왼쪽에서 오른쪽으로 갈수록 커지게 표시를 해주면 2차원 그래프 x, y축과 동일한 형태로 그릴 수 있기 때문에 대략적인 관계도 확인이 가능하다.
    • 해당 자료에서는 아버지가 크면 아들이 큰 경향이 있다는 것을 표이지만 시각적으로 확인 가능하다.

k차원 분할표(k-dimensional contingency table)

  • 3개 이상의 범주형 변수에 대해서도 분할표를 작성할 수 있는데, 변수의 개수가 k라고 하면 k원 분할표(k-way contingency table) 혹은 k차원 분할표라고 부른다.
    • 타이타닉(RMS Titanic)호 생존자와 사망자수
      • 변수: 생존여부 (생존, 사망), 성별(남, 여, 어린이), 객실등급 (1, 2, 3, 승무원)

통계학의 이해Ⅰ 강의 자료 4-1의 페이지9
통계학의 이해Ⅰ 강의 자료 4-1의 페이지10

  • 총 24개의 칸에 대한 3차원 분할표가 생성된다.
  • 생존율
    • 객실 등급에 따른 생존율: 1등실 - 62.2%, 2등실 - 41.4$, 3등실 - 25.2%, 승무원 - 23.3%, 전체 31.9%
    • 성별에 따른 생존율: 20.0%, 74.4%, 51.4%

그래프를 이용한 자료 정리

원도표(pie chart)

  • 비교 그룹별로 파이차트 작성 (스마트폰 선호도 예시)

통계학의 이해Ⅰ 강의 자료 4-1의 페이지11

  • 전체가 100이 되도록 남녀별로 구분해서 상대적으로 얼마나 차지하는지 볼 수 있음

막대그래프(Bar chart)

  • 분석 목적과 자료 형태에 맞게 빈도/비율 중 선택

통계학의 이해Ⅰ 강의 자료 4-1의 페이지12

  • 등실과 성별을 따로 분류해서 비교하는 것이다.

통계학의 이해Ⅰ 강의 자료 4-1의 페이지13

  • 전체적으로 승무원의 생존율이 낮았지만 남자들끼리, 여자들끼리 분류해서 비교하면 승무원은 높은 편이다.
  • 남자들 중에서 승무원의 생존율은 2번째로 높고, 여자들끼리 봐도 승무원이 2번째로 높다.
  • 남녀로 구분했을 때 승무원의 생존율은 1등실을 제외한 나머지 등실의 승객보다 생존율이 높다.
  • 남성의 비율을 확인해보면 1등실 - 54.9%, 2등실 - 64.4%, 3등실 73.7%, 승무원 97.5%
    • 따라서 승무원의 대부분이 남자였고, 남자들은 전체적으로 생존율이 낮기 때문에 해당 결과가 나온 것이다.
    • 승무원의 생존율이 낮다 라고 보기에는 무리가 있다.
    • 이처럼 전체 자료를 분석한 결과와 세부적으로 분석한 결과가 상반되게 나오는데, 이를 심슨의 패러독스라고 하고 이러한 현상이 많이 발생한다.
    • 따라서 정확하게 파악하기 위해서는 자료를 세분화해서 볼 필요가 있다.
    • 결론이 달라질 수 있기 때문에 자료를 크게만 보는 것이 아니라 세분화하여 분석해야된다.

요약

  • 분할표는 비율을 어떻게 표시하냐에 따라서 해석이 달라질 수 있다.
  • 분류 변수에 따라 원도표와 막대그래프를 그릴 수 있다.