공부하는 블로그

[통계학의 이해Ⅰ] 4주차 다변량 자료 기술통계 -2. 비교그림과 산점도 본문

통계/통계학의 이해Ⅰ

[통계학의 이해Ⅰ] 4주차 다변량 자료 기술통계 -2. 비교그림과 산점도

young_o-o 2024. 1. 15. 00:35
728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.

K-MOOC 사이트 링크 공유합니다.


학습목표

  • 표나 그래프를 이용하여 수치자료를 그룹별로 나누어 비교하는 방법을 알아본다.
  • 두 수치 자료의 관계를 나타내는 그래프에 대해 알아본다.

표를 이용한 정리

  • 자료 구조와 분석 목적
    • 구조: 분류(그룹 = 범주) 자료 + 수치자료
    • 목적: 그룹 간 비교
  • 수치자료의 특성을 나타내는 값을 그룹별로 정리
    • 기본 통계값: 표본크기, 평균, 표준편차

통계학의 이해Ⅰ 강의 자료 4-2의 페이지2

  • 정당별 득표율 데이터에 대하여 각 정당별 정리한 표이다.
  • 기본적으로는 표본의 수, 평균, 표준편차를 보여준다.
  • 해당 데이터에서는 당선자의 득표율에 관심이 있으니 최대 득표율과 최소 득표율을 함께 보여준다.

 

점도표, 히스토그램(막대그래프)을 중첩, 병렬로 비교

통계학의 이해Ⅰ 강의 자료 4-2의 페이지3

  • 통계청의 인구추계교실이라는 사이트는 현재 인구가 어떻게 구성되어 있고, 앞으로 어떻게 변할 것인지 정리하여 올려놓은 사이트다.
  • 연도에 따라서 연령별로 남녀가 어떻게 구성이 되어있는지 조사한 것이다.

동일 축 상의 그룹별 상자그림 비교

통계학의 이해Ⅰ 강의 자료 4-2의 페이지4

  • 해당 그림을 통해 데이터가 어떻게 구성이 되어있는지, 중심위치 및 주요 위치를 확인할 수 있다.
  • 중앙값은 A당이 높고 B당에는 이상점이 있는 것을 확인할 수 있다.
  • A당의 분포가 대체적으로 높은 것도 확인할 수 있다.
  • 만약 C당이 존재한다면 상자그림을 추가하여 함께 비교할 수 있다.

산점도(scatter plot)

  • 자료 구조와 분석 목적
    • 구조: 수치자료 + 수치자료 (+ ... + 수치자료)
      • 각각의 관측개체에 대해 두 변수의 값은 순서쌍 (x1, y1), (x2, y2), ... ,(xn, yn)으로 표시한다.
    • 목적: 수치 변수들 간의 관계를 유도
  • 순서쌍 자료를 2차원 평면상에 점으로 표시한 그림이다.
  •  동일한 관측개체에 대하여 다른 변수들의 값이 존재하는 것이기 때문에 순서쌍으로 표현이 가능하고 순서쌍이기 때문에 2차원 평면상에 x와 y로 위치를 찍을 수 있는 것이다.

통계학의 이해Ⅰ 강의 자료 4-2의 페이지6
통계학의 이해Ⅰ 강의 자료 4-2의 페이지7

  • 연도에 따른 기록을 확인하는 것이 주요 관점이기 때문에 x축은 연도, y축은 초로 표현을 한다.
  • 추가적으로 성별에 대한것은 다른 plot point를 준다.
  • 이렇게 표현을 했을 경우 확실하게 남녀 간 차이가 있다는 것을 확인할 수 있으며 연도가 커질수록 초가 감소하는 추세가 있다는 것을 확인할 수 있다.
  • 또한, 남자의 이상점을 제외하면 남자의 속도가 감소하는 추세보다 여자의 속도가 감소하는 추세가 더 급한 것을 알 수 있다.

산점도 행렬(scatter matrix)

  • 3개 이상의 수치변수에 대해 두 변수씩 쌍으로 조합하여 산점도를 행렬 형태로 표시
    • 기상자료들 간의 관계
      • 2022년 1월부터 2010년 12월까지 우리나라 전체의 월간 평균기온(Temperature), 강수량(Rainfall), 평균습도(Humidity)

통계학의 이해Ⅰ 강의 자료 4-2의 페이지9

  • 대각선을 기준으로 대칭이동을 한 형태이다.
  • 따라서 한쪽만 해석하면 반대쪽도 자동으로 해석할 수 있다.
  • 변수명을 중심으로 상.하의 그림은 해당 변수가 x축, 좌우의 그림은 y축임을 의미한다.
  • 그림을 통해 세 변수 모두 어떤 변수값이 크면 다른 변수도 값이 커지는 경향을 알 수 있다.
  • 또한, 평균기온과 평균습도는 직선, 강수량과 나머지 변수는 곡선의 형태로 증가하는 형태임을 알 수 있다.

시계열그림(Time series plot)

  • 시계열자료: 시간에 따라 수집된 자료
    • 자료 간 종속성이 존재할 수 있어 관측순서가 중요하다.
  • 시계열그림: x축에 관측시점, y축에 관측된 값을 표시한 산점도
    • 예) 올림픽 육상 100m 우승기록 그림
    • 순서 파악을 쉽게 하기 위해 일반적으로 관측 순으로 관측값들을 선으로 연결한다.

통계학의 이해Ⅰ 강의 자료 4-2의 페이지11
통계학의 이해Ⅰ 강의 자료 4-2의 페이지12

  • 그림을 통해 전체적으로 출생아수가 줄어드는 형태임을 확인할 수 있다.
  • 또한 모든 연도에서 1월의 출생아수가 상대적으로 많은 반면, 12월의 출생아수는 현저하게 적은 것을 볼 수 있다. 이는 학교 입학때문에 출생신고를 늦게한 사례 때문일 것으로 추측할 수 있다.

요약

  • 그룹별 수치자료 정리(표): 표본크기, 평균, 표준편차
  • 그룹별 수치자료 비교: 히스토그램(막대그래프), 상자그림
  • 산점도: 상전도행렬, 시계열 그림