공부하는 블로그

[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -3. 수치자료 분포의 산포1 본문

통계/통계학의 이해Ⅰ

[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -3. 수치자료 분포의 산포1

young_o-o 2024. 1. 13. 19:00
728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.

K-MOOC 사이트 링크 공유합니다.


학습목표

  • 수치자료의 퍼져있는 정도(산포도)를 나타내는 값 중 두 특정 위치의 정보를 활용한 통계값을 알아본다.
  • 자료의 주요 위치를 파악하고 이상점 유무를 확인하는데 사용되는 상자그림에 대해 알아본다.

산포(dispersion, 퍼짐)

  • 자료들이 얼마나 퍼져 있는지를 나타내는 측도
  • 중심위치가 얼마나 안정적인지에 대한 중요한 정보를 제공
    • 자료가 조밀하게 모임 → 중심위치의 변동성이 작아짐 → 중심위치에 안정 → 중심위치에 대한 신뢰도 커짐
    • 자료가 넓게 퍼짐 → 중심위치(평균)의 변동성이 커짐 → 중심위치에 불안정 → 중심위치에 대한 신뢰도 떨어짐

범위(Range)

  • 자료 중 가장 큰 값과 작은 값의 차이
  • 자료가 넓게 퍼져있으면 범위는 커지고 모여 있으면작아진다.

통계학의 이해Ⅰ 강의 자료 3-3의 페이지2

  • 최댓값 x(n)과 최솟값 x(1)에만 영향을 받기 때문에 자료 전체의 퍼져 있는 정도를 파악할 수 없다. 
  • 자료 중 이상점이 있으면 전체 형태와 관계없이 범위가 클 수 있어 범위로 퍼진 정도를 평가하기에는 무리가 있을 수 있다.

사분위(간)범위(Interquartile-Range)

  • 사분위수(quartile): 자료를 동일한 비율로 4등분 할 때의 세 위치
    • 자료를 오름차순으로 정렬했을 때
      • 25% 지점: 제1사분위수 (Q1)
      • 50% 지점: 제2사분위수 (Q2) = 표본 중앙값
      • 75% 지점: 제3사분위수 (Q3) 
  • 사분위(간)범위는 제3사분위수와 제1사분위수의 차이
  • 이상점에 로버스트하지만 대부분의 표본값은 순서를 정할 때 사용되고 직접적으로 이용되지 않기 때문에 정보의 손실이 많다는 단점이 있다.

통계학의 이해Ⅰ 강의 자료 3-3의 페이지3

  • 사분위수 계산 방법
    • k = (n-1)p + 1, p = 0.25, 0.5, 0.75 계산
    • k가 정수이면 x(k)가 해당 사분위수, 아니면 비례에 의한 내산법을 적용

통계학의 이해Ⅰ 강의 자료 3-3의 페이지4
통계학의 이해Ⅰ 강의 자료 3-3의 페이지5

  • 내산법은 k가 11.25번째 일 경우 11번째에 더 가까우니 11번째에 더 가중치를 많이, 12번째에는 가중치를 적게 주는 것.
  • 따라서 25% 지점을 구할 때 11.25가 나온다면 11번째 값에 0.75의 가중치를, 12번째 값에 0.25의 가중치를 부여하는 것이다.
  • 만약 10백분위수를 구한다고 한다면 가중치는 각각 0.9와 0.1이 되는 것이다.

상자그림(Box plot)

  • 통계학자 Tukey에 의해 제안된 그림
  • IQR을 응용하여 그리는 것
  • 자료의 주요 위치 파악과 이상점 겅출 등에 사용되는 그림

통계학의 이해Ⅰ 강의 자료 3-3의 페이지6

  • 각각 직선에 해당되는 것이 Q1, Q2, Q3이다. Q2인 중앙값은 가운데 굵은 직선이다.

통계학의 이해Ⅰ 강의 자료 3-3의 페이지7
통계학의 이해Ⅰ 강의 자료 3-3의 페이지7

  • L보다 작거나 U보다 큰 값은 이상점으로 본다
  • Boxplot은 중심위치와 이상점뿐만 아니라 데이터의 분포도 확인할 수 있음

요약

  • 범위는 최댓값과 최솟값의 차이로 양 끝 값의 영향만 받기 때문에 전체의 퍼져 있는 정도를 파악할 수 없다.
  • 사분위간범위는 사분위수를 이용하여 Q1과 Q3의 차이이다.
  • 사분위간범위를 이용하여 상자그림을 그릴 수 있다.
  • 상자그림을 통해 중심위치, 이상점 유무, 자료의 퍼짐 정도를 확인할 수 있다.