공부하는 블로그

[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -2. 수치자료의 대체중심위치 본문

통계/통계학의 이해Ⅰ

[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -2. 수치자료의 대체중심위치

young_o-o 2024. 1. 13. 17:31
728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.

K-MOOC 사이트 링크 공유합니다.


학습목표

  • 수치자료의 중심위치를 나타내는 대체 통계값을 계산하는 방법과 성질을 알아본다.

표본중앙값(sample median, 표본중위수)

  • 자료를 크기순서대로 나열했을 때 중간에 있는 값
  • 순서통계량(order statistics): 표본을 오름차순으로 정렬한 것
    • x_i: i번쨰로 작은 값
    • x_1: 최솟값
    • x_n: 최댓값
    • 예) n = 5일 때, 3번쨰 순서통계량 x_3이 median
    • 예) n = 6일 때, 3번쨰와 4번째 순서통계량의 평균이 median [(x_3 + x_4) / 2]

통계학의 이해Ⅰ 강의 자료 3-2의 페이지2

  • median은 tilda라고읽는다.

예제

  • 8명의 졸업생의 초임월급 실수령액(단위 만원) 자료
  • 235, 250, 260, 265, 265, 270, 275, 400
  • 8명이기 때문에 4번째와 5번째 값의 평균인 265가 median이다.
  • 표본중앙값은 극단적인 값에 영향을 받지 않는다.
    • 초임월급 자료에서 400이 4000으로 가도 표본중앙값의 변화는 없다.
    • 이상점의 유무에 관계없이 안정적인 중심위치를 제공이상점에 로버스트
  • 자료의 값들은 순서통계량을 구하는데 이용될 뿐이고 중앙에 있는 하나 또는 두 개의 관측값만 직접 사용
    • 자료의 정보를 다 활용하지 못한다. (단점)
  • 평균은 모든 데이터를 사용하지만 이상점에 로버스트하지 않고, 중앙값은 이상점에 로버스트하지만 보유한 데이터를 다 활용하지 못한다는 단점이 있음.
  • 어떤 값을 중심위치로 사용해야하는가에 대한 의문이 나올 수 있다.
  • 두 통계값을 계싼하여 차이가 크지 않으면 평균을, 차이가 크면 중앙값을 사용하는 방법을 추천한다.
    • 두 값의 차이가 크다는 것은 자료 중에서 이상점이 있을 가능성이 높기 때문이다.
    • 정보의 형태나 분석 목적에 따라서 적절하게 선택해야된다.

표본절사평균(sample trimmed mean)

  • 표본평균은 모든 자료의 정보를 사용하지만 이상점에 로버스트하지 않음
  • 표본중앙값은 로버스트 하지만 자료의 정보를 다 활용하지 못함
  • 절사평균은 이 두 퉁계값이 가지고 있는 장점을 살리면서 단점을 줄여주는 통계값 
  • a% 표본절사평균: 순서통계량에서 하위 a%부터 상위 a%까지의 자료를 이용하여 표본평균을 계산
    • a백분위수(percentile): 하위 a%에 해당하는 값
    • p = a/100이면 p분위수(quantile)
  • a를 적절히 정하면 이상점을 제외시키면서 많은 표본정보를 이용할 수 있다.
    • a = 0이면 표본펼균 
    • a = 50이면 표본중앙값\
  • 하지만 실제로 사용할 때에는 몇%인 위치를 찾기 힘들기 때문에 크기 순서대로 나열하고 하위 k개와 상위 k개를 제외한 평균을 구한다.
  • 즉, n개 중 작은 것과 큰 것 k개씩 제외한 나머지 n-2k개의 표본평균

통계학의 이해Ⅰ 강의 자료 3-2의 페이지6

  • 적절한 크기의 a를 정하면 자료에 포함된 이상점이 제외되지만 (100-2a)% 만큼의 관측값을 그대로 사용하기 때문에 많은 자료 정보를 사용하면서도 로버스트한 중심위치를 구할 수 있다.
  • 개인적으로 편향된 점수를 줄 수 있는 체조나 피겨스케이팅과 같은 스포트 경기의 채점 방식으로 사용된다.

표본최빈값(sample mode)

  • 자료 중 빈도가 가장 많은 값
    • 최빈값은 여러 개가 나올 수 있음
    • 연속자료의 경우 없을 수도 있음
    • 연속자료의 경우에는 자료의 값을 직접 사용하기보다는 그룹화하여 히스토그램을 그리고 간단하게 가장 높은 밀도를 가지는 구간의 중간값을 최빈값으로 사용하거나 내산법을 이용하여 가장 높은 밀도의 위치를 추정하여 최빈값으로 사용할 수 있다.

통계학의 이해Ⅰ 강의 자료 3-2의 페이지9


요약

  • 중앙값을 계산하기 위해서는 순서통계량을 구해야되며 중앙값은 상당히 로버스트하다.
  • 절사평균은 백분위수, 위수도 필요하지만 실제로 계산할 때는 위에서 몇 개, 아래에서 몇 개를 골라서 제거한 뒤 평균을 계산한다.
  • EBS 지식채널 e의 Numbers 3부 "48분의 함정"의 결론
    1. 특정 집단의 정보를 요약해주는 대푯값이 평균인데, 실제 전체 분포를 볼 수 있는 눈이 없다면 평균을 사용하는 것은 문제가 될 수 있다.
    2. 특히 중앙값과 최빈값을 무시한 평균은 대푯값으로 사용될 수 없다.

지식채널-e (ebs.co.kr)