공부하는 블로그
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -2. 수치자료의 대체중심위치 본문
728x90
해당 글은 숙명여자대학교 여인권 교수님의
K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.
추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.
학습목표
- 수치자료의 중심위치를 나타내는 대체 통계값을 계산하는 방법과 성질을 알아본다.
표본중앙값(sample median, 표본중위수)
- 자료를 크기순서대로 나열했을 때 중간에 있는 값
- 순서통계량(order statistics): 표본을 오름차순으로 정렬한 것
- x_i: i번쨰로 작은 값
- x_1: 최솟값
- x_n: 최댓값
- 예) n = 5일 때, 3번쨰 순서통계량 x_3이 median
- 예) n = 6일 때, 3번쨰와 4번째 순서통계량의 평균이 median [(x_3 + x_4) / 2]
- median은 tilda라고읽는다.
예제
- 8명의 졸업생의 초임월급 실수령액(단위 만원) 자료
- 235, 250, 260, 265, 265, 270, 275, 400
- 8명이기 때문에 4번째와 5번째 값의 평균인 265가 median이다.
- 표본중앙값은 극단적인 값에 영향을 받지 않는다.
- 초임월급 자료에서 400이 4000으로 가도 표본중앙값의 변화는 없다.
- 이상점의 유무에 관계없이 안정적인 중심위치를 제공 → 이상점에 로버스트
- 자료의 값들은 순서통계량을 구하는데 이용될 뿐이고 중앙에 있는 하나 또는 두 개의 관측값만 직접 사용
- 자료의 정보를 다 활용하지 못한다. (단점)
- 평균은 모든 데이터를 사용하지만 이상점에 로버스트하지 않고, 중앙값은 이상점에 로버스트하지만 보유한 데이터를 다 활용하지 못한다는 단점이 있음.
- 어떤 값을 중심위치로 사용해야하는가에 대한 의문이 나올 수 있다.
- 두 통계값을 계싼하여 차이가 크지 않으면 평균을, 차이가 크면 중앙값을 사용하는 방법을 추천한다.
- 두 값의 차이가 크다는 것은 자료 중에서 이상점이 있을 가능성이 높기 때문이다.
- 정보의 형태나 분석 목적에 따라서 적절하게 선택해야된다.
표본절사평균(sample trimmed mean)
- 표본평균은 모든 자료의 정보를 사용하지만 이상점에 로버스트하지 않음
- 표본중앙값은 로버스트 하지만 자료의 정보를 다 활용하지 못함
- 절사평균은 이 두 퉁계값이 가지고 있는 장점을 살리면서 단점을 줄여주는 통계값
- a% 표본절사평균: 순서통계량에서 하위 a%부터 상위 a%까지의 자료를 이용하여 표본평균을 계산
- a백분위수(percentile): 하위 a%에 해당하는 값
- p = a/100이면 p분위수(quantile)
- a를 적절히 정하면 이상점을 제외시키면서 많은 표본정보를 이용할 수 있다.
- a = 0이면 표본펼균
- a = 50이면 표본중앙값\
- 하지만 실제로 사용할 때에는 몇%인 위치를 찾기 힘들기 때문에 크기 순서대로 나열하고 하위 k개와 상위 k개를 제외한 평균을 구한다.
- 즉, n개 중 작은 것과 큰 것 k개씩 제외한 나머지 n-2k개의 표본평균
- 적절한 크기의 a를 정하면 자료에 포함된 이상점이 제외되지만 (100-2a)% 만큼의 관측값을 그대로 사용하기 때문에 많은 자료 정보를 사용하면서도 로버스트한 중심위치를 구할 수 있다.
- 개인적으로 편향된 점수를 줄 수 있는 체조나 피겨스케이팅과 같은 스포트 경기의 채점 방식으로 사용된다.
표본최빈값(sample mode)
- 자료 중 빈도가 가장 많은 값
- 최빈값은 여러 개가 나올 수 있음
- 연속자료의 경우 없을 수도 있음
- 연속자료의 경우에는 자료의 값을 직접 사용하기보다는 그룹화하여 히스토그램을 그리고 간단하게 가장 높은 밀도를 가지는 구간의 중간값을 최빈값으로 사용하거나 내산법을 이용하여 가장 높은 밀도의 위치를 추정하여 최빈값으로 사용할 수 있다.
요약
- 중앙값을 계산하기 위해서는 순서통계량을 구해야되며 중앙값은 상당히 로버스트하다.
- 절사평균은 백분위수, 위수도 필요하지만 실제로 계산할 때는 위에서 몇 개, 아래에서 몇 개를 골라서 제거한 뒤 평균을 계산한다.
- EBS 지식채널 e의 Numbers 3부 "48분의 함정"의 결론
- 특정 집단의 정보를 요약해주는 대푯값이 평균인데, 실제 전체 분포를 볼 수 있는 눈이 없다면 평균을 사용하는 것은 문제가 될 수 있다.
- 특히 중앙값과 최빈값을 무시한 평균은 대푯값으로 사용될 수 없다.
'통계 > 통계학의 이해Ⅰ' 카테고리의 다른 글
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -4. 수치자료 분포의 산포2 (2) | 2024.01.14 |
---|---|
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -3. 수치자료 분포의 산포1 (2) | 2024.01.13 |
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -1. 수치자료 분포의 중심위치 - 평균 (0) | 2024.01.13 |
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -4. 기술통계 실습 (R)-과제 (0) | 2024.01.06 |
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -3. 수치 자료 정리 (4) | 2024.01.06 |