[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -2. 수치자료의 대체중심위치

Notice

Recent Posts

Recent Comments

Tags more

Archives

관리 메뉴

공부하는 블로그

통계/통계학의 이해Ⅰ

young_o-o 2024. 1. 13. 17:31

728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.

학습목표

예제

8명의 졸업생의 초임월급 실수령액(단위 만원) 자료
235, 250, 260, 265, 265, 270, 275, 400
8명이기 때문에 4번째와 5번째 값의 평균인 265가 median이다.
표본중앙값은 극단적인 값에 영향을 받지 않는다.
- 초임월급 자료에서 400이 4000으로 가도 표본중앙값의 변화는 없다.
- 이상점의 유무에 관계없이 안정적인 중심위치를 제공 → 이상점에 로버스트
자료의 값들은 순서통계량을 구하는데 이용될 뿐이고 중앙에 있는 하나 또는 두 개의 관측값만 직접 사용
- 자료의 정보를 다 활용하지 못한다. (단점)
평균은 모든 데이터를 사용하지만 이상점에 로버스트하지 않고, 중앙값은 이상점에 로버스트하지만 보유한 데이터를 다 활용하지 못한다는 단점이 있음.
어떤 값을 중심위치로 사용해야하는가에 대한 의문이 나올 수 있다.
두 통계값을 계싼하여 차이가 크지 않으면 평균을, 차이가 크면 중앙값을 사용하는 방법을 추천한다.
- 두 값의 차이가 크다는 것은 자료 중에서 이상점이 있을 가능성이 높기 때문이다.
- 정보의 형태나 분석 목적에 따라서 적절하게 선택해야된다.

표본평균은 모든 자료의 정보를 사용하지만 이상점에 로버스트하지 않음
표본중앙값은 로버스트 하지만 자료의 정보를 다 활용하지 못함
절사평균은 이 두 퉁계값이 가지고 있는 장점을 살리면서 단점을 줄여주는 통계값
a% 표본절사평균: 순서통계량에서 하위 a%부터 상위 a%까지의 자료를 이용하여 표본평균을 계산
- a백분위수(percentile): 하위 a%에 해당하는 값
- p = a/100이면 p분위수(quantile)
a를 적절히 정하면 이상점을 제외시키면서 많은 표본정보를 이용할 수 있다.
- a = 0이면 표본펼균
- a = 50이면 표본중앙값\
하지만 실제로 사용할 때에는 몇%인 위치를 찾기 힘들기 때문에 크기 순서대로 나열하고 하위 k개와 상위 k개를 제외한 평균을 구한다.
즉, n개 중 작은 것과 큰 것 k개씩 제외한 나머지 n-2k개의 표본평균

적절한 크기의 a를 정하면 자료에 포함된 이상점이 제외되지만 (100-2a)% 만큼의 관측값을 그대로 사용하기 때문에 많은 자료 정보를 사용하면서도 로버스트한 중심위치를 구할 수 있다.
개인적으로 편향된 점수를 줄 수 있는 체조나 피겨스케이팅과 같은 스포트 경기의 채점 방식으로 사용된다.

자료 중 빈도가 가장 많은 값
- 최빈값은 여러 개가 나올 수 있음
- 연속자료의 경우 없을 수도 있음
- 연속자료의 경우에는 자료의 값을 직접 사용하기보다는 그룹화하여 히스토그램을 그리고 간단하게 가장 높은 밀도를 가지는 구간의 중간값을 최빈값으로 사용하거나 내산법을 이용하여 가장 높은 밀도의 위치를 추정하여 최빈값으로 사용할 수 있다.

요약

중앙값을 계산하기 위해서는 순서통계량을 구해야되며 중앙값은 상당히 로버스트하다.
절사평균은 백분위수, 위수도 필요하지만 실제로 계산할 때는 위에서 몇 개, 아래에서 몇 개를 골라서 제거한 뒤 평균을 계산한다.
EBS 지식채널 e의 Numbers 3부 "48분의 함정"의 결론
1. 특정 집단의 정보를 요약해주는 대푯값이 평균인데, 실제 전체 분포를 볼 수 있는 눈이 없다면 평균을 사용하는 것은 문제가 될 수 있다.
2. 특히 중앙값과 최빈값을 무시한 평균은 대푯값으로 사용될 수 없다.

[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -4. 수치자료 분포의 산포2 (2)	2024.01.14
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -3. 수치자료 분포의 산포1 (2)	2024.01.13
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -1. 수치자료 분포의 중심위치 - 평균 (0)	2024.01.13
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -4. 기술통계 실습 (R)-과제 (0)	2024.01.06
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -3. 수치 자료 정리 (4)	2024.01.06

'통계/통계학의 이해Ⅰ' Related Articles