공부하는 블로그
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -3. 수치자료 분포의 산포1 본문
728x90
해당 글은 숙명여자대학교 여인권 교수님의
K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.
추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.
학습목표
- 수치자료의 퍼져있는 정도(산포도)를 나타내는 값 중 두 특정 위치의 정보를 활용한 통계값을 알아본다.
- 자료의 주요 위치를 파악하고 이상점 유무를 확인하는데 사용되는 상자그림에 대해 알아본다.
산포(dispersion, 퍼짐)
- 자료들이 얼마나 퍼져 있는지를 나타내는 측도
- 중심위치가 얼마나 안정적인지에 대한 중요한 정보를 제공
- 자료가 조밀하게 모임 → 중심위치의 변동성이 작아짐 → 중심위치에 안정 → 중심위치에 대한 신뢰도 커짐
- 자료가 넓게 퍼짐 → 중심위치(평균)의 변동성이 커짐 → 중심위치에 불안정 → 중심위치에 대한 신뢰도 떨어짐
범위(Range)
- 자료 중 가장 큰 값과 작은 값의 차이
- 자료가 넓게 퍼져있으면 범위는 커지고 모여 있으면작아진다.
- 최댓값 x(n)과 최솟값 x(1)에만 영향을 받기 때문에 자료 전체의 퍼져 있는 정도를 파악할 수 없다.
- 자료 중 이상점이 있으면 전체 형태와 관계없이 범위가 클 수 있어 범위로 퍼진 정도를 평가하기에는 무리가 있을 수 있다.
사분위(간)범위(Interquartile-Range)
- 사분위수(quartile): 자료를 동일한 비율로 4등분 할 때의 세 위치
- 자료를 오름차순으로 정렬했을 때
- 25% 지점: 제1사분위수 (Q1)
- 50% 지점: 제2사분위수 (Q2) = 표본 중앙값
- 75% 지점: 제3사분위수 (Q3)
- 자료를 오름차순으로 정렬했을 때
- 사분위(간)범위는 제3사분위수와 제1사분위수의 차이
- 이상점에 로버스트하지만 대부분의 표본값은 순서를 정할 때 사용되고 직접적으로 이용되지 않기 때문에 정보의 손실이 많다는 단점이 있다.
- 사분위수 계산 방법
- k = (n-1)p + 1, p = 0.25, 0.5, 0.75 계산
- k가 정수이면 x(k)가 해당 사분위수, 아니면 비례에 의한 내산법을 적용
- 내산법은 k가 11.25번째 일 경우 11번째에 더 가까우니 11번째에 더 가중치를 많이, 12번째에는 가중치를 적게 주는 것.
- 따라서 25% 지점을 구할 때 11.25가 나온다면 11번째 값에 0.75의 가중치를, 12번째 값에 0.25의 가중치를 부여하는 것이다.
- 만약 10백분위수를 구한다고 한다면 가중치는 각각 0.9와 0.1이 되는 것이다.
상자그림(Box plot)
- 통계학자 Tukey에 의해 제안된 그림
- IQR을 응용하여 그리는 것
- 자료의 주요 위치 파악과 이상점 겅출 등에 사용되는 그림
- 각각 직선에 해당되는 것이 Q1, Q2, Q3이다. Q2인 중앙값은 가운데 굵은 직선이다.
- L보다 작거나 U보다 큰 값은 이상점으로 본다
- Boxplot은 중심위치와 이상점뿐만 아니라 데이터의 분포도 확인할 수 있음
요약
- 범위는 최댓값과 최솟값의 차이로 양 끝 값의 영향만 받기 때문에 전체의 퍼져 있는 정도를 파악할 수 없다.
- 사분위간범위는 사분위수를 이용하여 Q1과 Q3의 차이이다.
- 사분위간범위를 이용하여 상자그림을 그릴 수 있다.
- 상자그림을 통해 중심위치, 이상점 유무, 자료의 퍼짐 정도를 확인할 수 있다.
'통계 > 통계학의 이해Ⅰ' 카테고리의 다른 글
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -5. 수치자료의 형태 (0) | 2024.01.14 |
---|---|
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -4. 수치자료 분포의 산포2 (2) | 2024.01.14 |
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -2. 수치자료의 대체중심위치 (4) | 2024.01.13 |
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -1. 수치자료 분포의 중심위치 - 평균 (0) | 2024.01.13 |
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -4. 기술통계 실습 (R)-과제 (0) | 2024.01.06 |