공부하는 블로그
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -5. 수치자료의 형태 본문
728x90
해당 글은 숙명여자대학교 여인권 교수님의
K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.
추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.
학습목표
- 자료의 분포 형태가 대칭인지 아닌지를 나타내는 통계값을 알아본다.
- 분포의 꼬리부분이 얼마나 두터운지를 나타내는 통계값을 알아본다.
분포의 형태
- 많은 통계분석 방법은 모집단이 중심위치를 기준으로 대칭(symmetric)이라고 가정한다.
- 분석방법의 적절성은 가정한 조건을 자료가 얼마나 만족하고 있는지에 따라 영향을 받는다.
- 자료의 분포 형태에 대한 측도
- 자료가 모집단의 가정을 만족하는지를 확인
왜도(skewness)
- 자료가 대칭적으로 분포되어 있는지, 한쪽으로 기울어져 있는지에 대한 측도
- 평균 0, 표준편차 1인 자료의 히스토그램
- 왼쪽 그림의 경우 자료가 왼쪽으로 몰려있으며 오른쪽 꼬리 부분이 왼쪽보다 길게 분포되어 있다.
- 오른쪽 그림은 왼쪽 그림과 반대의 형태이고 중간 그림은 상대적으로 대칭인 구조를 가지고 있다.
- 이러한 대칭과 비대칭의 형태를 수치화하기 위해 피어슨 (Karl Pearson, 1857~1936)이 왜도라는 통계값을 제안했다.
- 왜도의 주요 부분은 편차의 세제곱인 (x_i - x bar)^3으로 평균을 중심으로 왼쪽의 자료는 음수, 오른쪽의 자료는 양수 값을 갖는다.
- 자료가 평균에서 멀어질수록 큰 음수나 큰 양수가 된다.
- 좌우가 비슷한 형태라면 음수와 양수가 상쇄되어 0에 가까운 값을 갖게 된다.
- 위 그림은 순서대로 양의 왜도(positive skewness), 대칭적 (symmetric), 음의 왜도 (negative skewness)를 갖는다고 한다.
- 다른 표현으로 양의 왜도를 영어로 "skewed to the right (오른쪽으로 치우쳤음)"이라고 하며 해당하는 쪽으로 꼬리게 길게 분포되었다는 것을 의미한다.
- 통계학에서는 꼬리가 길게 분포된 것을 두터운 꼬리 (heavy tail) 라고 부른다.
- SAS와 같은 일부 통계프로그램에서는 통계적 추론과 연관하여 성질을 더 좋게 하기 위해 수정된 왜도를 사용하기도 한다.
첨도(kurtosis)
- 양쪽꼬리가 얼마나 두터운지를 나타내는 값 (pearson이 제안)
- 평균 0, 표준편차 1인 자료의 히스토그램
- 왼쪽 그림의 경우 꼬리가 짧고 오른쪽 그림은 꼬리가 길며 중간 그림은 양쪽 꼬리가 중간 정도를 가지고 있다.
- 꼬리가 길면 상대적으로 뽀죡한 경향을 보인다.
- 이 통계값의 주요 부분은 편차의 네 제곱인 (x_i - x bar)^4으로 평균을 중심으로 자료가 멀리 떨어져 있으면 상대적으로 매우 큰 값을 가지며 근처에 있으면 작은 값을 갖게 되는 것이다.
- 첨도는 왜도와 다르게 항상 양수가 되며 분포의 중심보다는 꼬리 부분이 얼마나 두터운지에 따라 영향을 받는다.
- 통계학에서 중요한 분포인 정규분포의 경우 이론적으로 첨도는 3이 된다.
- 따라서 첨도에 -3을 계산하여 사용하기도 하고, SAS같은 통계프로그램에서는 성질을 더 좋게 하기 위해 수정된 첨도를 사용하기도 한다.
요약
- 왜도와 첨도는 자료 분포의 형태를 나타내는 측도이다.
- 심한 왜도를 가지거나 큰 첨도를 가지는 경우 자료에ㅐ 이상점이 있을 가능성이 높아진다.
- 주요 통계 분석 방법은 대부분 평균과 분산을 기반으로 하는데 이러한 통계값들은 이상점에 취약하다.
- 따라서 왜도나 첨도는 자료의 분포형태를 나타내는 측도뿐만 아니라 분석방법의 적절성을 확인하기 위한 측도로 사용될 수 있다.
- 대부분의 통계 기법은 모집단이 정규분포를 따른다는 가정하에 진행되기 때문에 정규성 검정을 해야된다.
- 왜도 = 0, 첨도 = 3 → 하지만 왜도가 0, 첨도가 3이 아니라면?
- 정규 분포라는 것에 의문이 들 수 있으며 사용하는 분석 방법이 적절한지에 대한 의문이 들 수 있다.
- 얼마나 값을 벗어나는지를 확인해야 되는데 이는 JB검정 방법을 통해 확인할 수 있다.
- 궁극적으로 분석을 할 때 분석 방법이 적절한지 아닌지는 데이터 형태에 따라서 달라진다. 데이터를 분석할 때 기본적인 가정들을 만족하지 않는다면 분석 방법이 적절하지 않을 수 있기 때문에 이러한 통계기법을 고려하여 사용할지 말지를 결정해야된다.
'통계 > 통계학의 이해Ⅰ' 카테고리의 다른 글
[통계학의 이해Ⅰ] 4주차 다변량 자료 기술통계 -1. 분할표와 그래프 (2) | 2024.01.15 |
---|---|
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -6. 기술통계 실습 (R)-과제 (0) | 2024.01.14 |
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -4. 수치자료 분포의 산포2 (2) | 2024.01.14 |
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -3. 수치자료 분포의 산포1 (2) | 2024.01.13 |
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -2. 수치자료의 대체중심위치 (4) | 2024.01.13 |