공부하는 블로그
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -1. 수치자료 분포의 중심위치 - 평균 본문
728x90
해당 글은 숙명여자대학교 여인권 교수님의
K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.
추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.
학습목표
- 수치자료의 중심위치를 나타내는 대푯값 중 평균에 대해 알아본다.
- 추가적으로 자료 형태에 따라 대체 평균들을 알아본다.
수치자료를 이용한 자료정리
- 그래프와 같은 시각적인 방법은 자료의 특성을 파악하는데 아주 중요한 정보를 제공하지만 보는 사람에 따라 다르게 해석할 수 있다.
- 따라서 최종 결과는 자료의 특성을 객관적으로 나타내는 수치로 제시된다.
- 자료를 대표할 수 있는 중심위치(central location)과 자료들이 얼마나 퍼져있는지를 나타내는 산포(dispersion)으로 자료의 특성을 표기한다.
중심위치
- n개의 수치자료: x_1, x_2,...x_n
- x_i: i번째 표본의 값(관측값)
- n: 표본크기(sample size)
- 가장 많이 사용되는 중심위치 통계값은 평균
표본평균 (sample mean)
- 표본평균은 표본의 합을 표본크기로 나눈 값
- 영어로는 average라고 하는데, 통계학에서는 mean이라는 표현을 많이 사용한다.
- x bar라고 읽으며 해당 자료의 평균을 의미한다.
평균 = 무게중심
- 표본 평균이 중심위치로 적절한 이유 중 하나는 이 점을 중심으로 좌우 자료의 무게가 같은 무게중심이기 때문이다.
- 따라서 평균은 무게중심을 의미한다.
- 해당 수식을 적용하면 편차의 합이 0이라는 것을 알 수 있다.
표본비율(sample proportion)
- i번째 관측값이 어떤 범주에 속하면 x_i의 값을 1, 속하지 않으면 0으로 표시
- 이 범주에 포함된 표본의 수 y = x_1 + x_2 + ... x_n이 된다.
- 표본비율을 구하는 수식은 위와 같아지고, 따라서 표본비율 = 표본평균 이 된다.
- 8명의 졸업생의 초임 월급 평균을 구한다고 할 떄, 점 도표를 그리지 않았다면 그냥 평균이 277.5구나 라고만 생각할 수 있다.
- 하지만 400을 제외한 나머지 데이터들은 전부 평균보다 아래 있는 것을 확인할 수 있다.
- 이러한 경우 과연 평균이 중심위치로 적절한가? 라는 의문이 들 수 있다.
- 특정 값에 의해서 평균이 대부분의 자료보다 한쪽으로 멀리 떨어지게 되는데, 이처럼 일부 멀리 떨어진 관측 값들을 이상점이라고 한다.
이상점(outlier)
- 앞의 예제 결과는 자료 중 400만원이라는 값이 다른 자료와 많이 떨어져 있어 평균의 값이 커짐
- 대부분의 관측값으로부터 멀리 떨어져 있는 일부 관측값
- 표본크기가 크지 않은 경우 이상점이 자료에 크게 영향을 끼칠 수 있음
- 이상점의 포함 여부에 따라 표본평균의 값에 차이가 크게 나는 경향이 있다.
- 이상점에 로버스트(robust)하지 않음
- 대체 통계값: 중앙값, 절사 평균, 최빈값...
- 평균의 경우 이상점에 로버스트하지 않다는 단점이 있기 때문에 중심위치로 평균을 사용하면 오히려 좋지 않은 결과를 이끌 수 있다.
- 이러한 경우 대체 평균을 사용하여 적절한 중심위치를 사용한다.
- 투자비율을 다르게 하여 투자했을 경우 평균 수익은 얼마인가?
- 이러한 경우 각각에 투자한 금액에 대하여 다른 가중치를 부여하여 가중평균을 구하게 된다.
- 기하평균은 어떤 지표의 평균 성장률을 계산할 때 주로 사용한다.
- 중요한 것은 평균이지만 전부 다른 형태로 표현된다는 것
분석하고자 하는 데이터가 어떤 형태의 구조를 갖고있냐를 파악하고 적절한 형태의 평균을 사용하는 것이 중요하다.
요약
- 평균은 무게중심이고 로버스트하지 않다.
- 로버스트하지 않다는 것은 이상점 유무에 따라 차이가 크게 난다는 것이다.
- 표본비율은 평균의 일종이다.
- 기하평균과 조화평균에 대비하여 일반적인 평균을 산술평균이라고 한다.
'통계 > 통계학의 이해Ⅰ' 카테고리의 다른 글
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -3. 수치자료 분포의 산포1 (2) | 2024.01.13 |
---|---|
[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -2. 수치자료의 대체중심위치 (4) | 2024.01.13 |
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -4. 기술통계 실습 (R)-과제 (0) | 2024.01.06 |
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -3. 수치 자료 정리 (4) | 2024.01.06 |
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -2. 범주형 자료 정리 (0) | 2024.01.06 |