공부하는 블로그

[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -1. 수치자료 분포의 중심위치 - 평균 본문

통계/통계학의 이해Ⅰ

[통계학의 이해Ⅰ] 3주차 일변량 자료에 대한 수치적 기술통계 -1. 수치자료 분포의 중심위치 - 평균

young_o-o 2024. 1. 13. 14:47
728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.

K-MOOC 사이트 링크 공유합니다.


학습목표

  • 수치자료의 중심위치를 나타내는 대푯값 중 평균에 대해 알아본다.
  • 추가적으로 자료 형태에 따라 대체 평균들을 알아본다.

수치자료를 이용한 자료정리

  • 그래프와 같은 시각적인 방법은 자료의 특성을 파악하는데 아주 중요한 정보를 제공하지만 보는 사람에 따라 다르게 해석할 수 있다. 
  • 따라서 최종 결과는 자료의 특성을 객관적으로 나타내는 수치로 제시된다.
  • 자료를 대표할 수 있는 중심위치(central location)과 자료들이 얼마나 퍼져있는지를 나타내는 산포(dispersion)으로 자료의 특성을 표기한다.

중심위치

  • n개의 수치자료: x_1, x_2,...x_n
    • x_i: i번째 표본의 값(관측값)
    • n: 표본크기(sample size)
  • 가장 많이 사용되는 중심위치 통계값은 평균

표본평균 (sample mean)

  • 표본평균은 표본의 합을 표본크기로 나눈 값
  • 영어로는 average라고 하는데, 통계학에서는 mean이라는 표현을 많이 사용한다.

통계학의 이해Ⅰ 강의 자료 3-1의 페이지2

  • x bar라고 읽으며 해당 자료의 평균을 의미한다.

평균 = 무게중심

  • 표본 평균이 중심위치로 적절한 이유 중 하나는 이 점을 중심으로 좌우 자료의 무게가 같은 무게중심이기 때문이다.

통계학의 이해Ⅰ 강의 자료 3-1의 페이지3
수식 풀어서 쓴 것 (필기)

  • 따라서 평균은 무게중심을 의미한다.
  • 해당 수식을 적용하면 편차의 합이 0이라는 것을 알 수 있다.

편차의 합 수식 대입

표본비율(sample proportion)

  • i번째 관측값이 어떤 범주에 속하면 x_i의 값을 1, 속하지 않으면 0으로 표시
    • 이 범주에 포함된 표본의 수 y = x_1 + x_2 + ... x_n이 된다.

통계학의 이해Ⅰ 강의 자료 3-1의 페이지4

  • 표본비율을 구하는 수식은 위와 같아지고, 따라서 표본비율 = 표본평균 이 된다.

통계학의 이해Ⅰ 강의 자료 3-1의 페이지5

  • 8명의 졸업생의 초임 월급 평균을 구한다고 할 떄, 점 도표를 그리지 않았다면 그냥 평균이 277.5구나 라고만 생각할 수 있다.
  • 하지만 400을 제외한 나머지 데이터들은 전부 평균보다 아래 있는 것을 확인할 수 있다.
  • 이러한 경우 과연 평균이 중심위치로 적절한가? 라는 의문이 들 수 있다.
  • 특정 값에 의해서 평균이 대부분의 자료보다 한쪽으로 멀리 떨어지게 되는데, 이처럼 일부 멀리 떨어진 관측 값들을 이상점이라고 한다.

이상점(outlier)

  • 앞의 예제 결과는 자료 중 400만원이라는 값이 다른 자료와 많이 떨어져 있어 평균의 값이 커짐
  • 대부분의 관측값으로부터 멀리 떨어져 있는 일부 관측값
  • 표본크기가 크지 않은 경우 이상점이 자료에 크게 영향을 끼칠 수 있음
  • 이상점의 포함 여부에 따라 표본평균의 값에 차이가 크게 나는 경향이 있다.
    • 이상점에 로버스트(robust)하지 않음
  • 대체 통계값: 중앙값, 절사 평균, 최빈값...
  • 평균의 경우 이상점에 로버스트하지 않다는 단점이 있기 때문에 중심위치로 평균을 사용하면 오히려 좋지 않은 결과를 이끌 수 있다. 
  • 이러한 경우 대체 평균을 사용하여 적절한 중심위치를 사용한다.

통계학의 이해Ⅰ 강의 자료 3-1의 페이지9

  • 투자비율을 다르게 하여 투자했을 경우 평균 수익은 얼마인가?
  • 이러한 경우 각각에 투자한 금액에 대하여 다른 가중치를 부여하여 가중평균을 구하게 된다.

가중평균의 무게중심에 대한 수식
통계학의 이해Ⅰ 강의 자료 3-1의 페이지11

  • 기하평균은 어떤 지표의 평균 성장률을 계산할 때 주로 사용한다.

통계학의 이해Ⅰ 강의 자료 3-1의 페이지12
조화평균 계산 수식 풀이

  • 중요한 것은 평균이지만 전부 다른 형태로 표현된다는 것

분석하고자 하는 데이터가 어떤 형태의 구조를 갖고있냐를 파악하고 적절한 형태의 평균을 사용하는 것이 중요하다.


요약

  • 평균은 무게중심이고 로버스트하지 않다.
  • 로버스트하지 않다는 것은 이상점 유무에 따라 차이가 크게 난다는 것이다.
  • 표본비율은 평균의 일종이다.
  • 기하평균과 조화평균에 대비하여 일반적인 평균을 산술평균이라고 한다.