공부하는 블로그

[통계학의 이해Ⅰ] 1주차 통계학이란? -3. 가중치 본문

통계/통계학의 이해Ⅰ

[통계학의 이해Ⅰ] 1주차 통계학이란? -3. 가중치

young_o-o 2024. 1. 1. 14:28
728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.

K-MOOC 사이트 링크 공유합니다.


학습 목표

  • 표본설계 및 표본추출 과정에서 모집단의 구성과 다른 표본이 얻어질 수 있는 문제를 가중치 조정을 통해 해결하는 방법을 알아본다.

예시로 가중치 부여 알아보기

개표방송

  • 지역구: A지역 7만명 투표, B지역 3만명 투표
  • 개표율: A지역 10%, B지역 50%
    • A지역 1번 후보자 득표율 60%, 2번 후보자 40%
    • B지역 1번 후보자 득표율 30%, 2번 후보자 70%
      → 1번 득표수: 7만x0.1(A 지역 개표율)x0.6(A지역 득표율) + 3만x0.5(B지역 개표율)x0.3(B지역 득표율) = 0.87만
      → 2번 득표수: 7만x0.1(A 지역 개표율)x0.4(A지역 득표율) + 3만x0.5(B지역 개표율)x0.7(B지역 득표율) = 1.33만
      → 1번 득표율: 0.87/(0.87+1.33) = 39.5%, 2번 득표율: 60.5%
      따라서 여기까지 확인해보면 2번 후보자가 더 유리하다. 하지만 A지역과 B지역의 개표율이 다르므로 고려해야됨
    • 개표된 A지역의 한 표는 10표,
      B지역의 한 표는 2표를 대표한다.
  • 해당 지역의 득표율이 유지된다면
    → 1번 득표수: 7만x0.6 + 3만x0.3 = 5.1만 → 51.0%
    → 2번 득표수: 10만-5.1만 = 4.9만 → 49%

결국에는 현재 data만 확인해서 이야기를 하는 것이 아니라 이러한 추세가 유지된다면 하나의 data가 하나를 대표하는 것이 아닌 여러 개를 대표할 수 있는 것이고, 여러 개를 대표한다는 것을 "가중치"로 표기하는 것이다.

 

가중치(weight): 해당 자료가 몇 명을 대표하는지를 표시한 값 (상대적 중요도를 나타내는 값)

  • 모집단의 구성정보는 표본을 추출하는데 있어 매우 중요한 사전정보
    • 표본조사 결과의 정확도를 높일 수 있는 핵심 요소
    • 모집단의 구성이 현재 표본의 구성하고 다를 경우 왜곡된 결과를 얻을 수 있기 때문에 조정이 필요
  • 모집단이 서로 다른 특성을 가지는 부모집단들로 이루어진 경우, 특정 부모집단에서 표본이 많이 추출되거나 적게 추출되면 전체 모집단에 대해 왜곡된 결과가 나올 수 있다.
    • 표본추출설계에 충실히 반영해도 실제 표본획득 과정에서 문제가 발생할 수 있다.
    • 이럴 때 가중치를 적용한다. (하나의 표본이 몇 개를 대표하는지)

기본 가중치

통계학의 이해Ⅰ 강의 자료 1-3의 페이지4

단순확률추출법의 경우 모두 동일한 가중치를 적용

계통추출법은 1개가 k개를 대표

층화확률추출법집락추출은 가중치를 다르게 적용

 

①추출확률에 따른 가중치: w_1

  • 등확률 추출인 경우 (추출될 확률이 모두 동일)
    • 표본으로 선택될 확률 = n/N
    • 표본에서 차지하는 비중 = 1/n
    • 표본에서 한명이 N/n명을 대표
  • 등확률 추출이 아닌 경우
    • 추출확률의 상이함에 따른 조정(경우에 따라서 가중치가 달라짐)
    • 설계 가중치, 표본추출 가중치, 기초 가중치
  • 예시) 대학졸업자 취업 현황조사
    • 수도권과 지방 대학
    • 모집단: 수도권 = 40만, 지방 = 20만
    • 표본크기: 수도권 = 500, 지방 = 500
    • 추출률: 수도권 = 500/40만 = 1/800, 지방 = 1/400
    • 설계가중치 = 1/추출률 (추출률의 역수)
      • 수도권 표본 한 명이 800명을 대표
      • 지방 표본 한 명이 400명을 대표

②무응답에 따른 가중치: w_2

  • 대체표본이 없거나 일부 항목에 답을 하지 않은 경우
  • 예시) 대학졸업자 취업 현황조사
    • 응답률: 수도권 = 60%, 지방 = 80% 응답
    • 응답가중치 = 1/응답률 (응답률의 역수)
      • 수도권 응답자의 응답가중치 = 10/6
      • 지방 응답자의 응답가중치 = 10/8

③사후층화를 위한 가중치: w_3

  • 가중 표본 분포가 어떤 특성에 대해 알려진 모집단 분포와 일치하도록 조정
  • 모집단에 대한 새로운 정보가 존재하고, 그 정보가 표본의 정보와 구성이 다를 경우 해당 정보에 따라 모집단의 성격이 달라지는 상황이 발생할 수 있다. 이럴 경우 사후에 다시 층화를 해야하며 이때 사용하는 것이 사후층화가중치이다.
  • 사후층화가중치는 해당 층에서의 모집단 비율을 표본의 비율로 나눈 값으로 정의한다.
  • 예시) 대학졸업자 취업 현황조사
    • 성별에 따라 취업 현황에 차이가 있음 (가정)
    • 수도권과 지방 졸업자의 성별 구성은 비슷함 (가정)
    • 남녀비율: (45%, 55%), 표본에서의 비율: (60%, 40%)
      → 지방과 수도권의 남녀 성비는 동일하고, 모집단과 표본의 성비는 다르다고 가정
      → 이럴 경우 남자 한명의 가중치와 여자 한명의 가중치를 다르게 적용시켜야됨
    • 사후층화 가중치
      • 남자의 가중치 = 45/60
      • 여자의 가중치 = 55/40

통계학의 이해Ⅰ 강의 자료 1-3의 페이지9

 

각각에서 얻어진 가중치들을 다 곱하여 그 값을 기반으로 분석을 진행하면 왜곡된 결과를 얻지 않을 수 있다.

 


요약

  • 표본을 추출하는 과정에서 모집단과 구성이 다른 표본이 얻어지는 경우 가중치를 부여하여 해결할 수 있다.
  • 가중치는 확률추출에 대한 가중치, 무응답에 따른 가중치, 사후충화를 위한 가중치를 곱하여 사용한다.
  • 모집단의 형태와 표본의 형태가 다른 경우, 구성비가 다른 경우 등에 적용하여 사용할 수 있다.