공부하는 블로그
[통계학의 이해Ⅰ] 1주차 통계학이란? -3. 가중치 본문
728x90
해당 글은 숙명여자대학교 여인권 교수님의
K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.
추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.
학습 목표
- 표본설계 및 표본추출 과정에서 모집단의 구성과 다른 표본이 얻어질 수 있는 문제를 가중치 조정을 통해 해결하는 방법을 알아본다.
예시로 가중치 부여 알아보기
개표방송
- 지역구: A지역 7만명 투표, B지역 3만명 투표
- 개표율: A지역 10%, B지역 50%
- A지역 1번 후보자 득표율 60%, 2번 후보자 40%
- B지역 1번 후보자 득표율 30%, 2번 후보자 70%
→ 1번 득표수: 7만x0.1(A 지역 개표율)x0.6(A지역 득표율) + 3만x0.5(B지역 개표율)x0.3(B지역 득표율) = 0.87만
→ 2번 득표수: 7만x0.1(A 지역 개표율)x0.4(A지역 득표율) + 3만x0.5(B지역 개표율)x0.7(B지역 득표율) = 1.33만
→ 1번 득표율: 0.87/(0.87+1.33) = 39.5%, 2번 득표율: 60.5%
따라서 여기까지 확인해보면 2번 후보자가 더 유리하다. 하지만 A지역과 B지역의 개표율이 다르므로 고려해야됨 - 개표된 A지역의 한 표는 10표,
B지역의 한 표는 2표를 대표한다.
- 해당 지역의 득표율이 유지된다면
→ 1번 득표수: 7만x0.6 + 3만x0.3 = 5.1만 → 51.0%
→ 2번 득표수: 10만-5.1만 = 4.9만 → 49%
결국에는 현재 data만 확인해서 이야기를 하는 것이 아니라 이러한 추세가 유지된다면 하나의 data가 하나를 대표하는 것이 아닌 여러 개를 대표할 수 있는 것이고, 여러 개를 대표한다는 것을 "가중치"로 표기하는 것이다.
가중치(weight): 해당 자료가 몇 명을 대표하는지를 표시한 값 (상대적 중요도를 나타내는 값)
- 모집단의 구성정보는 표본을 추출하는데 있어 매우 중요한 사전정보
- 표본조사 결과의 정확도를 높일 수 있는 핵심 요소
- 모집단의 구성이 현재 표본의 구성하고 다를 경우 왜곡된 결과를 얻을 수 있기 때문에 조정이 필요
- 모집단이 서로 다른 특성을 가지는 부모집단들로 이루어진 경우, 특정 부모집단에서 표본이 많이 추출되거나 적게 추출되면 전체 모집단에 대해 왜곡된 결과가 나올 수 있다.
- 표본추출설계에 충실히 반영해도 실제 표본획득 과정에서 문제가 발생할 수 있다.
- 이럴 때 가중치를 적용한다. (하나의 표본이 몇 개를 대표하는지)
기본 가중치
단순확률추출법의 경우 모두 동일한 가중치를 적용
계통추출법은 1개가 k개를 대표
층화확률추출법과 집락추출은 가중치를 다르게 적용
①추출확률에 따른 가중치: w_1
- 등확률 추출인 경우 (추출될 확률이 모두 동일)
- 표본으로 선택될 확률 = n/N
- 표본에서 차지하는 비중 = 1/n
- 표본에서 한명이 N/n명을 대표
- 등확률 추출이 아닌 경우
- 추출확률의 상이함에 따른 조정(경우에 따라서 가중치가 달라짐)
- 설계 가중치, 표본추출 가중치, 기초 가중치
- 예시) 대학졸업자 취업 현황조사
- 수도권과 지방 대학
- 모집단: 수도권 = 40만, 지방 = 20만
- 표본크기: 수도권 = 500, 지방 = 500
- 추출률: 수도권 = 500/40만 = 1/800, 지방 = 1/400
- 설계가중치 = 1/추출률 (추출률의 역수)
- 수도권 표본 한 명이 800명을 대표
- 지방 표본 한 명이 400명을 대표
②무응답에 따른 가중치: w_2
- 대체표본이 없거나 일부 항목에 답을 하지 않은 경우
- 예시) 대학졸업자 취업 현황조사
- 응답률: 수도권 = 60%, 지방 = 80% 응답
- 응답가중치 = 1/응답률 (응답률의 역수)
- 수도권 응답자의 응답가중치 = 10/6
- 지방 응답자의 응답가중치 = 10/8
③사후층화를 위한 가중치: w_3
- 가중 표본 분포가 어떤 특성에 대해 알려진 모집단 분포와 일치하도록 조정
- 모집단에 대한 새로운 정보가 존재하고, 그 정보가 표본의 정보와 구성이 다를 경우 해당 정보에 따라 모집단의 성격이 달라지는 상황이 발생할 수 있다. 이럴 경우 사후에 다시 층화를 해야하며 이때 사용하는 것이 사후층화가중치이다.
- 사후층화가중치는 해당 층에서의 모집단 비율을 표본의 비율로 나눈 값으로 정의한다.
- 예시) 대학졸업자 취업 현황조사
- 성별에 따라 취업 현황에 차이가 있음 (가정)
- 수도권과 지방 졸업자의 성별 구성은 비슷함 (가정)
- 남녀비율: (45%, 55%), 표본에서의 비율: (60%, 40%)
→ 지방과 수도권의 남녀 성비는 동일하고, 모집단과 표본의 성비는 다르다고 가정
→ 이럴 경우 남자 한명의 가중치와 여자 한명의 가중치를 다르게 적용시켜야됨 - 사후층화 가중치
- 남자의 가중치 = 45/60
- 여자의 가중치 = 55/40
각각에서 얻어진 가중치들을 다 곱하여 그 값을 기반으로 분석을 진행하면 왜곡된 결과를 얻지 않을 수 있다.
요약
- 표본을 추출하는 과정에서 모집단과 구성이 다른 표본이 얻어지는 경우 가중치를 부여하여 해결할 수 있다.
- 가중치는 확률추출에 대한 가중치, 무응답에 따른 가중치, 사후충화를 위한 가중치를 곱하여 사용한다.
- 모집단의 형태와 표본의 형태가 다른 경우, 구성비가 다른 경우 등에 적용하여 사용할 수 있다.
'통계 > 통계학의 이해Ⅰ' 카테고리의 다른 글
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -2. 범주형 자료 정리 (0) | 2024.01.06 |
---|---|
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -1. 자료의 분류와 특성 (0) | 2024.01.01 |
[통계학의 이해Ⅰ] 1주차 통계학이란? -4. 통계프로그램(R) 안내 및 과제 (2) | 2024.01.01 |
[통계학의 이해Ⅰ] 1주차 통계학이란? -2. 표본추출 (2) | 2024.01.01 |
[통계학의 이해Ⅰ] 1주차 통계학이란? -1. 모집단과 표본 (2) | 2023.12.31 |