공부하는 블로그
[통계학의 이해Ⅰ] 1주차 통계학이란? -2. 표본추출 본문
해당 글은 숙명여자대학교 여인권 교수님의
K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.
추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.
학습 목표
- 표본 추출을 이해하는데 필요한 주요 개념을 알아본다.
- 모집단을 대표할 수 있는 표본을 얻기 위한 표본 추출 방법에 대해 알아본다.
확률표본추출 vs. 비확률표본추출
확률표본추출(Probability sampling)
: 모집단을 구성하는 모든 추출단위에 대해 표본으로 추출된 확률을 알 수 있는 추출법
- 표본으로 추출 될 확률을 배당할 수 있을 때 사용
- 표본추출틀(sampling frame, 표집틀) 필요
- 표본추출틀: 모집단을 대표하는 표본을 추출하기 위한 명부
- 예) 모집단: {1, 2, 3, 4, 5} ⇒ 2개의 표본
- 어떤 개체가 표본으로 뽑힐 확률 = 2/5
- 이러한 형태로 이루어져 있을 때 확률표본추출을 사용한다.
- 특정한 표본이 선정될 확률을 토대로 추정오차를 확률 개념을 이용하여 과학적으로 설명
- 확률추출방법에 의해 얻어진 표본을 이용해야 모집단에 대한 통계적 추론이 가능하다.
대표적인 추론 방법
- 단순확률추출, 계통추출, 집락추출, 층화추출 등이 있다.
비확률표본추출(non-probability sampling)
특정 표본이 선정될 확률을 알 수 없음
- 표본추출 가능성이 객관적이지 않은 방법
- 추론 결과의 정확도(precision)? X
- 따라서 해당되는 표본에 대해서 이렇다~ 라고 말을 할 수 있지만, 모집단이 이렇다~ 라는 말은 하기 어렵다.
- 예) 편의(convenience)추출, 유의(purposive)추출, 할당(quota)추출
- 편의추출: 자발적참여, 백화점 앞, 포털사이트 인터넷 조사
- 유의 추출: 전문가 선택 (특정 몇 명의 전문가를 섭외해서 조사하는 경우)
- 할당 추출: 그룹 내 조사대상 선택에서 랜덤화 과정 없음 (조사하는 사람이 임의로 표본을 선택해서 조사하는 경우)
간편하고 비용이 적게 든다는 이유로 사회조사에서 광범위하게 사용된다. 하지만 이런 조사 자료는 모집단을 대표할 수 있는 표본으로 보기 어렵기 때문에 분석 결과를 모집단 전체로 확대 해석하는 것은 문제가 될 수 있다. 따라서 통계학에서 보통 이야기하는 표본을 선정하는 방법은 모집단을 대표할 수 있는 방법인 "확률표본추출"이다.
목표모집단 vs. 조사모집단
목표모집단(target population): 개념적으로 규정한 조사 대상 전체
- 관심대상이 되는 모든 기본단위들의 집합 (일반적으로 생각하는 모집단과 같은 개념이다)
- 시공간상 명확하게 정의된 연구대상 집단
- 조사시점, 지리적인 경계, 연령 기준 등
- 예) 수도권 거주 고등학생 학부모 대상 조사
→ 여기서 "수도권 거주 고등학생 학부모"에 해당되는 모든 사람이 목표모집단이며 표본추출틀이 필요하다.
하지만 구상하기 애매하다. 이럴 경우에 사용되는 개념이 조사모집단(조사 가능 모집단)이다.
조사모집단(survey population): 실제로 표본을 추출하기 위해 규정한 조사 대상 전체
- 조사가능모집단(accessible population)
- (현실적인 제약 고려) 표본추출 대상 기본단위들의 집합
- 표본추출틀(sampling frame)을 통해 추출될 수 있는 기본단위들의 집합
- 예) 전화여론조사: 전화번호부(표본추출틀)에 등재된 전화보유 가구의 성인
- 즉, 표본추출틀 구성에 있어서 기본이 되는 것들을 모아 놓은 것을 조사모집단이라고 한다.
- 어떠한 조사를 할 때 내가 목표로 했던 목표모집단이 무엇이고 실제로 조사한 그룹인 조사모집단이 무엇인지 언급해주는 것이 좋다.
- 이러한 표본추출틀이 구성된 다음에 표본을 얻게 되는데, 그 표본을 얻을 때 방식에 따라 몇 가지 방식으로 나뉠 수 있다.
확률표본추출방법의 대표적인 4가지
단순확률추출법 (Simple random sampling) [a.k.a. 단순임의추출법, 무작위추출법, 단순무작위추출법]
계통추출법 (Systematic sampling)
층화확률추출법 (Stratified random sampling)
집락추출 (Cluster sampling)
①단순확률추출 (SRS, simple random sampling)
- 전체 모집단에서 무작위로 표본을 선택하는 것으로 모집단의 전체 개체가 표본으로 추출될 확률이 동일하도록 하는 방법
- 크기가 N인 모집단에서 크기 n인 표본을 무작위로 추출
- 모든 단위들이 표본에 선택될 확률이 동일
- 예) 가구조사: P (이니네 집 추출) = n/N
- 실제 대규모 조사에서는 거의 사용되지 않지만 다른 모든 표본추출방법의 기초 (표본추출 기초 이론)
②계통표본추출 (systematic sampling)
- 각 개체에 일련번호를 부여하고 등간격으로 개체를 선택하여 표본으로 사용하는 방법
- 표집틀에서 처음 1~k번째 단위들 중 하나를 랜덤하게 선택한 다음, 매 k번째에 해당되는 단위들을 표본으로 추출
계통표본 추출과정
- 추출간격(sampling interval) k의 결정: N/n 또는 정확도를 고려하여 결정
▶ 만약 500개에서 50개를 뽑는다고 하면 간격은 10씩 주면 되는 것이다.
▶ 정확도의 경우 상황에 따라 고려해서 임의로 결정하는 것이다. - 1~k에서 난수 하나를 선택해서 시작점을 선정
- 시작점에서 k를 반복적으로 더해서 표본 추출 (0k+3, 1k+3, 2k+3, 3k+3...)
- 예) 모집단 크기 = 500, 표본크기 = 50
- Data를 1~10까지 무작위로 선택하는데, 이럴 경우 모든 Data가 표본으로 선택될 확률이 1/10이다.
- 표집트링 없어 교유번호 부여, 난수발생 등 단순확률추출법을 적용하기 어려운 실제 조사현정에서 폭넓게 활용된다.
- 표본추출틀을 이용하기 어려운 경우에도 사용할 수 있는 확률추출법
- 표본추출틀이 변수의 특성에 따라 정렬되어있는 경우 전체 모집단에서 골고루 개체가 선택되기 때문에 모집단을 대표하는 표본을 얻을 수 있다.
- 예) 선거출구조사, 주차장 출입 차량에 대한 조사 등
③층화확률추출 (stratified random sampling)
- 모집단을 서로 중복되지 않는 여러 개의 층(strata)으로 나누고, 각 층에서 단순확률추출에 의해 표본을 추출
- 그림에서 특성이 조금씩 다른 부모집단에서 편향된 결과가 나오는 것을 방지하도록 각 부모집단 비율에 맞게끔 단순확률추출에 의해 표본을 추출하는 것이다.
- 층의 비율에 맞지 않게 표본이 추출될 경우 가중치를 반영한다. (가중치는 다음 강좌에서 다뤄진다)
- 부모집단(subpopulation)의 구성내역을 알고 있음 → 몇 %씩 차지하고 있는지
- 부모집단 간 특성에 차이가 있음 → 이를 고려함으로 인해 모집단을 잘 대표할 수 있는 표본을 추출할 수 있는 것
- 전체 모집단 크기 N, i번째 층의 크기
- 층화 표본추출 과정
- 층의 구성 (성별, 연령, 지역 등)
- 각 층에서 독립적으로 표본 추출 → 단순확률추출 사용
④집락표본추출 (cluster sampling)
- 서로 인접한 조사단위들을 묶어 구성한 집락(cluster)을 추출하고, 이들 집락 내의 조사단위들을 조사
- 예) 서울시 고등학생 월평균 사교육비 추정
- SRS
추출틀: 서울시 전체 고등학생 명단 → 작성비용 과다
조사대상: 서울 전역에 산재됨 → 조사비용 과다 - 집락추출
1단계: 고등학교추출 (primary sampling unit) → 고등학교 리스트는 쉽게 구할 수 있음
2단계: 학생추출 (학급추출 → 학생추출)
집락추출법 활용 이유
- 조사단위에 대한 표집틀 확보에 어려움
→ 상대적으로 집락에 대한 표집틀 확보는 쉬움 - 조사단위들이 산재되어 관측비용 증가
→ 지역적으로 집중되도록 표본추출
→ 고등학교가 서울시 내에 여러 구가 존재할 때, 구 전부를 조사하는 것이 아니라 몇 개의 구를 선정하고 구 안에서 학교를 선정한다. 그 다음 학교안에 있는 학급을 선정하고 학생을 선정한다. 이러한 단계를 통해 전체를 돌아다니지 않더라도 표본을 얻을 수 있고 이 또한 확률추출 방법으로 모집단을 대표할 수 있는 표본을 선정하는 방법이다.
요약
- 표본추출에는 확률표본추출과 비확률표본추출 두 가지 방법이 있다.
- 통계학에서 표본을 선정하고 모집단을 대표할 수 있는 표본추출 방법은 확률표본추출이다.
- 확률표본추출에는 단순확률추출법, 계통추출법, 층화추출법, 집락추출법 등이 있으며 상황에 맞게 적절한 방법을 선택하여 data를 확보한다.
- 실제로 조사회사나 통계청에서 이러한 방법들을 사용한다.
'통계 > 통계학의 이해Ⅰ' 카테고리의 다른 글
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -2. 범주형 자료 정리 (0) | 2024.01.06 |
---|---|
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -1. 자료의 분류와 특성 (0) | 2024.01.01 |
[통계학의 이해Ⅰ] 1주차 통계학이란? -4. 통계프로그램(R) 안내 및 과제 (2) | 2024.01.01 |
[통계학의 이해Ⅰ] 1주차 통계학이란? -3. 가중치 (2) | 2024.01.01 |
[통계학의 이해Ⅰ] 1주차 통계학이란? -1. 모집단과 표본 (2) | 2023.12.31 |