공부하는 블로그

[통계학의 이해Ⅰ] 1주차 통계학이란? -2. 표본추출 본문

통계/통계학의 이해Ⅰ

[통계학의 이해Ⅰ] 1주차 통계학이란? -2. 표본추출

young_o-o 2024. 1. 1. 01:44
728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.

K-MOOC 사이트 링크 공유합니다.


학습 목표

  • 표본 추출을 이해하는데 필요한 주요 개념을 알아본다.
  • 모집단을 대표할 수 있는 표본을 얻기 위한 표본 추출 방법에 대해 알아본다.

확률표본추출 vs. 비확률표본추출

확률표본추출(Probability sampling)

: 모집단을 구성하는 모든 추출단위에 대해 표본으로 추출된 확률을 알 수 있는 추출법

  • 표본으로 추출 될 확률을 배당할 수 있을 때 사용
  • 표본추출틀(sampling frame, 표집틀) 필요
    • 표본추출틀: 모집단을 대표하는 표본을 추출하기 위한 명부
  • 예) 모집단: {1, 2, 3, 4, 5} ⇒ 2개의 표본
  • 어떤 개체가 표본으로 뽑힐 확률 = 2/5
  • 이러한 형태로 이루어져 있을 때 확률표본추출을 사용한다.
  • 특정한 표본이 선정될 확률을 토대로 추정오차를 확률 개념을 이용하여 과학적으로 설명
  • 확률추출방법에 의해 얻어진 표본을 이용해야 모집단에 대한 통계적 추론이 가능하다.

대표적인 추론 방법

  • 단순확률추출, 계통추출, 집락추출, 층화추출 등이 있다.

 

비확률표본추출(non-probability sampling)

특정 표본이 선정될 확률을 알 수 없음

  • 표본추출 가능성이 객관적이지 않은 방법
  • 추론 결과의 정확도(precision)? X
  • 따라서 해당되는 표본에 대해서 이렇다~ 라고 말을 할 수 있지만, 모집단이 이렇다~ 라는 말은 하기 어렵다.
  • 예) 편의(convenience)추출, 유의(purposive)추출, 할당(quota)추출
  • 편의추출: 자발적참여, 백화점 앞, 포털사이트 인터넷 조사
  • 유의 추출: 전문가 선택 (특정 몇 명의 전문가를 섭외해서 조사하는 경우)
  • 할당 추출: 그룹 내 조사대상 선택에서 랜덤화 과정 없음 (조사하는 사람이 임의로 표본을 선택해서 조사하는 경우)

간편하고 비용이 적게 든다는 이유로 사회조사에서 광범위하게 사용된다. 하지만 이런 조사 자료는 모집단을 대표할 수 있는 표본으로 보기 어렵기 때문에 분석 결과를 모집단 전체로 확대 해석하는 것은 문제가 될 수 있다. 따라서 통계학에서 보통 이야기하는 표본을 선정하는 방법은 모집단을 대표할 수 있는 방법인 "확률표본추출"이다.

 

목표모집단 vs. 조사모집단

목표모집단(target population): 개념적으로 규정한 조사 대상 전체

  • 관심대상이 되는 모든 기본단위들의 집합 (일반적으로 생각하는 모집단과 같은 개념이다)
  • 시공간상 명확하게 정의된 연구대상 집단
  • 조사시점, 지리적인 경계, 연령 기준 등
  • 예) 수도권 거주 고등학생 학부모 대상 조사
    → 여기서 "수도권 거주 고등학생 학부모"에 해당되는 모든 사람이 목표모집단이며 표본추출틀이 필요하다.

하지만 구상하기 애매하다. 이럴 경우에 사용되는 개념이 조사모집단(조사 가능 모집단)이다.

 

조사모집단(survey population): 실제로 표본을 추출하기 위해 규정한 조사 대상 전체

  • 조사가능모집단(accessible population)
  • (현실적인 제약 고려) 표본추출 대상 기본단위들의 집합
  • 표본추출틀(sampling frame)을 통해 추출될 수 있는 기본단위들의 집합
  • 예) 전화여론조사: 전화번호부(표본추출틀)에 등재된 전화보유 가구의 성인
  • 즉, 표본추출틀 구성에 있어서 기본이 되는 것들을 모아 놓은 것을 조사모집단이라고 한다. 
  • 어떠한 조사를 할 때 내가 목표로 했던 목표모집단이 무엇이고 실제로 조사한 그룹인 조사모집단이 무엇인지 언급해주는 것이 좋다.
  • 이러한 표본추출틀이 구성된 다음에 표본을 얻게 되는데, 그 표본을 얻을 때 방식에 따라 몇 가지 방식으로 나뉠 수 있다.

 

확률표본추출방법의 대표적인 4가지

단순확률추출법 (Simple random sampling) [a.k.a. 단순임의추출법, 무작위추출법, 단순무작위추출법]

계통추출법 (Systematic sampling)

층화확률추출법 (Stratified random sampling)

집락추출 (Cluster sampling)

 

①단순확률추출 (SRS, simple random sampling)

  • 전체 모집단에서 무작위로 표본을 선택하는 것으로 모집단의 전체 개체가 표본으로 추출될 확률이 동일하도록 하는 방법
  • 크기가 N인 모집단에서 크기 n인 표본을 무작위로 추출
  • 모든 단위들이 표본에 선택될 확률이 동일
  • 예) 가구조사: P (이니네 집 추출) = n/N
  • 실제 대규모 조사에서는 거의 사용되지 않지만 다른 모든 표본추출방법의 기초 (표본추출 기초 이론)

 

②계통표본추출 (systematic sampling)

  • 각 개체에 일련번호를 부여하고 등간격으로 개체를 선택하여 표본으로 사용하는 방법
  • 표집틀에서 처음 1~k번째 단위들 중 하나를 랜덤하게 선택한 다음, 매 k번째에 해당되는 단위들을 표본으로 추출

계통표본 추출과정

  • 추출간격(sampling interval) k의 결정: N/n 또는 정확도를 고려하여 결정
    ▶ 만약 500개에서 50개를 뽑는다고 하면 간격은 10씩 주면 되는 것이다.
    ▶ 정확도의 경우 상황에 따라 고려해서 임의로 결정하는 것이다.
  • 1~k에서 난수 하나를 선택해서 시작점을 선정
  • 시작점에서 k를 반복적으로 더해서 표본 추출 (0k+3, 1k+3, 2k+3, 3k+3...)
  • 예) 모집단 크기 = 500, 표본크기 = 50

통계학의 이해Ⅰ 강의 자료 1-2의 페이지8

  • Data를 1~10까지 무작위로 선택하는데, 이럴 경우 모든 Data가 표본으로 선택될 확률이 1/10이다.
  • 표집트링 없어 교유번호 부여, 난수발생 등 단순확률추출법을 적용하기 어려운 실제 조사현정에서 폭넓게 활용된다.
  • 표본추출틀을 이용하기 어려운 경우에도 사용할 수 있는 확률추출법
  • 표본추출틀이 변수의 특성에 따라 정렬되어있는 경우 전체 모집단에서 골고루 개체가 선택되기 때문에 모집단을 대표하는 표본을 얻을 수 있다.
  • 예) 선거출구조사, 주차장 출입 차량에 대한 조사 등

 

③층화확률추출 (stratified random sampling)

각 비율에 맞게 단순확률추출로 표본을 추출

  • 모집단을 서로 중복되지 않는 여러 개의 층(strata)으로 나누고, 각 층에서 단순확률추출에 의해 표본을 추출
  • 그림에서 특성이 조금씩 다른 부모집단에서 편향된 결과가 나오는 것을 방지하도록 각 부모집단 비율에 맞게끔 단순확률추출에 의해 표본을 추출하는 것이다.
  • 층의 비율에 맞지 않게 표본이 추출될 경우 가중치를 반영한다. (가중치는 다음 강좌에서 다뤄진다)
  • 부모집단(subpopulation)의 구성내역을 알고 있음 → 몇 %씩 차지하고 있는지
  • 부모집단 간 특성에 차이가 있음 → 이를 고려함으로 인해 모집단을 잘 대표할 수 있는 표본을 추출할 수 있는 것
  • 전체 모집단 크기 N, i번째 층의 크기

통계학의 이해Ⅰ 강의 자료 1-2의 페이지9 N, i번째 크기 수식

  • 층화 표본추출 과정
  • 층의 구성 (성별, 연령, 지역 등)
  • 각 층에서 독립적으로 표본 추출 → 단순확률추출 사용

 

④집락표본추출 (cluster sampling)

  • 서로 인접한 조사단위들을 묶어 구성한 집락(cluster)을 추출하고, 이들 집락 내의 조사단위들을 조사
  • 예) 서울시 고등학생 월평균 사교육비 추정
  • SRS
    추출틀: 서울시 전체 고등학생 명단 → 작성비용 과다
    조사대상: 서울 전역에 산재됨 → 조사비용 과다
  • 집락추출
    1단계: 고등학교추출 (primary sampling unit) → 고등학교 리스트는 쉽게 구할 수 있음
    2단계: 학생추출 (학급추출 →  학생추출)

집락추출법 활용 이유

  • 조사단위에 대한 표집틀 확보에 어려움
    → 상대적으로 집락에 대한 표집틀 확보는 쉬움
  • 조사단위들이 산재되어 관측비용 증가
    → 지역적으로 집중되도록 표본추출
    → 고등학교가 서울시 내에 여러 구가 존재할 때, 구 전부를 조사하는 것이 아니라 몇 개의 구를 선정하고 구 안에서 학교를 선정한다. 그 다음 학교안에 있는 학급을 선정하고 학생을 선정한다. 이러한 단계를 통해 전체를 돌아다니지 않더라도 표본을 얻을 수 있고 이 또한 확률추출 방법으로 모집단을 대표할 수 있는 표본을 선정하는 방법이다.

요약

  • 표본추출에는 확률표본추출과 비확률표본추출 두 가지 방법이 있다.
  • 통계학에서 표본을 선정하고 모집단을 대표할 수 있는 표본추출 방법은 확률표본추출이다.
  • 확률표본추출에는 단순확률추출법, 계통추출법, 층화추출법, 집락추출법 등이 있으며 상황에 맞게 적절한 방법을 선택하여 data를 확보한다.
  • 실제로 조사회사나 통계청에서 이러한 방법들을 사용한다.