공부하는 블로그

[통계학의 이해Ⅰ] 1주차 통계학이란? -1. 모집단과 표본 본문

통계/통계학의 이해Ⅰ

[통계학의 이해Ⅰ] 1주차 통계학이란? -1. 모집단과 표본

young_o-o 2023. 12. 31. 18:08
728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

수강 시기가 끝나 청강 신청을 해서 진행했습니다.

추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.

 

해당 강의 소개 내용: 강좌의 목적은 통계학에서 사용되는 기본 개념과 원리를 이해하는 것이다. 주요 강좌 내용은 모집단을 대표하는 표본의 수집 및 정리, 확률과 확률 분포의 개념과 이론, 다양한 확률 분포의 소개와 분포들 간의 관계, 확률 표본과 표집 분포 등으로 이루어져 있으며, 이후 심화된 통계학을 공부할 수 있는 이론적 기반을 마련할 수 있다.

K-MOOC 사이트 링크 공유합니다.


학습 목표

  • 통계학이 무엇인지에 대한 밑그림을 그려본다.
  • 통계학을 이해하는데 핵심 요소인 모집단과 표본에 대해 알아본다.

통계학(Statistics)이란? - 들어가기

500원짜리 동전을 돌렸을 때 학이 나올 확률이 70% 정도된다.

실제로 500원짜리 동전을 1000번 돌리는 실험을 수행했을 때 총 679번이 나오게 되었다.

학이 나올 가능성이 70%정도 된다는 것이 얼추 맞다는 주장이다.

 

이를 통계학적 관점으로 살펴본다면?

500원짜리 동전을 돌렸을 때 학이 나올 확률이 70% 정도

  • 관심 또는 연구의 대상 (문자, 주제, 가설)

500원짜리 동전을 1000번 돌리는 실험

  • 실험을 통해 자료를 수집

실험 결과 1000번 중 학이 679번이 나옴

  • 수집돤 자료를 정리, 요약 분석하여 자료의 특성을 파악

학이 나올 가능성이 70%정도 된다는 것이 얼추 맞다는 주장

  • 자료의 특성을 이용하여 관심 또는 연구의 대상에 대해 추론

 

모집단 (population)

: 잘 정의된 연구목적과 이와 연계된 명확한 연구 대상을 설정

  • 예) 대통령 후보의 지지율? → 유권자 (연구 대상)

즉, "연구 대상이 되는 모든 개체의 집합"이 모집단의 정의다.

  • 예) 19대 대통령선거 선거인명부 유권자수는 42,432,413명 → 해당 인원이 모집단이 되는 것이다.

 

* 500원 실험에서의 모집단은?

  • 해당 실험에서 사용된 모집단은 모호하다. 무한히 많이 반복을 했을 때 구성되는 전체의 동전들이 모집단이 되는 것으로 무한인 것이다.

 

전수조사

: 모집단 전체를 대상으로 조사하는 경우

  • 조선(대한제국포함)시대 임금의 수명 → 27명의 임금의 수명 자료
  • 2010년까지의 인구주택총조사 (census)

 

대부분의 모집단은 매우 커 비용이 많이 들기 때문에 전체를 조사하기 어렵다.

  • 적절한 방법으로 일부의 자료를 추출해서 조사한다.
  • 보통의 경우 전체 조사를 하는 것이 아니라 적절한 방법을 통해서 기본 정보를 기반으로 일부의 자료를 추출하여 분석을 하고 결과를 도출한다. 이때 사용되는 일부의 자료를 "표본"이라고 한다.
  • 모집단의 크기에 따라서 유한모집단(finite population)무한모집단(infinite population)으로 구분한다. 

 

표본(Sample)

: 모집단으로부터 선택된 일부의 개체

  • 이 표본에서 중요한 부분은 표본이 과연 모집단을 대표할 수 있는지가 key point이다
  • 이는 몇 개의 표본을 어떻게 뽑아야하는지와 연관이 되어있다.
  • 모집단의 특성을 잘 반영하는 표본을 어떻게 뽑을 것인지가 매우 중요하다.
  • 예) 500원 실험에서 나온 1000번의 동전 결과
  • 예) 각종 여론조사에 참여한 유권자

 

표본을 추출할 때 고려해야하는 부분

  • 추출된 표본이 모집단을 대표할 수 있는가?
  • 몇 명(개)의 표본을 어떻게 뽑아야 하는가?

 

통계학의 이해Ⅰ 강의 자료 1-1의 페이지9 [확률 추가]

 

통계학을 이해하기 위해서는 해당 구조를 잘 이해해야 된다.

  • 모집단Ⅰ: 우리가 알아보고자 하는, 알고 싶어하는 모집단
  • 표본: 모집단Ⅰ의 성질을 대표할 수 있는 표본
  • 모집단Ⅱ: 표본을 통해 생성된 새로운 모집단으로 이 모집단은 이럴 것이다 라는 추론을 통해 만들어진 모집단
  • 확률(Probability): 모집단에서 표본을 추출할 때 모집단의 성질을 고려하여 어떻게 표현할 것인지, 어떠한 방법으로 추출했을 때 표본이 어떠한 성질을 갖는지 등에 대하여 다루는 것
  • 통계적 추론(Statistical inference): 표본을 얻은 다음에 모집단으로 다시 일반화하는 과정 [변동성을 갖는 표본 정보에 확률을 적용하여 모집단의 특성을 추론하는 것]
  • 기술통계(descriptive statistics): 조사나 실험등을 통해 얻은 표본을 표나 그래프와 같은 방법으로 요약정리하거나 평균과 분산 같은 대푯값을 이용하여 표본의 특성을 파악하는 방법이나 결과

 

※따라서

  • 해당 과정들이 적절하게 이루어지지 않는다면 모집단Ⅰ과 모집단Ⅱ는 전혀 다른 성질을 갖는 모집단이 될 것이고, 해당 과정이 적절하게 일어난다면 두 모집단은 같진 않지만 유사한 모집단이 되는 것이다.
    →적절하게 일어난다는 것은 표본을 어떻게 선택하고 사용된 분석 방법이 얼마나 적절한지이다.
  • 궁극적으로 표본의 특성에 관심이 있는 것이 아니라 모집단의 특성에 관심이 있는 것이다.
  • 모집단의 특성을 알아보기 위해 표본을 뽑고 표본이 가지고 있는 특성을 기반으로 확률적으로 모집단의 특성을 추론하는 것이다.

요약

통계학이란?

  • 괸심 또는 연구 대상인 모집단의 특성을 파악하기 위해
  • 모집단으로부터 일부의 자료(표본)를 수집하고
  • 수집된 표본을 정리, 요약, 분석하여 표본의 특성을 파악한 후
  • 표본의 특성을 이용하여 모집단의 특성에 대해 추론 (통계 추론을 통해서 모집단을 일반화)하는 원리와 방법을 제공하는 학문