공부하는 블로그
[통계학의 이해Ⅰ] 1주차 통계학이란? -1. 모집단과 표본 본문
해당 글은 숙명여자대학교 여인권 교수님의
K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.
수강 시기가 끝나 청강 신청을 해서 진행했습니다.
추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.
해당 강의 소개 내용: 강좌의 목적은 통계학에서 사용되는 기본 개념과 원리를 이해하는 것이다. 주요 강좌 내용은 모집단을 대표하는 표본의 수집 및 정리, 확률과 확률 분포의 개념과 이론, 다양한 확률 분포의 소개와 분포들 간의 관계, 확률 표본과 표집 분포 등으로 이루어져 있으며, 이후 심화된 통계학을 공부할 수 있는 이론적 기반을 마련할 수 있다.
학습 목표
- 통계학이 무엇인지에 대한 밑그림을 그려본다.
- 통계학을 이해하는데 핵심 요소인 모집단과 표본에 대해 알아본다.
통계학(Statistics)이란? - 들어가기
500원짜리 동전을 돌렸을 때 학이 나올 확률이 70% 정도된다.
실제로 500원짜리 동전을 1000번 돌리는 실험을 수행했을 때 총 679번이 나오게 되었다.
학이 나올 가능성이 70%정도 된다는 것이 얼추 맞다는 주장이다.
이를 통계학적 관점으로 살펴본다면?
500원짜리 동전을 돌렸을 때 학이 나올 확률이 70% 정도
- 관심 또는 연구의 대상 (문자, 주제, 가설)
500원짜리 동전을 1000번 돌리는 실험
- 실험을 통해 자료를 수집
실험 결과 1000번 중 학이 679번이 나옴
- 수집돤 자료를 정리, 요약 분석하여 자료의 특성을 파악
학이 나올 가능성이 70%정도 된다는 것이 얼추 맞다는 주장
- 자료의 특성을 이용하여 관심 또는 연구의 대상에 대해 추론
모집단 (population)
: 잘 정의된 연구목적과 이와 연계된 명확한 연구 대상을 설정
- 예) 대통령 후보의 지지율? → 유권자 (연구 대상)
즉, "연구 대상이 되는 모든 개체의 집합"이 모집단의 정의다.
- 예) 19대 대통령선거 선거인명부 유권자수는 42,432,413명 → 해당 인원이 모집단이 되는 것이다.
* 500원 실험에서의 모집단은?
- 해당 실험에서 사용된 모집단은 모호하다. 무한히 많이 반복을 했을 때 구성되는 전체의 동전들이 모집단이 되는 것으로 무한인 것이다.
전수조사
: 모집단 전체를 대상으로 조사하는 경우
- 조선(대한제국포함)시대 임금의 수명 → 27명의 임금의 수명 자료
- 2010년까지의 인구주택총조사 (census)
대부분의 모집단은 매우 커 비용이 많이 들기 때문에 전체를 조사하기 어렵다.
- 적절한 방법으로 일부의 자료를 추출해서 조사한다.
- 보통의 경우 전체 조사를 하는 것이 아니라 적절한 방법을 통해서 기본 정보를 기반으로 일부의 자료를 추출하여 분석을 하고 결과를 도출한다. 이때 사용되는 일부의 자료를 "표본"이라고 한다.
- 모집단의 크기에 따라서 유한모집단(finite population)과 무한모집단(infinite population)으로 구분한다.
표본(Sample)
: 모집단으로부터 선택된 일부의 개체
- 이 표본에서 중요한 부분은 표본이 과연 모집단을 대표할 수 있는지가 key point이다
- 이는 몇 개의 표본을 어떻게 뽑아야하는지와 연관이 되어있다.
- 모집단의 특성을 잘 반영하는 표본을 어떻게 뽑을 것인지가 매우 중요하다.
- 예) 500원 실험에서 나온 1000번의 동전 결과
- 예) 각종 여론조사에 참여한 유권자
표본을 추출할 때 고려해야하는 부분
- 추출된 표본이 모집단을 대표할 수 있는가?
- 몇 명(개)의 표본을 어떻게 뽑아야 하는가?
통계학을 이해하기 위해서는 해당 구조를 잘 이해해야 된다.
- 모집단Ⅰ: 우리가 알아보고자 하는, 알고 싶어하는 모집단
- 표본: 모집단Ⅰ의 성질을 대표할 수 있는 표본
- 모집단Ⅱ: 표본을 통해 생성된 새로운 모집단으로 이 모집단은 이럴 것이다 라는 추론을 통해 만들어진 모집단
- 확률(Probability): 모집단에서 표본을 추출할 때 모집단의 성질을 고려하여 어떻게 표현할 것인지, 어떠한 방법으로 추출했을 때 표본이 어떠한 성질을 갖는지 등에 대하여 다루는 것
- 통계적 추론(Statistical inference): 표본을 얻은 다음에 모집단으로 다시 일반화하는 과정 [변동성을 갖는 표본 정보에 확률을 적용하여 모집단의 특성을 추론하는 것]
- 기술통계(descriptive statistics): 조사나 실험등을 통해 얻은 표본을 표나 그래프와 같은 방법으로 요약정리하거나 평균과 분산 같은 대푯값을 이용하여 표본의 특성을 파악하는 방법이나 결과
※따라서
- 해당 과정들이 적절하게 이루어지지 않는다면 모집단Ⅰ과 모집단Ⅱ는 전혀 다른 성질을 갖는 모집단이 될 것이고, 해당 과정이 적절하게 일어난다면 두 모집단은 같진 않지만 유사한 모집단이 되는 것이다.
→적절하게 일어난다는 것은 표본을 어떻게 선택하고 사용된 분석 방법이 얼마나 적절한지이다. - 궁극적으로 표본의 특성에 관심이 있는 것이 아니라 모집단의 특성에 관심이 있는 것이다.
- 모집단의 특성을 알아보기 위해 표본을 뽑고 표본이 가지고 있는 특성을 기반으로 확률적으로 모집단의 특성을 추론하는 것이다.
요약
통계학이란?
- 괸심 또는 연구 대상인 모집단의 특성을 파악하기 위해
- 모집단으로부터 일부의 자료(표본)를 수집하고
- 수집된 표본을 정리, 요약, 분석하여 표본의 특성을 파악한 후
- 표본의 특성을 이용하여 모집단의 특성에 대해 추론 (통계 추론을 통해서 모집단을 일반화)하는 원리와 방법을 제공하는 학문
'통계 > 통계학의 이해Ⅰ' 카테고리의 다른 글
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -2. 범주형 자료 정리 (0) | 2024.01.06 |
---|---|
[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -1. 자료의 분류와 특성 (0) | 2024.01.01 |
[통계학의 이해Ⅰ] 1주차 통계학이란? -4. 통계프로그램(R) 안내 및 과제 (2) | 2024.01.01 |
[통계학의 이해Ⅰ] 1주차 통계학이란? -3. 가중치 (2) | 2024.01.01 |
[통계학의 이해Ⅰ] 1주차 통계학이란? -2. 표본추출 (2) | 2024.01.01 |