공부하는 블로그

[통계학의 이해Ⅰ] 5주차 확률의 기본 개념과 원리 -1. 확률이란? 본문

통계/통계학의 이해Ⅰ

[통계학의 이해Ⅰ] 5주차 확률의 기본 개념과 원리 -1. 확률이란?

young_o-o 2024. 1. 17. 21:52
728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.

K-MOOC 사이트 링크 공유합니다.


학습목표

  • 확률을 정의하기 위한 전제 조건을 알아본다.

통계학이란?

통계학의 이해Ⅰ 강의 자료 5-1의 페이지1

  • 통계학은 관심을 갖는 모집단이 있을 때 해당 모집단의 특성을 알아보기 위해 표본을 얻고, 이 표본의 특성을 이용하여 새로운 모집단을 만드는 과정이다.
  • 그리고 모집단에서 표본을 어떻게 추출할 것인지에 대하여 조사, 실험, 관찰과 같은 방법들이 있다.
  • 표본의 특징을 파악하기 위해 표, 그래프, 평균, 표준편차 등을 확인하는 방법이 있는데, 이를 기술통계라고 한다.
  • 궁극적으로 관심을 갖는 것은 모집단이기 때문에 표본에서 얻어진 정보를 바탕으로 새로운 모집단을 생성하는 과정을 통계적 추론이라고 한다.
  • 해당 과정이 잘 일어난다면 원래 모집단과 새로운 모집단은 유사할 것이고, 잘 일어나지 않는다면 두 모집단은 전혀 다른 모집단이 될 수 있다.
  • 여기서 표본을 추출할 때, 언제 누가 어떻게 표본을 추출하는지에 따라 매번 표본이 달라질 수 있다.이를 설명하기 위해 확률을 배우게 되는 것이다.
  • 표본의 성질이 매번 바뀌는지 바뀌지 않는지 확인하기 위해서는 모집단에 대해 알고 있어야 된다. 이를 통해 나온 결과값이 모집단과 얼마나 차이가 나는지, 어떤 변동성을 갖고 있는지 확인해볼 수 있다. 따라서 모집단에 대해서 알고 있다고 전제하고, 이 때 표본이 어떠한 성질을 갖고 있는지 알아보는 것이다.

확률(Probability)이란?

  • 몇 가지 실험을 통해 확률이 발생하는 상황에서의 공통적인 특징을 확인한다.
    1. 주사위 던지기
    2. 앞면이 나올 때까지 동전 던지기
    3. 휴대전화의 수명
  • 실험을 시행하기 전에 발생할 수 있는 모든 결과를 알 수 있다.
    1. {1, 2, 3, 4, 5, 6}
    2. 앞면을 H (head), 뒷면을 T(tail)라고 하면, {H, TH, TTH, ...}
    3. x를 수명(단위 일)이라고 하면, {x | 0 ≤ x}
  • 실험을 하기 전까지 이들 결과 중 어떤 것이 발생할 것인지에 대해 확실하게 예측할 수 없다. → 불확실성

이 두 특징을 가지는 실험을 확률실험(random experiment)이라고 한다.

  • 통계학에서는 확률 표현이 크게 세 가지로 나뉘게 된다. 
    1. Probability: 항상 0~1 사이라는 개념이 들어간다.
    2. Random: 무작위다.
    3. Stochastic : 여기 과정에서는 다루지 않는다.
  • 이 확률 실험에서 발생 가능한 모든 결과들을 모아 놓은 집합을 표본공간(sample space)라고 하는데, 표본공간 기호는 Ω라고 표기한다.
  • 표본공간 내에서 관심을 가지는 부분집합을 사건(event)라고 한다. 예전에는 사상이라는 표현을 사용하기도 했다.
    1.  홀수가 나오는 경우, {1, 3, 5}
    2. 3번 이하로 던지는 경우, {H, TH, TTH}
    3. 10년 이상 사용하는 경우, {x ≥ 10}
  • 확률을 얘기할 때에는 단순히 확률이 아니라 어떠한 사건이 일어날 확률이라고 얘기한다. 이 사건은 표본공간 내에 존재하는 것이고, 표본공간이 만들어지기 위해서는 확률실험을 해야된다. 따라서 확률실험으로부터 출발을 하게 된다.

확률 (Probability): 어떤 사건이 발생할 가능성이 얼마나 되는지를 나타내는 0과 1사이의 값으로 표현된 수치적 측도

  • 0으로 갈수록 가능성은 작고 1로 갈수록 가능성은 커지는 것이다.
  • 확률을 언급하기 위해서는 확률실험이 전제, 표본공간과 사건이 설정되어야 된다.
  • 항상 확률실험이 전제가 되고 그에 따라 표본공간이 만들어지고 그 내의 부분집합인 사건의 확률로 언급하는 것이다.
  • 표본공간과 사건 모두 집합이기 때문에 집합 관련 연산이나 정의에 대해 알 필요가 있다.

통계학 기본개념과 원리 제 2판 p93

  • 합사건; A와 B 둘 중 하나라도 들어간 것
  • 교사건: A이고 B인 경우로 A도 포함 B도 포함되는 경우
  • A의 여사건: A사건의 밖에 있는 것 중에서 표본공간 내에 있는 것

A의 여사건은 A사건을 제외하 표본공간 9하늘색)

  • 교환법칙: A와 B의 교(합)사건과 B와 A의 교(합)사건은 같다는 것
  • 결합법칙: 총 3번 진행할 경우 앞을 먼저하는 것과 뒤를 먼저하는 것은 동일
  • 분배법칙: A와 B의 합사건과 C의 교사건은 A와 C의 합사건을 구하고 B와 C의 합사건을 구한 뒤 그 둘의 교사건으로 묶은 형태로 표현 가능
  • 드모르간법칙: A와 B의 합사건 전체의 여사건은 각각의 사건의 여사건의 교사건이 된다. (합의 반대가 교이다.) 마찬가지로 A와 B의 교사건 전체의 여사건은 각각의 여사건의 합사건으로 표현할 수 있음
  • 무한개의 사건이 존재: 여러 사건이 있을 경우 전부 합사건으로 표현하기 보다는 간단하게 summation한 것처럼 i는 1부터 n까지 union하는 식으로 표현 가능, 반대로 intersection 1부터 n가지 표현 가능
  • 배반사건 (disjoint, mutually exclusive): 임의의 두 사건 A와 B가 공통 부분이 없는 경우, 수식으로는 두 사건의 교집합이 공집합이다 라고 한다.

A와 B는 서로 배반사건이다.

  • 위처럼 집합 간의 관계를 이해하기 쉽게 보여주는 그림을 벤다이어그램(Veen diagram)이라고 한다.

에시

통계학의 이해Ⅰ 강의 자료 5-1의 페이지8

  • 전체 표본공간 Ω는 위처럼 표현하며 총 16가지가 나온다.
  • 관심있는 사건 A와 B는 위처럼 표현이 가능하다.

통계학의 이해Ⅰ 강의 자료 5-1의 페이지9

 

  • 이를 벤다이어그램으로 표현하면 위 그림과 같이 나오고 각각의 사건에 대하여 눈으로 쉽게 알 수 있다.

고전적 확률 (Classical probability)

  • 17세기 중반 도박 문제를 해결하기 위해 나온 예제이다.파스칼이나 페르마 등이 도박문제에 대해 의견을 교환하면서 확률을 수리적으로 다루기 시작하였다.
  • 이들은 카드게임에서 각 패가 발생할 수 있는 빈도를 계산하고 빈도가 적은 패를 더 높은 패로 정했다.
  • 그 당시 확률은 표본공간에서 사건에 해당되는 원소가 차지하는 비율로 정의하였다.
  • 표본공간이 n개의 원소로 이루어져 있고 각 원소들의 발생가능성이 동일하다면 k개의 원소를 가지는 사건 A의 확률은 직관적으로 표본공간에서 A가 차지하는 비율이 될 것이다. 

통계학 기본개념과 원리 제 2판 p95 고전적확률 (등확률)

  • #(A)와 #(Ω)은 각각 사건 A와 표본공간 Ω에 속한 원소의 개수
  • 고전적확률은 각 원소의 발생가능성이 동일(equally likely)하다는 가정하에서 정의

통계학의 이해Ⅰ 강의 자료 5-1의 페이지11

  • 예를들어 주사위를 던지면 모든 숫자의 발생 가능성은 동일하다고 볼 수 있음
  • 이때 표본공간의 원소를 근원사건이라고 하며 근원사건의 발생가능성이 동일하다는 것은 equally likely라고 함
  • P(A)는 probability of event A를 표현한 것으로 A사건이 발생할 확률이다.
  • 주사위의 경우 간단하지만, 카드게임으로 가면 해당 문제가 매우 복잡해진다. 표본공간의 원소의 개수와 사건 A의 원소의 개수를 효율적으로 알 수 있는 방법을 정리한 것이 경우의 수(the number of cases)이다.

통계학의 이해Ⅰ 강의 자료 5-1의 페이지12

  • 정사면체 주사위는 기본적으로 각 눈이 나올 가능성이 동일해서 고전적인 확률 상황에 맞음
  • 사건 A와 B에 대하여 벤다이어그램을 통해 쉽게 원소의 개수를 파악할 수 있음
  • P(A); 첫 번째 주사위가 짝수일 확률
  • P(B): 두 주사위의 합이 4일 확률
  • P(A^c ∩ B); 첫 번째 주사위가 홀수이고 두 주사위의 합이 4일 확률
  • P(A^c ∩ B^c) ; 첫 번째 주사위가 홀수이고 두 주사위의 합이 4가 아닐 확률

연속표본공간(continuous sample space)

  • 표본공간이 셀 수 없을 정도로 많은 원소로 이루여져 있는 것
  • 연속표본공간에서는 표본공간뿐만 아니라 대부분의 사건도 무한개의 원소를 갖는다.
  • 따라서 원소의 수를 비율로 표시하면 확률이 ∞/ ∞ 형태가 되기 때문에 정의하기 어려움
  • 발생가능성이 동일한 상황을 선이나 평면 등을 이용
  • 사건 A가 발생한다는 것은 Ω내에서 무작위로 한 점을 선택할 때, 이 점이 영역 A에 있다는 의미
  • 사건 A의 확률은 전체 영역에서 A가 차지하는 비율이다.

통계학의 이해Ⅰ 강의 자료 5-1의 페이지13

예제

  • 두 사람이 0시~1시 사이에 만나기로 함
    • 각각의 사람은 0시~1시 사이에 무작위로 도착
    • 먼저 도착한 사람이 다른 사람을 만날 때까지 20분이상 기다릴 확률?


요약

  • 표본공간은 발생가능한 것을 다 모아놓은 집합이다.
  • 표본공간과 불확실성의 특징을 가진 경우를 확률실험이라고 한다.
  • 확률은 어떠한 사건이 발생할 가능성을 0과 1사이로 표시한 것이다.
  • 고전적인 확률에서는 발생가능성이 동일하다는 것이 전제가 되고 표본공간의 원소 개수에 대하여 A 사건의 원소 개수를 비율로 표시한 것이다.