공부하는 블로그

[통계학의 이해Ⅰ] 10주차 주요 이산확률분포 Ⅱ-2. 음이항분포 본문

통계/통계학의 이해Ⅰ

[통계학의 이해Ⅰ] 10주차 주요 이산확률분포 Ⅱ-2. 음이항분포

young_o-o 2024. 2. 18. 01:53
728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.

K-MOOC 사이트 링크 공유합니다.


학습목표

  • 베르누이 시행의 응용분포인 기하분포와 음이항분포에 대해 알아본다.
  • 기하분포의 중요한 특성인 무기억성을 알아본다.

기하분포 (Geometric Distribution)

  • 성공할 확률이 p인 베르누이 시행을 성공할 때까지 시행하는 경우 실패(시행) 횟수의 분포
  • 성공할때까지니깐 무한개까지 설명 가능하며 베르누이시행이기 때문에 각각의 시행은 독립
    • 표본공간: Ω = {S, FS, FFS, FFFS, ...}
    • 확률질량함수: f(x) = (1-p)^xp, x = 0, 1, 2, ...
      • X는 실패횟수에 대한 분포
    • X ~ Geo(p)
    • 제 1항이 p이고 공비가 1-p인 등비급수 형태
    • Y = X + 1: 시행횟수

통계학의 이해Ⅰ 강의 자료 10-2 페이지1

  • Y는 시행횟수에 대한 분포로 시행횟수에 관심이 있을 때 사용
  • 모형은 실패횟수로 하고, 설명은 시행횟수로 하는 것이 편할 수 있음
  • 해당 확률질량함수에서 볼 수 있듯이 x가 1 증가함에 따라 확률은 1-p씩 기하급수적으로 감소, 이런 확률 질량함수를 가지는 경우 모수가 p인 기하분포(geometrix distribution)을 따른다고 하며 X ~ G(p)라고 표기한다.

등비급수의 합

통계학의 이해Ⅰ 강의 자료 10-2 페이지2

  • 등비급수 합의 공식에 따라 a는 초항, r이 등비일 때 S에 전부 r을 곱하고 S에서 rS를 빼면 S를 위처럼 정리할 수 있음

x번째 실험 이전에 성공할 확률: P(Y ≤ x) = P(X ≤  x - 1)

  • Y가 x보다 적거나 같을 확률은 실험을 할 때 x번째 이전에 성공할 확률이고 따라서 실패를 x-1번째까지 한 경우

통계학의 이해Ⅰ 강의 자료 10-2 페이지2

  • 첫번째 유도에서 나온 것을 x를 x-1로 변경하여 아래 식에 대입하여 진행

예제

동전던지기

통계학의 이해Ⅰ 강의 자료 10-2 페이지3

  • p = 1/2이고, Y입장에서는 P(Y ≥ x + 1)이다.
  • x번째까지 실패했다고 할 때, 다음 (x + 1번째) 시행에서의 성공 확률
    • x번째까지 실패했다고 할 때는 조건부 확률이다. 그런 다음 x + 1번째에서 성공할 확률을 구하는 것

조건부확률
통계학의 이해Ⅰ 강의 자료 10-2 페이지3

  • 조건부확률 공식에 따라 대입을 한다. 우측 위에 p는 이전 x번째까지 실패한 확률에 성공할 확률인 p를 곱한 것이다.
  • 약분해서 p만 남게 된다.
  • 무기억성(memoryless)
    • 5번 연속 뒷면이 나왔다고 하더라도 6번째가 앞면일 확률은 0.5
    • x번 실패했다 하더라도 다음 시행에서 성공할 확률은 이 앞에 실패한 것은 기억하지 않고 처음 시행 때와 결과가 똑같은 것
    • 이전에 나왔던 결과는 영향을 미치지 않는 다는 것
    • 이산형에서는 기하분포가 해당 성질을 보유하며, 연속형에서는 지수분포가 유사한 성질을 보유한다.

통계학의 이해Ⅰ 강의 자료 10-2 페이지4

  • Y관점에서 계산하면 위와 같다.

동전던지기

  • 앞면 (p = 1/2)이 나올 때 까지 동전 던지기
  • P(Y ≤ 2) = 1/2 + 1/2^2 = 0.75 → 2번 이내에 끝날 확률은 0.75이다.
    • 1번으로 끝날 확률과 2번으로 끝날 확률을 더하는 것
  • P(Y ≤ y) ≥ 0.9를 만족하는 최소 y는?

통계학의 이해Ⅰ 강의 자료 10-2 페이지5

  • y를 구하는 식에 그대로 대입해서 풀면 되는 것
    • y는 4일때가 최소가 된다.

기하분포의 기댓값

통계학의 이해Ⅰ 강의 자료 10-2 페이지6

  • 따라서 무한등비급수의 합을 진행하면 기댓값을 구할 수 있다.

통계학의 이해Ⅰ 강의 자료 10-2 페이지6

  • 실패횟수의 분포에 대한 기댓값은 실패확률을 성공확률로 나누는 것
  • Y를 기준으로 구한 기댓값

통계학의 이해Ⅰ 강의 자료 10-2 페이지6

  • 동전던지기 게임에서 E(Y) = 2이므로, 게임을 끝내려면 평균 2번을 던져야된다.

음이항분포(Negative Binomial Distribution)

  • 성공할 확률이 p인 베르누이 시행알 r번 성공할 때까지 시행하는 경우 실패(성공)횟수의 분포
  • 기하분포는 성공률이 p인 베르누이 시행을 한 번 성공할 때까지의 실패횟수 또는 시행횟수에 대한 분포이다.
  • 이를 일반화하여 r번 성공할 때까지 실패횟수에 대해 관심을 가질 수 있다.
  • 확률변수 X를 성공률이 p인 베르누이 시행을 r번 성공할 때까지 실패한 횟수라고 하면, 
    • X = X1 + X2 + ... + Xr
  • 여기서 Xi는 i-1번째 성공 이후 성공할 때까지의 실패횟수를 의미하며, Xi ~ G(p)가 된다.
  • 이러한 성질을 가지는 확률변수 X를 모수 (r, p)를 갖는 음이항분포(negative binomial distribution)를 따른다고 하고 X ~ NB(r, p)라고 표기
    • X: 실패횟수, Y: 시행횟수 (Y = X + r)
    • Y = y라고 하면, y번째는 S
      • y-1번째까지 결과: r-1개의 S와 y-r개의 F

통계학의 이해Ⅰ 강의 자료 10-2 페이지7

  • y는 시행횟수니깐 최소 r번은 던져야된다.

통계학의 이해Ⅰ 강의 자료 10-2 페이지8

  • x(실패횟수)에 대하여 정리하면 위와 같다.
  • x는 실패횟수이기 때문에 0부터 시작하며, 계산을 할 때에는 0부터 하는 것이 편하며 해석을 할때에는 시행횟수로 하는 것이 편하다.

예제

가위바위보

  • 5명과 차례로 가위바위보 게임
  • 비기거나 지면 계속 게임을 진행하고 이기면 다음 사람과 게임, p = 1/3
    • Y ~ NB(5, 1/3)
  • 게임이 완료될 때까지 10회 이하로 가위바위보 할 확률

통계학의 이해Ⅰ 강의 자료 10-2 페이지9

  • 식에 대입하여 풀 수 있음
  • 해당 문제는 모든 5명을 다 이길때까지이기 때문에 5번 성공할 때까지 진행하는 것이다.
  • 따라서 r = 5이므로 X에 대한 분포로 표현하면 P(X ≤ 5)이다.

음이항분포의 기댓값

통계학의 이해Ⅰ 강의 자료 10-2 페이지10
통계학의 이해Ⅰ 강의 자료 10-2 페이지10

  • 기하분포에서 r번 수행하는 것이고 서로 독립이기 때문에, r번 더하면 되는 것이다.
  • 따라서 r을 곱하면 된다.
  • 계수자료 분석에서 포아송분포의 대안으로 사용가능하다.
  • 포아송분포는 E(X) = λ = Var(X)의 특직을 갖는다.
    • 만약 표본평균과 표본분산의 차이가 심하면 포아송분포를 사용하는데 무리가 있다.
    • 이럴 경우 음이항분포를 적용시킬 수 있다.

요약

  • 기하분포
    • 베르누이 시행을 성공할 때까지의 실패(시행)횟수의 분포
    • 무기억성
    • 실패횟수에 대한 기댓값 = (1-p)/p, 시행횟수에 대한 기댓값 = 1/p
  • 음이항분포
    • 베르누이 시행을 r번 성공할 때까지의 실패(시행)횟수의 분포
    • Xi ~ Geo(p), Xi들은 서로 독립
    • X = X1 + X2 + ... + Xr