공부하는 블로그
[통계학의 이해Ⅰ] 10주차 주요 이산확률분포 Ⅱ-2. 음이항분포 본문
728x90
해당 글은 숙명여자대학교 여인권 교수님의
K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.
추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.
학습목표
- 베르누이 시행의 응용분포인 기하분포와 음이항분포에 대해 알아본다.
- 기하분포의 중요한 특성인 무기억성을 알아본다.
기하분포 (Geometric Distribution)
- 성공할 확률이 p인 베르누이 시행을 성공할 때까지 시행하는 경우 실패(시행) 횟수의 분포
- 성공할때까지니깐 무한개까지 설명 가능하며 베르누이시행이기 때문에 각각의 시행은 독립
- 표본공간: Ω = {S, FS, FFS, FFFS, ...}
- 확률질량함수: f(x) = (1-p)^xp, x = 0, 1, 2, ...
- X는 실패횟수에 대한 분포
- X ~ Geo(p)
- 제 1항이 p이고 공비가 1-p인 등비급수 형태
- Y = X + 1: 시행횟수
- Y는 시행횟수에 대한 분포로 시행횟수에 관심이 있을 때 사용
- 모형은 실패횟수로 하고, 설명은 시행횟수로 하는 것이 편할 수 있음
- 해당 확률질량함수에서 볼 수 있듯이 x가 1 증가함에 따라 확률은 1-p씩 기하급수적으로 감소, 이런 확률 질량함수를 가지는 경우 모수가 p인 기하분포(geometrix distribution)을 따른다고 하며 X ~ G(p)라고 표기한다.
등비급수의 합
- 등비급수 합의 공식에 따라 a는 초항, r이 등비일 때 S에 전부 r을 곱하고 S에서 rS를 빼면 S를 위처럼 정리할 수 있음
x번째 실험 이전에 성공할 확률: P(Y ≤ x) = P(X ≤ x - 1)
- Y가 x보다 적거나 같을 확률은 실험을 할 때 x번째 이전에 성공할 확률이고 따라서 실패를 x-1번째까지 한 경우
- 첫번째 유도에서 나온 것을 x를 x-1로 변경하여 아래 식에 대입하여 진행
예제
동전던지기
- p = 1/2이고, Y입장에서는 P(Y ≥ x + 1)이다.
- x번째까지 실패했다고 할 때, 다음 (x + 1번째) 시행에서의 성공 확률
- x번째까지 실패했다고 할 때는 조건부 확률이다. 그런 다음 x + 1번째에서 성공할 확률을 구하는 것
- 조건부확률 공식에 따라 대입을 한다. 우측 위에 p는 이전 x번째까지 실패한 확률에 성공할 확률인 p를 곱한 것이다.
- 약분해서 p만 남게 된다.
- 무기억성(memoryless)
- 5번 연속 뒷면이 나왔다고 하더라도 6번째가 앞면일 확률은 0.5
- x번 실패했다 하더라도 다음 시행에서 성공할 확률은 이 앞에 실패한 것은 기억하지 않고 처음 시행 때와 결과가 똑같은 것
- 이전에 나왔던 결과는 영향을 미치지 않는 다는 것
- 이산형에서는 기하분포가 해당 성질을 보유하며, 연속형에서는 지수분포가 유사한 성질을 보유한다.
- Y관점에서 계산하면 위와 같다.
동전던지기
- 앞면 (p = 1/2)이 나올 때 까지 동전 던지기
- P(Y ≤ 2) = 1/2 + 1/2^2 = 0.75 → 2번 이내에 끝날 확률은 0.75이다.
- 1번으로 끝날 확률과 2번으로 끝날 확률을 더하는 것
- P(Y ≤ y) ≥ 0.9를 만족하는 최소 y는?
- y를 구하는 식에 그대로 대입해서 풀면 되는 것
- y는 4일때가 최소가 된다.
기하분포의 기댓값
- 따라서 무한등비급수의 합을 진행하면 기댓값을 구할 수 있다.
- 실패횟수의 분포에 대한 기댓값은 실패확률을 성공확률로 나누는 것
- Y를 기준으로 구한 기댓값
- 동전던지기 게임에서 E(Y) = 2이므로, 게임을 끝내려면 평균 2번을 던져야된다.
음이항분포(Negative Binomial Distribution)
- 성공할 확률이 p인 베르누이 시행알 r번 성공할 때까지 시행하는 경우 실패(성공)횟수의 분포
- 기하분포는 성공률이 p인 베르누이 시행을 한 번 성공할 때까지의 실패횟수 또는 시행횟수에 대한 분포이다.
- 이를 일반화하여 r번 성공할 때까지 실패횟수에 대해 관심을 가질 수 있다.
- 확률변수 X를 성공률이 p인 베르누이 시행을 r번 성공할 때까지 실패한 횟수라고 하면,
- X = X1 + X2 + ... + Xr
- 여기서 Xi는 i-1번째 성공 이후 성공할 때까지의 실패횟수를 의미하며, Xi ~ G(p)가 된다.
- 이러한 성질을 가지는 확률변수 X를 모수 (r, p)를 갖는 음이항분포(negative binomial distribution)를 따른다고 하고 X ~ NB(r, p)라고 표기
- X: 실패횟수, Y: 시행횟수 (Y = X + r)
- Y = y라고 하면, y번째는 S
- y-1번째까지 결과: r-1개의 S와 y-r개의 F
- y는 시행횟수니깐 최소 r번은 던져야된다.
- x(실패횟수)에 대하여 정리하면 위와 같다.
- x는 실패횟수이기 때문에 0부터 시작하며, 계산을 할 때에는 0부터 하는 것이 편하며 해석을 할때에는 시행횟수로 하는 것이 편하다.
예제
가위바위보
- 5명과 차례로 가위바위보 게임
- 비기거나 지면 계속 게임을 진행하고 이기면 다음 사람과 게임, p = 1/3
- Y ~ NB(5, 1/3)
- 게임이 완료될 때까지 10회 이하로 가위바위보 할 확률
- 식에 대입하여 풀 수 있음
- 해당 문제는 모든 5명을 다 이길때까지이기 때문에 5번 성공할 때까지 진행하는 것이다.
- 따라서 r = 5이므로 X에 대한 분포로 표현하면 P(X ≤ 5)이다.
음이항분포의 기댓값
- 기하분포에서 r번 수행하는 것이고 서로 독립이기 때문에, r번 더하면 되는 것이다.
- 따라서 r을 곱하면 된다.
- 계수자료 분석에서 포아송분포의 대안으로 사용가능하다.
- 포아송분포는 E(X) = λ = Var(X)의 특직을 갖는다.
- 만약 표본평균과 표본분산의 차이가 심하면 포아송분포를 사용하는데 무리가 있다.
- 이럴 경우 음이항분포를 적용시킬 수 있다.
요약
- 기하분포
- 베르누이 시행을 성공할 때까지의 실패(시행)횟수의 분포
- 무기억성
- 실패횟수에 대한 기댓값 = (1-p)/p, 시행횟수에 대한 기댓값 = 1/p
- 음이항분포
- 베르누이 시행을 r번 성공할 때까지의 실패(시행)횟수의 분포
- Xi ~ Geo(p), Xi들은 서로 독립
- X = X1 + X2 + ... + Xr
'통계 > 통계학의 이해Ⅰ' 카테고리의 다른 글
[통계학의 이해Ⅰ] 10주차 주요 이산확률분포 Ⅱ-4. 확률분포 실습 (0) | 2024.02.19 |
---|---|
[통계학의 이해Ⅰ] 10주차 주요 이산확률분포 Ⅱ-3. 다항분포 (0) | 2024.02.19 |
[통계학의 이해Ⅰ] 10주차 주요 이산확률분포 Ⅱ-1. 포아송분포 (3) | 2024.02.17 |
[통계학의 이해Ⅰ] 9주차 주요 이산확률분포 Ⅰ-4. 확률분포 실습 (2) | 2024.02.13 |
[통계학의 이해Ⅰ] 9주차 주요 이산확률분포 Ⅰ-3. 초기하분포 (2) | 2024.02.13 |