공부하는 블로그
[통계학의 이해Ⅰ] 10주차 주요 이산확률분포 Ⅱ-1. 포아송분포 본문
728x90
해당 글은 숙명여자대학교 여인권 교수님의
K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.
추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.
학습목표
- 계수자료 (counting data)에 대한 대표적인 분포인 포아송분포의 성질에 대해 알아본다.
- 포아송분포를 이용하여 이항분포 확률의 근사값 계산 방법을 알아본다.
포아송분포(Poisson distribution)
- 시행횟수 n이 크고 성공확률 p가 작은 상황에서 이항분포의 근삿값을 구할 때 사용할 수 있는 것이 포아송분포(Possion distribution)이다.
- 이항분포에서 n이 커지면 계산하는데 어려움이 있음
- p가 작은 경우 (0 근처에 있는 경우)
- p가 큰 경우 (1 근처에 있는 경우)
- p가 0.5에서 멀리 떨어져 있지 않은 경우
- 2번의 경우 실패횟수로 문제를 바꾸면 1과 같은 상황
X ~ B(n, p)에서 X는 성공 횟수, n은 시행 횟수, p는 성공할 확률일 때,
- p가 매우 작으면 큰 x에 대한 확률은 무시할 정도로 작다.
- 예) n = 1000, p = 0.005
- 그래프에서 우측으로 갈수록 즉, x가 커질수록 p는 무시할 수 있을 정도로 작아진다.
포아송분포 확률질량함수 식 유도
- 이항분포 B(n, p)에서 평균을 λ라고 하면, λ = np가 되는데, 이를 이용하여 진행
- E(X) = λ = np라고 하면, p = λ / n
- 이항분포의 확률질량함수 식에 p = λ / n를 대입
- 여기서 n이 커지면
- 지수함수의 정의에 의해 점점 해당 값들에 대하여 수렴하게 되고 결국 아래의 식이 된다.
- 발생가능성이 희박한 사건이 임의의 구간에서 평균적으로 λ번 발생 → 포아송분포 사용
- 구간을 나누었을 때 각 구간의 발생 빈도는 서로 독립 (independent increment)
- 구간의 위치와 관계없이 동일 길이의 구간에서의 평균발생 빈도는 동일 (stationary increment)
- X: 위의 상황에서 해당 사건이 일어날 횟수 단, 시행횟수가 아주 많으며 확률 p가 아주 작은 경우
- X ~ Pois( λ )
- 해당 함수에서는 n이 아주 크기 때문에 발생할 수 있는 사건의 수는 무한대까지 쓸 수도 있다.
- 확률질량함수는 다 더했을 때 1이어야 된다.
λ에 따른 분포
- λ가 1일 때 발생가능성이 평균 1번밖에 되지 않기 때문에 앞쪽에 몰려있는 경향
- 반대로 λ가3일 때는 상대적으로 오른쪽에 있으며 3 근처에 몰려있는 경향
- λ에 따라 확률분포 모양이 결정되기 때문에 포아송분포에서 λ는 모수이다.
예제
반도체 생산 공정
- 평균 500개 중 한 개 정도가 불량품
- 불량품은 무작위로 발생
- 제작된 1500개 반도체 중 불량품이 2개 이하일 확률은?
- 반도체의 불량 확률 p = 1/500
- X: 1500개 반도체 중 불량품의 수
- 이항분포로 계산할 수 있지만, n이 크고 p가 작기 때문에 포악송 근사 가능
- 포아송 근사로 풀이를 했을 때 거의 유사한 것을 확인할 수 있음
- n이 크고 p가 작으면 포아송분포와 이항분포의 확률은 차이가 거의 없다. 하지만 p가 커지면 잘 맞지 않게 된다.
포아송분포의 성질
- 이전에 이항분포의 성질로 둘다 이항분포이며 성공확률이 같은 경우 두 합은 시행횟수의 증가로 볼 수 있었다.
- 마찬가지로, X와 Y가 포아송분포이면 X+Y 역시 포아송이다.
- 계산식을 유도하여 진행하면 포아송분포의 평균은 λ임을 알 수 있다.
- 마찬가지로 포아송 분포의 분산 역시 λ이다.
- 따라서 포아송분포의 평균과 분산 모두 λ이기 때문에 데이터를 얻었을 때 포아송분포일 경우 평균과 분산이 비슷한 값을 갖는다는 것을 예상할 수 있다.
- 반대로, 빈도와 관련된 자료들의 표본평균과 표본분산이 차이가 크면 이 자료들에 대한 모형으로 포아송분포는 적절하지 않다는 것을 의미한다.
요약
- 포아송분포는 발생가능성이 낮은 사건의 발생빈도를 모델링할 때 사용할 수 있다.
- 사건들은 서로 독립적이며 해당 구간에서 발생할 수 있는 평균 발생건수는 길이에 비례하지 위치에 비례하지 않는다.
- independent increment & stationary increment
- 포아송분포의 평균과 분산은 동일하다.
- 따라서 데이터의 평균과 분산이 차이가 난다면 포아송분포가 아닐 간으성이 있다.
- n이 크고 p가 작은 이항분포의 근사확률을 계산할 때 포아송분포를 사용할 수 있다.
- X와 Y가 포아송분포를 따르고 서로 독립이면, X+Y도 포아송분포를 따른다.
'통계 > 통계학의 이해Ⅰ' 카테고리의 다른 글
[통계학의 이해Ⅰ] 10주차 주요 이산확률분포 Ⅱ-3. 다항분포 (0) | 2024.02.19 |
---|---|
[통계학의 이해Ⅰ] 10주차 주요 이산확률분포 Ⅱ-2. 음이항분포 (0) | 2024.02.18 |
[통계학의 이해Ⅰ] 9주차 주요 이산확률분포 Ⅰ-4. 확률분포 실습 (2) | 2024.02.13 |
[통계학의 이해Ⅰ] 9주차 주요 이산확률분포 Ⅰ-3. 초기하분포 (2) | 2024.02.13 |
[통계학의 이해Ⅰ] 9주차 주요 이산확률분포 Ⅰ-2. 이항분포 (2) | 2024.02.12 |