공부하는 블로그
[통계학의 이해Ⅰ] 6주차 조건부 확률 -2. 조건부 확률 본문
728x90
해당 글은 숙명여자대학교 여인권 교수님의
K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.
추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.
학습목표
- 조건부 확률의 정의와 조건부 확률에서 파생되는 주요 정리 및 응용 사례에 대해 알아본다.
조건부확률
예제로 알아보기
- 동전 두 개를 던질 때 두 동전 모두 앞면일 사건의 확률은?
- Ω = {HH, TH, HT, TT}
- P({HH}) = 1/4
- 추가정보: 어떤 한 동전이 앞면이라는 것을 알았을 때, 두 동전 모두 앞면일 사건의 확률은?
- 표본공간 → {HH, TH, HT}로 축소
- P({HH}) = 1/3
- 위 예제와 같이 추가적인 정보가 주어졌을 때 관심을 가지는 사건의 확률
- 확률실험을 하는 과정에서 새로운 정보 또는 조건이 추가되었을 때 사건의 확률을 조건부확률 (conditional probability)라고 한다.
- 조건부확률을 언급하기 위해서는 사건이 두 개 이상 있어야 된다. A라는 조건 및 정보가 주어졌을 때 관심을 가지는 B의 확률을 물어보는 것이다.
- 사건 A가 발생했다면 A 이외의 것은 일어날 수 없다.
- 따라서 표본공간이 A라는 사건내로 축소가 되는 것이다.
- A가 새로운 표본공간 Ω'이 되고, B가 발생한다는 것은 A ∩ B에 있는 원소가 발생한다는 것을 의미한다.
- 따라서 A 하에서 B의 조건부확률은 A에서 A ∩ B가 차지하는 비율로 P( A ∩ B ) / P(A)로 표시할 수 있다.
- 수식으로 표현하면 위와 같으며 probability of B given A [P(B|A)]라고 한다.
- "|" 표시가 given이라는 표현이며, 분모가 0이되면 안되기 때문에 P(A) > 0 이라는 조건이 들어간다.
사망률(mortality rate) vs 생존율(survival rate)
- 어느 해의 40대 사망률: 그해 40대 이상인 사람들 중에서 40대에 사망한 사람의 비율
- 표본공간이 전체 연령대에서 40대 이상으로 축소
- 어느 해의 40대 생존율: 40대 이상인 사람 중 그 해 생존한 사람의 비율
- 생존율 = 1 - 사망률
완전생명표
- 완전생명표는 통계청에서 매년 우리나라 평균 수명을 계산하기 위해서 사용하는 표
- 통계청에서 발표한 2012년 자료의 일부분
- 인구10만 명에서 시작하여 각 연령까지 생존한 사람의 수
- 이렇게 계산하는 것이 조건부 확률이다.
조건부확률의 활용
응용1
- 해당 식은 분리해서 푸는 형식에서 무의식적으로 많이 활용한은 식이다.
- 조건부확률의 식을 분모를 이동시키면 위와 같이 나온다.
- 해당 식은 곱사건이 순차적인 사건들의 조건부확률의 곱으로 표시될 수 있다는 것을 의미한다.
응용2
- 사건 A1, A2, A3에 대해 P(A1 ∩ A2) > 0 이면 다음 식이 성립한다.
- 조건부확률 정의에 의하면 위식의 우변의 두 번째와 세 번째 분수 항은 각각 P(A2|A1)과 P(A3| A1 ∩ A2)으로 표시할 수 있으므로 아래와 같이 정리할 수 있다.
- 수학적 귀납법을 이용하면, 사건 A1....An에 대해 P(A1 ∩ ... ∩ A_n-1) > 0 일 때 아래와 같은 일반식을 유도할 수 있다.
- 위의 일반식처럼 쪼개서 풀면 해결 가능성이 높아질 수 있다.
- A1의 경우 당연히 0.004가 되는 것을 쉽게 알 수 있지만, A2는 직관적으로 알기 어렵다.
- 해당 예제에서 A2는 비복원 형태이기 때문에 A1이 당첨되고 A2가 당첨되는 경우와 A1이 당첨되지 않고 A2가 당첨되는 경우로 나올 수 있다. 따라서 위의 P(A2)로 표현가능하다.
- 응용1을 이용하면 P(A2)는 아래와 같이 계산된다.
- P(A3)를 고려해보면 똑같이 0.04가 나오는 것을 확인해볼 수 있다.
- 이는 몇 번째 복권인지와 관계없이 당첨될 확률은 동일하게 0.004가 된다는 것을 의미한다.
- 어떤 일련의 사건들이 순차적으로 결합된 경우
- 특정 시점에서의 사건 확률은 앞에서 발생할 수 있는 상황이나 연결된 상활들의 확률을 모두 더하여 구할 수 있다.
예제) 스팸메일 필터
- 어떤 메일시스템의 수신메일 중 40$가 스팸메일(S)이고 나머지는 정상메일 (N)
- P(S) = 0.4, P(N) = 0.6
- 스팸메일 중 25%는 "A"라는 단어를 포함하고 정상메일 중 2%가 "A"라는 단어를 포함한다.
- P(A|S) = 0.25, P(A/N) = 0.02
- Q. 전체 메일 중 "A" 단어를 포함한 메일의 비율은?
- 해당 문제를 수식으로 표현하면 쉽게 풀 수 있다.
- 따라서 문제를 해결할 때 수식으로 만들 수 있는 것이 중요하다.
확률수형도 (probability tree)
- 점과 선을 통해 확률을 tree 구조로 표시하는 그림이다.
- 위 스팸메일 예제를 확률수형도로 표현하면 쉽게 해결할 수 있다.
표본공간의 분할(partition)
- 사건 A1, ... , An이
- 서로 배반사건, 즉 모든 i ≠ j에 대해 A_j ∩ A_j = ⌀
- 전체를 이루는 사건 (exhaustive), 즉 A1 ∪ ... ∪ An = Ω
- 일 때 사건 A1, ... , An을 표본공간 Ω의 분할이라고 한다.
- 해당 사건의 경우 위 벤다이어그램처럼 표현할 수 있다.
- 위의 식 과정으로 정리가 될 수 있고 따라서 P(B)를 아래 식으로 정리할 수 있다.
요약
- 조건부 확률에 대하여 응용 까지 배웠으며, 해당 과정들을 증명하였다.
'통계 > 통계학의 이해Ⅰ' 카테고리의 다른 글
[통계학의 이해Ⅰ] 6주차 조건부 확률 -4. 베이즈 정리 (2) | 2024.01.29 |
---|---|
[통계학의 이해Ⅰ] 6주차 조건부 확률 -3. 독립사건 (2) | 2024.01.29 |
[통계학의 이해Ⅰ] 6주차 조건부 확률 -1. 확률의 정리 (2) | 2024.01.22 |
[통계학의 이해Ⅰ] 5주차 확률의 기본 개념과 원리 -4. 확률계산 실습(R) 및 퀴즈 (0) | 2024.01.21 |
[통계학의 이해Ⅰ] 5주차 확률의 기본 개념과 원리 -3. 통계적 확률 (0) | 2024.01.20 |