공부하는 블로그

[통계학의 이해Ⅰ] 6주차 조건부 확률 -4. 베이즈 정리 본문

통계/통계학의 이해Ⅰ

[통계학의 이해Ⅰ] 6주차 조건부 확률 -4. 베이즈 정리

young_o-o 2024. 1. 29. 15:32
728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.

K-MOOC 사이트 링크 공유합니다.


학습목표

  • 조건부확률의 주요 이론인 베이즈 정리 (Bayes' theorem)에 대해 알아보고 베이즈 정리와 관련된 다양한 응용 문제를 다루어본다.

베이즈 정리(Bayes' theorem)

  • 사건 A가 주어졌을 때 사건 B의 조건부 확률

통계학의 이해Ⅰ 강의 자료 6-4의 페이지1

  • 사건 A가 주어졌을 때의 B의 조건부 확률을 위와같이 변형해서 쓸 수 있다. 
  • 또한 B에 다형 A여집합을 사용하여 위와 같이 표현할 수 있다. 
  • 조건부 확률에서 P(B|A)는 순서적으로 볼 때, 대부분 사건 A가 먼저 발생하고 B가 이어서 발생하는 상황에 대한 확률
  • A는 원인, B는 결과의 형태를 가지며, 이처럼 원인이 주어졌을 때 결과가 무엇이 나올지에 대해 알아보는 것들을 코호트 연구 (Cohort Study) 혹은 전향적 연구(prospective study)라고 한다. (원인 → 결과)
  • 원인의 가능성인 P(A) 또는 P(A^c)는 사건 B가 관측되기 이전의 확률로 사전확률(prior probability)라고 한다.
  • 어떤 문제에서는 결과를 얻은 상태에서 그 결과가 발생하기 된 원인을 역으로 추정하는데, 이러한 연구 방식을 사례-대조연구(case-control study) 혹은 후향적 연구(retrospective study) 라고 한다. (결과 →  원인)
  • 해당 경우에는 결과 B가 관측됐을 때 그 원인이 A일 사건의 확률 P(A|B)가 얼마인지에 관심을 갖는다.
  • 사건 B가 관측된 후의 A의 확률은 사후확률(posterior probability)라고 한다.

 

암진단

  • 암 간이진단 검사를 실시 (실험을 통해 얻은 데이터)
    • 암에 걸렸을 때 양성 반응이 나올 확률은 0.96
    • 암에 걸리지 않았을 때 양성반응이 나올 확류이 0.05
  • Q. 만약 검사에서 양성반응이 나왔다면 암에 걸렸을 확률은?
    • 확률적 표현: A를 암에 걸린 사건, 양성은 +, 음성은 -로 표현
    • P(+|A) = 0.96, P(+|A^c) = 0.05
    • 양성반응이 나왔을 때 암에 걸렸을 확률은 P(A|+)
      • P(+|A) ≠ P(A|+) 
      • 두 수식은 다른 식이다. 이를 어떻게 해결할 수 있을까?

통계학의 이해Ⅰ 강의 자료 6-4의 페이지5

  • 베이즈가 정리한 수식으로, 해당 수식의 변형을 통해 사건의 순서가 바뀌었을 경우에도 어느 정도의 정보가 존재한다면 풀 수 있다는 것을 알 수 있다. 

다시 암 진단 문제로

  • 베이즈 정리를 이용하여 문제 해결 가능

통계학의 이해Ⅰ 강의 자료 6-4의 페이지6

  •  P(A)의 경우 해당 그룹에서 암에 걸릴 확률이므로 사전에 수집한 정보이다. 이러한 정보들을 통해 사건의 순서가 바뀐 경우도 해결할 수 있다.

 

  • 민감도(sensitivity): 질병에 걸린 사람을 대상으로 검사했을 때 양성반응이 나온 비율
  • 특이도(specficity): 감염되지 않은 사람을 대상으로 검사를 했을 때 음성반응이 나온 비율
  • 양성예측도(positive predictive): 양성반응이 나왔을 때 실제 질병에 걸렸을 확률

 

베이즈 정리의 일반식

  • 사건 A1, ... , An은 표본공간 Ω의 분할

표본공간의 분할 설명 그림

  • 모든 i에 대해 P(Ai) > 0이면 

통계학의 이해Ⅰ 강의 자료 6-4의 페이지7

  • 여러 가지 원인이 있을 수 있을 때 원인 중 어떤 원인의 영향력이 가장 클까?
  • 베이즈 정리는 B라는 결과를 얻었을 때 k번째 원인에 의한 확률을 구하고 싶다.
  • 해당 식에서 k는 1부터 n까지 해당되는 값들을 바꿔가면서 계산하다 보면 i번째 원인에 의해 나왔을 확률을 알 수 있으며, 그 중 가장 큰 확률에 대하여 이러한 원인에 의한 것이다 라고 할 수 있다.

 

스팸메일 필터

통계학의 이해Ⅰ 강의 자료 6-4의 페이지8

  • Q. 수신메일 내용에 "A"라는 단어가 있을 때 이 메일이 스팸 메일일 확률은?

통계학의 이해Ⅰ 강의 자료 6-4의 페이지9


요약

  • 베이즈 정리
통계학의 이해Ⅰ 강의 자료 6-4의 페이지10
  • 원인과 결과 형태의 문제에서 결과에 대한 원인 분석 가능