공부하는 블로그

[통계학의 이해Ⅰ] 5주차 확률의 기본 개념과 원리 -3. 통계적 확률 본문

통계/통계학의 이해Ⅰ

[통계학의 이해Ⅰ] 5주차 확률의 기본 개념과 원리 -3. 통계적 확률

young_o-o 2024. 1. 20. 23:31
728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.

K-MOOC 사이트 링크 공유합니다.


학습목표

  • 상대도수의 극한의 개념으로 이해하는 확률에 대해 알아본다.
  • 이를 통해 확률이 모집단에 대한 것임을 이해한다.

상대도수의 극한 개념

  • 동전이 앞면이 나올 확률이 1/2이라는 것에 대하여 해석 방법이 나뉠 수 있다.
    • 고전적확률: 앞면과 뒷면의 발생 가능성이 동일하다는 전제
      • Ω = {H, T}, A = {H} → P(A) = 1/2 이라고 해석한다.
    • pearson은 실제 동전던지기 실험을 해서 이를 다르게 해석한다.

통계학의 이해Ⅰ 강의 자료 5-3의 페이지1

  • 실험을 계속하면 상대도수가 0.5로 수렴한다.
  • 실험의 횟수를 적게하면 0.5를 기준으로 변동이 있겠지만, 실험의 횟수가 계속 커진다면 0.5 근처에서 거의 비슷한 결과가 나온다는 것이다.

통계학의 이해Ⅰ 강의 자료 5-3의 페이지1: 필기

  • 따라서 앞면이 나올 확률이 0.5라는 것을 실험을 통해 이해할 수 있다고 해석한다.
  • 표본공간의 각 원소의 발생가능성이 동일하지 않은 경우에도 확률을 구할 수 있어야 된다. 이럴 경우에는 고전적 확률을 사용할 수 없다.
  • 500원 동전을 돌렸을 때 학이 나올 확률이 첫 강의 영상에서 대략 70% 정도였다. 이를 위처럼 해석한다면
    • 동전을 n번 돌렸을 때 학이 나온 횟수를 n(A)라면 학이 나온 비율은 n(A)/n이다.

통계학의 이해Ⅰ 강의 자료 5-3의 페이지2

  • 이 실험의 결과가 실제 A 사건이 발생할 확률 근처에 있을 것이라고 볼 수 있다는 것이다.
  • 해당 실험을 무한히 반복한다면 n(A)/n은 어떠한 값으로 수렴한다.

통계학의 이해Ⅰ 강의 자료 5-3의 페이지2

  • 이렇게 수렴하는 값이 A가 일어날 확률이라고 볼 수 있는 것이다.
  • n(A)/n 즉 상대도수를 극한으로 보낸다고 하여 "상대도수의 극한의 개념" 이라고 한다.
  • 각각의 실험에서 발생하는 결과는 표본이고 실험을 무한히 반복한다는 것은 표본이 결국 모집단이 된다는 것이다.
  • 따라서 확률은 표본이 아니라 모집단이 어떤 형태로 이루어져 있는지를 표시한 것이다.
  • 상대도수의 극한은 많은 표본을 통해 모집단의 특성을 파악한다고 하여 통계적 확률(statistical probability)이라고 한다.
  • 결론적으로 표본은 결과가 다양한 값이 나올 수 있지만 그것을 무한히하면 어느 값에 수렴을 하게 되는 것이다. 따라서 확률은 표본에 관한 것이 아니라 모집단에 관한 것이다. 이후 확률 분포, 확률 변수 등에 대한 것은 표본이 아니라 모집단에 관한 것이다.

몬테카를로 모의 실험(Monte Carlo simulation)

  • 고속컴퓨터를 활용하여 결과 도출
    • 일기예보나 전쟁게임
    • 몬테카를로 적분

몬테카를로 적분

표준정규분포의 면적: (-1, 1.95)

통계학의 이해Ⅰ 강의 자료 5-3의 페이지5

  • 해당 정규분포가 있을 때 곡선 아래에서 -1과 1.95사이의 면적이 궁금하다.
  • 해당 경우에서는 해당 면적을 구하기 위해서 x는 -1과 1.95 y는 0.4아래에서 난수를 뽑아서 아래에 해당되는 난수의 비율이 얼마나 되는지 확인하여 면적을 구할 수 있다는 것이다.
  • 난수이기 때문에 적게 뽑았을 경우에는 변동성이 크지만 뽑는 수가 커지면 실수에 가까워 진다.

통계학의 이해Ⅰ 강의 자료 5-3의 페이지5

  • 이런 형태로 면적 계산을 하는 것을 몬테카를로 적분이라고 한다.
  • 이런식으로 난수를 무작위로 발생시켜 해당되는 비율을 표시하여 적분하는 문제를 많이 해결한다.

Birthday problem

  • 이전에 k명의 생일이 모두 다를 확률을 계산할 때 고전적 확률에서는 365일 각각의 날에 태어날 가능성이 동일했다.
  • 하지만 태어날 확률이 모두 다를 경우는 어떻게 계산할까?

통계학의 이해Ⅰ 강의 자료 5-3의 페이지6
통계학의 이해Ⅰ 강의 자료 5-3의 페이지7

  • P(A)는 고전적 확률이다.
  • B는 극단적으로 가정을 하여 차이가 많이 난다.
  • 이러한 방식으로 계산을 하여 이전에 고전적 확률로 풀지 못한 문제들 (원소의 발생 확률이 다른 경우)을 상대도수의 극한의 개념으로 해결할 수 있었다.

요약

  • 상대도수의 극한의 개념은 확률실험을 무한히 반복하여 모집단의 구조로 나타내는 것이다.