공부하는 블로그

[통계학의 이해Ⅰ] 7주차 확률변수와 확률분포 -3. 연속확률변수와 확률밀도함수 본문

통계/통계학의 이해Ⅰ

[통계학의 이해Ⅰ] 7주차 확률변수와 확률분포 -3. 연속확률변수와 확률밀도함수

young_o-o 2024. 2. 2. 17:12
728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.

K-MOOC 사이트 링크 공유합니다.


학습목표

  • 연속확률변수의 확률구조를 나타내는 확률밀도함수와 그 성질에 대해 알아본다.

확률밀도함수(probability density function)

  • 연속확률변수: 확률변수의 치역이 실수
  • 히스토그램
    • 밀도(density): 히스토그램의 높이
    • 전체 면적 = 1
    • 밀도는 해당 구간에 상대적으로 얼마나 많은 자료가 모여 있는지를 표시한 것

연속자료로 이루어진 모집단에서 표본추출

통계학의 이해Ⅰ 강의 자료 7-3의 페이지2

  • 첫 번째와 두 번째 그림은 어떤 모집단에서 표본을 무작위로 100개와 10,000개를 추출했을 때의 히스토그램
  • 만약 자료를 계속 추가하면서 계급의 폭을 줄이면 히스토그램은 점점 세밀한 형태를 가지게 되고 결국 세 번째 그림과 같이 모집단의 형태를 나타내는 밀도를 얻게 됨
  • 세 그림의 전체 면적은 모두 1이다.
  • 해당 히스토그림들에서 높이는 상대적으로 이 구간에 얼마나 많은 데이터들이 모여 있는지를 나타내는 것
  • 연속확률변수 X의 분포 형태, 즉 모집단의 형태를 나타낸 것으로 임의의 지점 x에서의 밀도를 f(x) [높이]라고 표시하면 f(x)를 확률밀도함수(probability density function)라고 함

0~12까지의 숫자가 표시된 돌림판

통계학의 이해Ⅰ 강의 자료 7-3의 페이지3

  • 표본공간: Ω = {x: 0 < x ≤ 12}
  • X: 바늘이 지적하는 위치
  • 0과 12사이에서 발생가능성이 동일 (무작위로 돌리는 것이기 때문)
    • 밀도는 이 구간에서 동일: f(x) = c

통계학의 이해Ⅰ 강의 자료 7-3의 페이지3

  • 발생가능성이 동일하기 때문에 높이가 동일하며, 0과 12사이라는 조건 하에서 x에 관계없이 c로 동일한 것이다.

확률밀도함수에서의 확률

  • 히스토그램의 면적 = 해당 구간에서의 비율(상대도수)
  • 확률밀도함수의 면적 = 해당 구간에서의 확률

통계학의 이해Ⅰ 강의 자료 7-3의 페이지4
통계학 기본개념과 원리 제 2판 p146

  • 히스토그램에서 어떤 계급의 면적이 해당 계급의 비율(상대도수)이었던 것처럼 어떤 구간에서의 확률밀도함수의 면적은 해당 구간에서의 확률

0~12까지의 숫자가 표시된 돌림판

  • X가 3에서 6사이에 있을 확률

통계학의 이해Ⅰ 강의 자료 7-3의 페이지5

  • 그림에서 3에서 6사이의 사각형 면적이므로 위처럼 계산할 수 있다.

Q. X=3일 확률은?

  • P(X=3) = 0이다.
  • 해당 계산은 헷갈리기 쉽다. 연속형 확률변수에서는 확률을 면적으로 표시
  • 확률질량함수와 다르게 확률밀도함수는 해당 점에서의 확률이 아닌 해당 영역의 면적으로 계산
  • 어떤 점에서의 면적은 f(x)의 크기와 관계없이 항상 0이 되기 때문에 X가 연속확률변수일 때는 모든 x에 대하 P(X = x) = 0이 된다.
  • 연속확률변수의 확률밀도함수는 f(x)는 x에서의 확률이 아니라 상대적인 밀도를 나타내낸 것
  • X=3일 때에는 높이는 1/12 이지만, 밑변은 0이된다. 따라서 길이를 가지지 않은 점이기 때문에 확률은 0이다.

통계학의 이해Ⅰ 강의 자료 7-3의 페이지6

  • 따라서 추가적으로 X가 a보다 크고 b보다 작을 확률은 a와 b가 포함되고 포함되지 않는 것 모두 다 동일하다. 이러한 점이 연속형과 이산형의 가장 큰 차이점이다.

확률밀도함수의 성질

 

통계학의 이해Ⅰ 강의 자료 7-3의 페이지7

  1. 면적을 계산할 때 0보다 커야되기 때문에 항상 f(x)는 0보다 크거나 같다.
    • 확률질량함수에서는 자체가 확률이기 때문에 0과 1사이라는 제약이 있지만, 확률밀도함수는 0보다 크거나 같기만 하면 된다.
  2. 그리고 전체를 적분하면 1이된다. 히스토그램의 전체 면적이 1인 것처럼 확률밀도함수의 전체 면적인 1이 되어야한다.
  3. 어떤 구간에 있을 확률은 해당되는 구간에서의 면적으로 계산할 수 있다.

누적분포함수(cumulative distribution function)

통계학의 이해Ⅰ 강의 자료 7-3의 페이지8

  • 성질 3번의 특별한 형태가 P(X ≤ x)인데, 이 f(x)를 누적분포함수, 분포함수라고 한다.
  • 확률변수 X가 x보다 작거나 같을 확률을 적분하여 -무한대부터 x까지의 형태로 표시하고 F(x)로 표기

  • x가 음수인 부분에서는 높이가 0이 되어 마이너스부터 시작을 하겠지만 적분을 해도 0이되니깐 x가 0에서 시작하는 것과 똑같다.

  • 또한 위 그림처럼 확률밀도함수는 누적분포함수일 때 점프가 없고 계속 연결되어 있는 선으로 표시가 된다.
  • 점프가 없으니, 모든 점에서의 확률은 0이 되는 것이다.

요약

통계학의 이해Ⅰ 강의 자료 7-3의 페이지9
  • 확률밀도함수는 해당되는 지점에서 상대적으로 밀도가 얼마나 되는지를 보여주는 것
  • X가 구간 a와 b에 속할 확률은 적분하여 면적으로 계산 가능
  • 모든 점에서의 확률은 0
  • 누적분포함수에서도 x까지의 확률밀도함수의 면적을 표시한 것
  • 연속확률변수에 대한 누적분포함수에는 점프가 없음