공부하는 블로그
[통계학의 이해Ⅰ] 7주차 확률변수와 확률분포 -3. 연속확률변수와 확률밀도함수 본문
728x90
해당 글은 숙명여자대학교 여인권 교수님의
K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.
추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.
학습목표
- 연속확률변수의 확률구조를 나타내는 확률밀도함수와 그 성질에 대해 알아본다.
확률밀도함수(probability density function)
- 연속확률변수: 확률변수의 치역이 실수
- 히스토그램
- 밀도(density): 히스토그램의 높이
- 전체 면적 = 1
- 밀도는 해당 구간에 상대적으로 얼마나 많은 자료가 모여 있는지를 표시한 것
연속자료로 이루어진 모집단에서 표본추출
- 첫 번째와 두 번째 그림은 어떤 모집단에서 표본을 무작위로 100개와 10,000개를 추출했을 때의 히스토그램
- 만약 자료를 계속 추가하면서 계급의 폭을 줄이면 히스토그램은 점점 세밀한 형태를 가지게 되고 결국 세 번째 그림과 같이 모집단의 형태를 나타내는 밀도를 얻게 됨
- 세 그림의 전체 면적은 모두 1이다.
- 해당 히스토그림들에서 높이는 상대적으로 이 구간에 얼마나 많은 데이터들이 모여 있는지를 나타내는 것
- 연속확률변수 X의 분포 형태, 즉 모집단의 형태를 나타낸 것으로 임의의 지점 x에서의 밀도를 f(x) [높이]라고 표시하면 f(x)를 확률밀도함수(probability density function)라고 함
0~12까지의 숫자가 표시된 돌림판
- 표본공간: Ω = {x: 0 < x ≤ 12}
- X: 바늘이 지적하는 위치
- 0과 12사이에서 발생가능성이 동일 (무작위로 돌리는 것이기 때문)
- 밀도는 이 구간에서 동일: f(x) = c
- 발생가능성이 동일하기 때문에 높이가 동일하며, 0과 12사이라는 조건 하에서 x에 관계없이 c로 동일한 것이다.
확률밀도함수에서의 확률
- 히스토그램의 면적 = 해당 구간에서의 비율(상대도수)
- 확률밀도함수의 면적 = 해당 구간에서의 확률
- 히스토그램에서 어떤 계급의 면적이 해당 계급의 비율(상대도수)이었던 것처럼 어떤 구간에서의 확률밀도함수의 면적은 해당 구간에서의 확률
0~12까지의 숫자가 표시된 돌림판
- X가 3에서 6사이에 있을 확률
- 그림에서 3에서 6사이의 사각형 면적이므로 위처럼 계산할 수 있다.
Q. X=3일 확률은?
- P(X=3) = 0이다.
- 해당 계산은 헷갈리기 쉽다. 연속형 확률변수에서는 확률을 면적으로 표시
- 확률질량함수와 다르게 확률밀도함수는 해당 점에서의 확률이 아닌 해당 영역의 면적으로 계산
- 어떤 점에서의 면적은 f(x)의 크기와 관계없이 항상 0이 되기 때문에 X가 연속확률변수일 때는 모든 x에 대하 P(X = x) = 0이 된다.
- 연속확률변수의 확률밀도함수는 f(x)는 x에서의 확률이 아니라 상대적인 밀도를 나타내낸 것
- X=3일 때에는 높이는 1/12 이지만, 밑변은 0이된다. 따라서 길이를 가지지 않은 점이기 때문에 확률은 0이다.
- 따라서 추가적으로 X가 a보다 크고 b보다 작을 확률은 a와 b가 포함되고 포함되지 않는 것 모두 다 동일하다. 이러한 점이 연속형과 이산형의 가장 큰 차이점이다.
확률밀도함수의 성질
- 면적을 계산할 때 0보다 커야되기 때문에 항상 f(x)는 0보다 크거나 같다.
- 확률질량함수에서는 자체가 확률이기 때문에 0과 1사이라는 제약이 있지만, 확률밀도함수는 0보다 크거나 같기만 하면 된다.
- 그리고 전체를 적분하면 1이된다. 히스토그램의 전체 면적이 1인 것처럼 확률밀도함수의 전체 면적인 1이 되어야한다.
- 어떤 구간에 있을 확률은 해당되는 구간에서의 면적으로 계산할 수 있다.
누적분포함수(cumulative distribution function)
- 성질 3번의 특별한 형태가 P(X ≤ x)인데, 이 f(x)를 누적분포함수, 분포함수라고 한다.
- 확률변수 X가 x보다 작거나 같을 확률을 적분하여 -무한대부터 x까지의 형태로 표시하고 F(x)로 표기
- x가 음수인 부분에서는 높이가 0이 되어 마이너스부터 시작을 하겠지만 적분을 해도 0이되니깐 x가 0에서 시작하는 것과 똑같다.
- 또한 위 그림처럼 확률밀도함수는 누적분포함수일 때 점프가 없고 계속 연결되어 있는 선으로 표시가 된다.
- 점프가 없으니, 모든 점에서의 확률은 0이 되는 것이다.
요약
- 확률밀도함수는 해당되는 지점에서 상대적으로 밀도가 얼마나 되는지를 보여주는 것
- X가 구간 a와 b에 속할 확률은 적분하여 면적으로 계산 가능
- 모든 점에서의 확률은 0
- 누적분포함수에서도 x까지의 확률밀도함수의 면적을 표시한 것
- 연속확률변수에 대한 누적분포함수에는 점프가 없음
'통계 > 통계학의 이해Ⅰ' 카테고리의 다른 글
[통계학의 이해Ⅰ] 7주차 확률변수와 확률분포 -5. 확률분포 퀴즈 (0) | 2024.02.04 |
---|---|
[통계학의 이해Ⅰ] 7주차 확률변수와 확률분포 -4. 확률변수의 기댓값 (0) | 2024.02.02 |
[통계학의 이해Ⅰ] 7주차 확률변수와 확률분포 -2. 이산확률변수와 확률질량함수 (0) | 2024.02.02 |
[통계학의 이해Ⅰ] 7주차 확률변수와 확률분포 -1. 확률변수란 (0) | 2024.02.02 |
[통계학의 이해Ⅰ] 6주차 조건부 확률 -5. 확률 퀴즈 설명 (0) | 2024.01.29 |