공부하는 블로그
[통계학의 이해Ⅰ] 7주차 확률변수와 확률분포 -1. 확률변수란 본문
728x90
해당 글은 숙명여자대학교 여인권 교수님의
K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.
추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.
학습목표
- 확률변수와 확률분포가 무엇인지 알아보고 이들을 통해 통계학에서는 세상을 어떤 시각으로 보는지를 이해한다.
확률변수(random variable)
- 표본공간에서 정의된 실함수(real-valued function)
- 실함수는 실숫값을 가지는데, 표본공간이 정의역이 되는 것
- 표본공간의 원소를 숫자로 바꾸어 주는 함수, 즉 표본공간의 원소를 숫자로 대응시키는 함수
- 통계학에서는 일반적으로 확률변수를 대문자 X, Y, Z 등으로 표시하며 확률변수가 취하는 값을 소문자 x, y, z 등으로 표기
- 표본공간에서 나오는 것으로 표현이 되는데, 표본공간은 결국 확률실험에서 나왔다는 것을 의미
- 즉 표본공간에 있는 어떠한 원소를 숫자(실수)로 바꿔주는 역할을 하는 것이 확률변수
- 확률실험에는 실험하기 전에 발생 가능한 표본공간을 알 수 있는 점과 불확실성이라는 특징을 갖는다.
- 불확실성을 가지는 사회적 및 자연적 현상을 일종의 확률실험으로 이해
- 학률변수를 통해 표본공간을 숫자로 표시하고 불확실한 현상을 수학적으로 모형화 할 수 있음
- 구체적으로 계량화된 분석을 할 수 있음
- 사칙연산이나 각종 수학 이론을 적용할 수 있음
- 불확실성을 제거하는 것이 아닌 수리적으로 모형화하는 것
예제
동전 3개 던지기
- X: 앞면의 수
- Y: 앞면과 뒷면의 수의 차이
- 각각 X와 Y는 관심이 있는 것
- X는 앞면의 수에 관심이 있기 때문에 그 숫자로 표현
- Y도 마찬가지로 각각의 앞면과 뒷면의 차이로 표현
- 이렇게 표본공간에 있는 값을 숫자로 변환한 것들이 확률변수이다.
윷 하나를 젖혀질 때까지 던지는 확률 실험
- 젖혀지면 S, 엎어지면 F
- X: 윷을 던진 횟수, Y: 엎어진 수
- 각각의 확률 변수를 위와 같이 표현 가능하며 X와 Y에 대한 관계식도 산출할 수 있음
확률변수의 종류
변수가 취하는 값에 종류에 따라 나누어짐
이산확률변수(discrete random variable)
- 확률변수가 가질 수 있는 값들이 가산(countable) 또는 셀 수 있는 경우
- 가산 또는 셀 수 있다 라는 말은 X의 값들이 자연수 1, 2, 3, ... 과 대응관계를 가진다는 것
- 예) 불량품의 개수, 사고 건 수,...
연속확률변수(continuous random variable)
- 가질 수 있는 값이 셀 수 없을 정도로 많은 경우 (속성이 연속적)
- 예) 수명, 신장, 체중...
- 확률변수가 무한히 많은 값을 갖는다고 하더라도 각각의 값에 순서를 부여할 수 있으면 이산확률변수가 된다.
확률분포(Probability Distribution)
- 확률변수는 포본공간의 값을 숫자로 바꾼 함수임
- 확률변수가 어떤 값을 가진다는 것은 표본공간 내에 대응하는 원소들이 존재한다는 것
- 표본공간에서의 확률과 다르게 확률변수는 숫자이기 때문에 크기 순서대로 나열할 수 있으며 나열된 값에 대한 확률을 표시할 수 있어 확률이 어떠한 형태로 분포되어있는지 알 수 있음
- 확률분포는 확률변수의 값에 대해 확률을 표시한 것
- 확률분포표(probability distribution table)은 확률변수의 확률을 표로 표시한 것
- X가 x라면 해당되는 표본공간에 사건이 존재하기 때문에 그 사건에 대한 확률을 계산할 수 있음. 따라서 확률변수 X가 임의의 x값이 될 확률을 계산할 수 있다.
- X는 앞면의 수인데, 각각 앞면에 수에 대하여 사건이 발생할 확률을 계산할 수 있음
- 확률변수는 숫자로 표시되고 해당 숫자에 대한 확률을 구할 수 있음
- 확률변수의 값에 따라 확률이 어떤 형태로 분포되어있는지 위 그림처럼 표시 가능하다.
- 해당 예시를 표본공간에서 본다면 특별히 순서가 없기 때문에 분포라고 하기 애매하지만 확률변수는 숫자로 표현되기 때문에 분포를 이야기 할 수 있음
- 위 그림은 확률분포표의 예시이다.
- 확률은 모집단이 어떠한 형태로 이루어져 있는지를 보여주는 것, 따라서 확률분포는 숫자로 이루어진 모집단이 어떤 형태로 이루어져 있는지를 표시한 것
- 확률분포는 우리가 관심을 갖는 모집단의 확률구조이다.
- 확률분포표를 이용하여 확률변수의 확률구조를 설명할 수 있으나 다양한 이론을 도출하기 위해서는 수리적인 방법으로 표시하는 것이 더 좋음. 따라서 통계학에서는 확률변수의 확률구조를 설명할 때 이산확률변수의 경우 확률질량함수, 연속확률변수의 경우 확률밀도함수를 사용하며 누적분포함수도 사용함.
요약
- 확률변수: 표본공간에서 정의된 실함수
- 불확실한 현상을 수학적으로 모형화 → 계량화된 분석 (분확실성을 제거하는 것이 아니다.)
- 불확실한 확률실험을 수학적으로 모형화하여 계량화된 분석을 수행하기 위해 확률변수가 필요한 것
- 확률분포: 확률변수의 확률구조
- 모집단의 형태
'통계 > 통계학의 이해Ⅰ' 카테고리의 다른 글
[통계학의 이해Ⅰ] 7주차 확률변수와 확률분포 -3. 연속확률변수와 확률밀도함수 (0) | 2024.02.02 |
---|---|
[통계학의 이해Ⅰ] 7주차 확률변수와 확률분포 -2. 이산확률변수와 확률질량함수 (0) | 2024.02.02 |
[통계학의 이해Ⅰ] 6주차 조건부 확률 -5. 확률 퀴즈 설명 (0) | 2024.01.29 |
[통계학의 이해Ⅰ] 6주차 조건부 확률 -4. 베이즈 정리 (2) | 2024.01.29 |
[통계학의 이해Ⅰ] 6주차 조건부 확률 -3. 독립사건 (2) | 2024.01.29 |