공부하는 블로그

[통계학의 이해Ⅰ] 7주차 확률변수와 확률분포 -1. 확률변수란 본문

통계/통계학의 이해Ⅰ

[통계학의 이해Ⅰ] 7주차 확률변수와 확률분포 -1. 확률변수란

young_o-o 2024. 2. 2. 16:33
728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.

K-MOOC 사이트 링크 공유합니다.


학습목표

  • 확률변수와 확률분포가 무엇인지 알아보고 이들을 통해 통계학에서는 세상을 어떤 시각으로 보는지를 이해한다.

확률변수(random variable)

  • 표본공간에서 정의된 실함수(real-valued function)
  • 실함수는 실숫값을 가지는데, 표본공간이 정의역이 되는 것
  • 표본공간의 원소를 숫자로 바꾸어 주는 함수, 즉 표본공간의 원소를 숫자로 대응시키는 함수
  • 통계학에서는 일반적으로 확률변수를 대문자 X, Y, Z 등으로 표시하며 확률변수가 취하는 값을 소문자 x, y, z 등으로 표기

통계학의 이해Ⅰ 강의 자료 7-1의 페이지1

  • 표본공간에서 나오는 것으로 표현이 되는데, 표본공간은 결국 확률실험에서 나왔다는 것을 의미
  • 즉 표본공간에 있는 어떠한 원소를 숫자(실수)로 바꿔주는 역할을 하는 것이 확률변수
  • 확률실험에는 실험하기 전에 발생 가능한 표본공간을 알 수 있는 점과 불확실성이라는 특징을 갖는다.
  • 불확실성을 가지는 사회적 및 자연적 현상을 일종의 확률실험으로 이해
  • 학률변수를 통해 표본공간을 숫자로 표시하고 불확실한 현상을 수학적으로 모형화 할 수 있음
    • 구체적으로 계량화된 분석을 할 수 있음
    • 사칙연산이나 각종 수학 이론을 적용할 수 있음
    • 불확실성을 제거하는 것이 아닌 수리적으로 모형화하는 것

예제

동전 3개 던지기

  • X: 앞면의 수
  • Y: 앞면과 뒷면의 수의 차이

통계학의 이해Ⅰ 강의 자료 7-1의 페이지3

  • 각각 X와 Y는 관심이 있는 것
  • X는 앞면의 수에 관심이 있기 때문에 그 숫자로 표현
  • Y도 마찬가지로 각각의 앞면과 뒷면의 차이로 표현
  • 이렇게 표본공간에 있는 값을 숫자로 변환한 것들이 확률변수이다.

윷 하나를 젖혀질 때까지 던지는 확률 실험

  • 젖혀지면 S, 엎어지면 F
  • X: 윷을 던진 횟수, Y: 엎어진 수

통계학의 이해Ⅰ 강의 자료 7-1의 페이지4

  • 각각의 확률 변수를 위와 같이 표현 가능하며 X와 Y에 대한 관계식도 산출할 수 있음

 

확률변수의 종류

변수가 취하는 값에 종류에 따라 나누어짐

 

이산확률변수(discrete random variable)

  • 확률변수가 가질 수 있는 값들이 가산(countable) 또는 셀 수 있는 경우
  • 가산 또는 셀 수 있다 라는 말은 X의 값들이 자연수 1, 2, 3, ... 과 대응관계를 가진다는 것 
    • 예) 불량품의 개수, 사고 건 수,...

연속확률변수(continuous random variable)

  • 가질 수 있는 값이 셀 수 없을 정도로 많은 경우 (속성이 연속적)
    • 예) 수명, 신장, 체중...
  • 확률변수가 무한히 많은 값을 갖는다고 하더라도 각각의 값에 순서를 부여할 수 있으면 이산확률변수가 된다.

 

확률분포(Probability Distribution)

  • 확률변수는 포본공간의 값을 숫자로 바꾼 함수임
  • 확률변수가 어떤 값을 가진다는 것은 표본공간 내에 대응하는 원소들이 존재한다는 것
  • 표본공간에서의 확률과 다르게 확률변수는 숫자이기 때문에 크기 순서대로 나열할 수 있으며 나열된 값에 대한 확률을 표시할 수 있어 확률이 어떠한 형태로 분포되어있는지 알 수 있음
  • 확률분포는 확률변수의 값에 대해 확률을 표시한 것
  • 확률분포표(probability distribution table)은 확률변수의 확률을 표로 표시한 것

통계학의 이해Ⅰ 강의 자료 7-1의 페이지7

  • X가 x라면 해당되는 표본공간에 사건이 존재하기 때문에 그 사건에 대한 확률을 계산할 수 있음. 따라서 확률변수 X가 임의의 x값이 될 확률을 계산할 수 있다.

통계학의 이해Ⅰ 강의 자료 7-1의 페이지8

  • X는 앞면의 수인데, 각각 앞면에 수에 대하여 사건이 발생할 확률을 계산할 수 있음

통계학의 이해Ⅰ 강의 자료 7-1의 페이지9

  • 확률변수는 숫자로 표시되고 해당 숫자에 대한 확률을 구할 수 있음
  • 확률변수의 값에 따라 확률이 어떤 형태로 분포되어있는지 위 그림처럼 표시 가능하다.
  • 해당 예시를 표본공간에서 본다면 특별히 순서가 없기 때문에 분포라고 하기 애매하지만 확률변수는 숫자로 표현되기 때문에 분포를 이야기 할 수 있음

통계학의 이해Ⅰ 강의 자료 7-1의 페이지10

  • 위 그림은 확률분포표의 예시이다.

통계학의 이해Ⅰ 강의 자료 7-1의 페이지11

  • 확률은 모집단이 어떠한 형태로 이루어져 있는지를 보여주는 것, 따라서 확률분포는 숫자로 이루어진 모집단이 어떤 형태로 이루어져 있는지를 표시한 것
  • 확률분포는 우리가 관심을 갖는 모집단의 확률구조이다.
  • 확률분포표를 이용하여 확률변수의 확률구조를 설명할 수 있으나 다양한 이론을 도출하기 위해서는 수리적인 방법으로 표시하는 것이 더 좋음. 따라서 통계학에서는 확률변수의 확률구조를 설명할 때 이산확률변수의 경우 확률질량함수, 연속확률변수의 경우 확률밀도함수를 사용하며 누적분포함수도 사용함.

요약

 

  1. 확률변수: 표본공간에서 정의된 실함수
    1. 불확실한 현상을 수학적으로 모형화 → 계량화된 분석 (분확실성을 제거하는 것이 아니다.)
    2. 불확실한 확률실험을 수학적으로 모형화하여 계량화된 분석을 수행하기 위해 확률변수가 필요한 것
  • 확률분포: 확률변수의 확률구조
    • 모집단의 형태