공부하는 블로그
[통계학의 이해Ⅰ] 8주차 확률벡터 -3. 공분산과 상관계수 본문
728x90
해당 글은 숙명여자대학교 여인권 교수님의
K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.
추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.
학습목표
- 두개 이상의 확률변수에 대한 기댓값 계산 방법을 알아본다.
- 두 변수의 직선관계 정도를 나타내는 공분산과 상관계수를 계산하고 독립일 때 이들 값이 0인 것을 보인다.
- 두 변수의 선형결합과 관련된 평균과 분산의 성질에 대해 알아본다.
기댓값
- 기댓값은 확률변수가 가질 수 있는 값에 해당 확률을 곱하여 다 더한 것으로 정의했음
- 두 확률변수의 기댓값은 정의된 기댓값과 마찬가지로 이들 변수가 가질 수 있는 값에 해당 확률, 즉 결합확률질량함수를 곱하여 x와 y에 대해 다 더혼 것으로 표시됨
확률변수 X와 Y에 대해, X+Y의 기댓값? XY의 기댓값?
- 두 변수를 고려한다는 것은 일단 두 변수에 대한 결합분포가 있다는 것을 전제
- 결합확률질량함수나 결합확률밀도함수를 이용
이산확률변수
- 결론적으로, X+Y의 기댓값은 각각의 기댓값을 더하여 구할 수 있음
- 곱하기의 형태는 모두 곱하여 다 더한 형태로 표현
기댓값 정리
- E(X + Y) = E(X) + E(Y)
- X와 Y가 독립이면 E(XY) = E(X)E(Y)
공분산(Covariance)
- 두 학률변수가 독립이 아니라면 서로 관련성이 있다는 것을 의미
- 통계학에서는 특별히 두 확률변수 간의 관계를 가장 간단하게 표시하는 직선관계에 관심을 갖음
- 마찬가지로 표본공분산을 계산하는 식에서 확률변수의 공분산을 유도
- 표본공분산에서 가질 수 있는 값들로 변경하여 계산식을 유도하게 되면, nij는 표본중에서 xi와 yj가 가질 수 있는 표본의 개수이며, 이는 weight을 부여하는 것처럼 표현이 됨
- 각각 n을 곱하고 나누어 pij로 변경
- n을 아주 크게 하면, n/n-1은 1로 수렴, pij는 f(x, y)로 수렴, x bar는 μx로, y bar는 μy로 수렴
- 공분산을 계산할 때 아래와 같은 간편식을 주로 사용
- 위 간편식에 따라 X와 Y가 서로 독립이면, E(XY) = E(X)E(Y)이므로, Cov(X, Y)는 0이된다.
- 따라서 서로 독립이면 공분산은 0이 된다.
- 하지만 역인 공분산이 0이면 서로 독립이라는 역은 성립되지 않는다.
결확확률분포표 (예제)
- E(X) = 0 * 2/3 + 1 * 1/3 = 1/3 마찬가지로 E(Y) = 0
- E(XY)는 각각의 x, y, f(x, y)를 다 곱하여 더함 = 0
- Cov(X, Y) = 0 - 1/3*0 = 0
- 독립 조건 f(x, y) = f(x)f(y)가 성립되지 않으므로 독립이 아님
기댓값 정리
- 아래 과정을 통해 기댓값 정리 3번 증명
- 아래 과정을 통해 기댓값 정리 4번 증명
- 기댓값 정리 5번은 X와 Y가 독립이면 Cov(X, Y)가 0이므로 기댓값 정리 4번에서 0을 대입하면 Var(X + Y) = Var(X) + Var(Y)가 된다. [Var(X-Y) = Var(X) + Var(Y)]
상관계수 (coefficient of correlation)
- 표본상관계수는 표본공분산을 각각의 표본표준편차로 나눈 값
- 두 확률변수 X와 Y의 상관계수는 X와 Y의 공분산을 각각의 표준편차로 나눈 것
상관계수의 성질
- 상관계수는 -1가 1사이의 값을 갖으며, 어떤 직선을 중심으로 모여있을수록 절댓값 1에 근접하다.
- X와 Y가 직선의 관계식을 갖게 되면, X와 Y의 상관계수는 절댓값 1이며, a가 양수이면 1이고 음수이면 -1이다.
- 마지막 성질은 a와 b가 0이 아닐 때 아래 식으로 유도된다.
- sign(a)는 a의 부호함수로 a가 양수이면 1, 음수이면 01, 0이면 0의 값을 갖는 함수이다.
요약
- 공분산을 구하는 식은 이산형일 경우 ∑로, 연속형일 경우 ∫로 구한다.
- X와 Y의 공분산은 E(XY) - E(X)E(Y)로 구할 수 있다.
- X와 Y가 서로 독립이면 E(XY) = E(X)E(Y)이므로, 공분산은 0이다.
- 상관계수를 통해 부높가 얼마나 직선관계를 가지는지, 임의의 직선 위에 밀집되어 있는지 퍼져 있는지를 알 수 있다.
'통계 > 통계학의 이해Ⅰ' 카테고리의 다른 글
[통계학의 이해Ⅰ] 9주차 주요 이산확률분포 Ⅰ-1. 베르누이 시행과 확률변수 (2) | 2024.02.12 |
---|---|
[통계학의 이해Ⅰ] 8주차 확률벡터 -4. 결합분포 퀴즈 (0) | 2024.02.11 |
[통계학의 이해Ⅰ] 8주차 확률벡터 -2. 결합분포와 주변분포 (0) | 2024.02.05 |
[통계학의 이해Ⅰ] 8주차 확률벡터 -1. 분산과 표준편차 (0) | 2024.02.05 |
[통계학의 이해Ⅰ] 7주차 확률변수와 확률분포 -5. 확률분포 퀴즈 (0) | 2024.02.04 |