목록전체 글 (58)
공부하는 블로그
해당 글은 숙명여자대학교 여인권 교수님의 K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다. 추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다. K-MOOC 사이트 링크 공유합니다. 학습목표 두 수치자료의 직선관계의 정도를 나타내는 통계값을 알아본다. 공분산과 상관계수 산점도 : 두 수치변수 간에 관계가 잇는지를 시각적으로 확인 두 수치변수 간에 직선관계가 어느 정도인지를 나타내는 통계값 자료표시: 왼쪽 그림은 양의 기울기를 갖는 선분을 중심으로 분포되어 있다. 오른쪽 그림은 음의 기울기를 갖는 선분을 중심으로 분포가 되어 있다. 해당 그림에서 x축 또는 y축의 값에 임의의 숫자를 더하거나 빼더라도 형태는 변..
해당 글은 숙명여자대학교 여인권 교수님의 K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다. 추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다. K-MOOC 사이트 링크 공유합니다. 학습목표 표나 그래프를 이용하여 수치자료를 그룹별로 나누어 비교하는 방법을 알아본다. 두 수치 자료의 관계를 나타내는 그래프에 대해 알아본다. 표를 이용한 정리 자료 구조와 분석 목적 구조: 분류(그룹 = 범주) 자료 + 수치자료 목적: 그룹 간 비교 수치자료의 특성을 나타내는 값을 그룹별로 정리 기본 통계값: 표본크기, 평균, 표준편차 정당별 득표율 데이터에 대하여 각 정당별 정리한 표이다. 기본적으로는 표본의 수, 평균, 표준..
해당 글은 숙명여자대학교 여인권 교수님의 K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다. 추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다. K-MOOC 사이트 링크 공유합니다. 학습목표 다변량 범주형 자료를 표나 그래프를 이용하여 정리하는 방법을 알아본다. 변수(자료) 형태 1번일 경우 비교를 하는데, x에 따라 y의 빈도 또는 비율에 차이가 있는지 확인할 수 있다. 2번일 경우 비교에 목적을 두고 x 에 따라 평균이나 분산에 차이가 있는지 확인할 수 있다. 2번과 3번은 또한 분류에 목적을 두고 분석할 수 있다. 4번의 경우 관계를 확인하기 위한 목적을 두고 x와 y의 수치적 관계를 확인할 수 있다. ..
해당 글은 숙명여자대학교 여인권 교수님의 K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다. K-MOOC 사이트 링크 공유합니다. 과제 과제1 "hit.txt"의 자료를 불러오기: 연도별 프로야구 최고 타율 표본평균, 표본중앙값, 최댓값과 최솟값을 제외한 평균 계산 상자그림, 분산, 변동계수 계산 hit
해당 글은 숙명여자대학교 여인권 교수님의 K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다. 추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다. K-MOOC 사이트 링크 공유합니다. 학습목표 자료의 분포 형태가 대칭인지 아닌지를 나타내는 통계값을 알아본다. 분포의 꼬리부분이 얼마나 두터운지를 나타내는 통계값을 알아본다. 분포의 형태 많은 통계분석 방법은 모집단이 중심위치를 기준으로 대칭(symmetric)이라고 가정한다. 분석방법의 적절성은 가정한 조건을 자료가 얼마나 만족하고 있는지에 따라 영향을 받는다. 자료의 분포 형태에 대한 측도 자료가 모집단의 가정을 만족하는지를 확인 왜도(skewness) 자료가 ..
해당 글은 숙명여자대학교 여인권 교수님의 K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다. 추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다. K-MOOC 사이트 링크 공유합니다. 학습목표 자료들 간의 거리를 이용하여 산포도를 계산하는 방법을 알아본다. 표본분산과 표준편차 모든 자료들 간의 거리의 합을 이용하는 방법은? 거리(distance): 임의의 점 a, b, c에 대해 아래 성질을 만족한다. 해당 거리를 이용하여 자료들 간의 퍼져있는 정도를 알 수 있다. 이러한 성질을 만족하는 D는 수없이 많은데 그 중 우리는 D(a, b) = |a - b|와 D(a, b) = (a - b)^2에 관심을 갖는다. 이..
해당 글은 숙명여자대학교 여인권 교수님의 K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다. 추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다. K-MOOC 사이트 링크 공유합니다. 학습목표 수치자료의 퍼져있는 정도(산포도)를 나타내는 값 중 두 특정 위치의 정보를 활용한 통계값을 알아본다. 자료의 주요 위치를 파악하고 이상점 유무를 확인하는데 사용되는 상자그림에 대해 알아본다. 산포(dispersion, 퍼짐) 자료들이 얼마나 퍼져 있는지를 나타내는 측도 중심위치가 얼마나 안정적인지에 대한 중요한 정보를 제공 자료가 조밀하게 모임 → 중심위치의 변동성이 작아짐 → 중심위치에 안정 → 중심위치에 대한 신뢰도 ..
해당 글은 숙명여자대학교 여인권 교수님의 K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다. 추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다. K-MOOC 사이트 링크 공유합니다. 학습목표 수치자료의 중심위치를 나타내는 대체 통계값을 계산하는 방법과 성질을 알아본다. 표본중앙값(sample median, 표본중위수) 자료를 크기순서대로 나열했을 때 중간에 있는 값 순서통계량(order statistics): 표본을 오름차순으로 정렬한 것 x_i: i번쨰로 작은 값 x_1: 최솟값 x_n: 최댓값 예) n = 5일 때, 3번쨰 순서통계량 x_3이 median 예) n = 6일 때, 3번쨰와 4번째 순서통계량의..