공부하는 블로그

[통계학의 이해Ⅰ] 1주차 통계학이란? -4. 통계프로그램(R) 안내 및 과제 본문

통계/통계학의 이해Ⅰ

[통계학의 이해Ⅰ] 1주차 통계학이란? -4. 통계프로그램(R) 안내 및 과제

young_o-o 2024. 1. 1. 15:56
728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

K-MOOC 사이트 링크 공유합니다.


학습 목표

  • 자료 분석과 확률 실험을 하기 위한 통계 프로그램인 R과 Rstudio를 설치한다

통계프로그램

  • 상용프로그램
    • 상업적 목적이나 판매 목적으로 만든 프로그램
    • SAS, SPSS, STATA, Matlab
  • 무료프로그램
    • R, Python → 일종의 고급 컴퓨터 언어
    • SAS University Edition →  가상 애플리케이션 (가상 곤간에 해당되는 프로그램 설치 필요) 

R 설치 (Window 기준 설명)

①R 홈페이지 접속: https://www.r-project.org/ 접속

② CRAN Mirrors에서 "Korea"에 해당되는 사이트 선택

 

③ OS에 맞는 버전 선택

 

④ base 클릭

 

⑤ Download R-[version] for Windows 클릭

 

⑥ R-[version]-win.exe 파일 실행

  • 언어 선택 후 기본값으로 다음을 누르면서 설치 하면 완료

R 설치 (Window 기준 설명)

① R studio 홈페이지 접속: https://posit.co/download/rstudio-desktop/

 

② "DOWNLOAD RSTUDIO DESKTOP FOR WINDOWS" 클릭하면 바로 실행 파일 download 

③ Rstudio-[날짜 및 버전?].exe (ex. RStudio-2023.12.0-369.exe) 실행

④ Rstudio 실행

 

 


과제

  • 과제1
    • 국가통계포털(https://kosis.kr/index/index.do)에서는 국가승인통계 제공
    • 실업률과 관련된 통계지표를 찾아 통계명, 목표모집단, 조사모집단, 표본추출법, 표본수, 조사주기에 대해 알아보기
  • 내 풀이 (2024.01.01 기준)
    • 통계명: 성/교육정도별 실업률
    • 목표모집단: 대한민국에 상주하고 있는 만 15세 이상 모든 사람
    • 조사모집단: 2020년 기준 등록센서스에 포함된 만 15세 이상 모든 사람
      - 병역 (군대), 병원, 교도소 등 특수시설 거주자와 불법체류자는 조사모집단에서 제외하며, 등록센서스 조사구 정보와 연계되지 않는 경우도 제외
      - 목표 모집단의 1.9% (875, 278명) 제외
    • 표본추출법: 층화 2단 집락 계통추출(Two-stage Cluster Systematic Sampling)
      - 1차 추출단위: 조사구, 확률비례계통추출 (가구 수 크기 비례)
      - 2차 추출단위: 가구, 표본 조사구 내 단순임의추출
    • 표본수: 1,791개 조사구 (조사구당 평균 20가)구
    • 조사주기: 매월
    • 『경제활동인구조사』 통계정보보고서 2023.09 참고
  • 과제2

  • 지역의 정보만을 이용하여 지역1의 표본에 대한 가중치를 유도하기
  • 지역과 연령정보를 이용하여 지역1의 50대 이상의 표본에 대한 가중치 유도하기
  • 내 풀이
    • 지역1 표본에 대한 가중치
      - 지역1의 전체 모집단은 4000 + 5500 = 9500이고, 전체 표본은 150 + 150 = 300
      - 지역1의 추출률 = 300 / 9500
      - 지역1의 설계가중치 = 추출률의 역수 = 9500 / 300 = 31.666
      - 지역1에서 한명이 31.6명을 대표
    • 지역1의 50대 이상의 표본에 대한 가중치
      -  지역 1의 설계 가중치 = 31.6666
      - 50대 남자와 40대 남자의 비율은 모집단에서 (42.1, 57.9), 표본에서는 (50, 50)
      - 50대 남자의 사후층화 가중치 = 42.1/50
      - 최종 지역1의 50대 남자 가중치 = (9500/300) * (42.1/50) = 26.66

※ 강좌는 청강한 것이라 과제 검토받지 못하였습니다. 학습한 내용 기반으로 작성한 것이므로 정답인지 아닌지 알 수 없습니다.