공부하는 블로그

[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -1. 자료의 분류와 특성 본문

통계/통계학의 이해Ⅰ

[통계학의 이해Ⅰ] 2주차 일변량 자료 기술통계 -1. 자료의 분류와 특성

young_o-o 2024. 1. 1. 22:51
728x90

해당 글은 숙명여자대학교 여인권 교수님의

K-MOOC 통계학의 이해Ⅰ(2019.05.01~2019.08.03) 강의를 수강하며 복습 및 정리하기 위해 작성한 글입니다.

추가적으로 여인권 교수님의 통계학 기본개념과 원리 2판을 참고하였습니다.

K-MOOC 사이트 링크 공유합니다.


 

학습목표

  • 효과적인 자료 분석을 위해 자료를 속성에 따라 분류해본다.

자료의 종류와 특성

  • 통계분석 방법은 자료의 속성과 분석 목적에 따라 달라진다.
  • 분석 방법의 적절성: 분석하고자 하는 자료가 분석방법에서 가정한 조건을 얼마나 만족하는지에 따라 결정한다.
    • 자료의 속성에 따른 분류필요
  • 통계학에서는 분석 목적이나 자료 형태에 따라 다양한 형태의 분석 방법을 제공한다. 따라서 분석 방법은 무엇으로 선택하는지가 매우 중요하며 이를 효과적으로 하기 위해 자료를 속성에 따라 분석할 필요가 있다.

예시로 접근하기

신체검사 자료

통계학의 이해Ⅰ 강의 자료 2-1의 페이지2

 

  • 이렇게 수집된 데이터 전체를 데이터세트 (data set) 즉, 자료의 집합이다.
  • 변수: 성, 연령, 신장, 체중, 비만도, 혈액형, 충치
  • 관측개체: 번호로 부여되어있는 001 ~... (개별 사람, 각각의 대상)
  • 데이터의 형태가 숫자, 범주 등 다 다르고 이러한 특징들을 고려해서 데이터를 분류한다.
  • 만약 "체중"에만 관심이 있어 체중 변수만 존재하는 데이터는 일변량 자료 (univariate data)라고 한다.

 

변수(Variable)

  • 일변량 자료(univariate data): 하나의 변수만 있는 자료
  • 다변량 자료(multivariate data): 여러 개의 변수로 이루어진 자료
    • 변수들 간 관련성 유무 (다변량 자료의 경우 관련성이 있을 수도 없을 수도 있다.)
    • 예) 성과 비만은 관련성이 없음, 신장과 체중은 관련성이 있을 수 있음

관측개체(Observation, 관측값(치))

  • 관측개체들 간 관련성 유무 (상황에 따라 있을 수도 없을 수도 있다.)
  • 통계학의 이해 강좌에서는 기본적인 가정이 "관측개체는 독립된 data다"라고 본다.

자료의 분류

통계학의 이해Ⅰ 강의 자료 2-1의 페이지4

 

범주형 자료(categorial data): 질적인 속성

  • 명목형 자료(nominal data)
    • 숫자로 바꾸어도 그 값이 크고 작음을 나타내는 것이 아니라 단순히 범주를 표기하는 것
    • 예) 혈액형, 성별
  • 순서자료(ordinal data)
    • 범주이지만 순서를 갖고 있어 상대비교가 가능하여 순서적으로 표현이 가능한 것
    • 예) 비만도 (저체중, 정상, 과체중, 비만, 고도비만), 선호도 (매우 좋음, 좋음, 보통, 나쁨, 매우 나쁨), 학점 (A,B, C, D,F)
    • 범주화를 통해 수치자료를 순서자료로 바꿀 수 있다.
      -> 대부분의 경우 실제 data는 수치자료 (숫자 표현: 비만도, 학점)이지만이를 범주화하여 순서 자료로 변경하는 경우가 많다.
    • 대부분의 순서자료는 원래 수치자료인데 이를 구간으로 그룹화하여 순서자료로 바꾸어 사용하는 경우가 많다.
    • 수치자료 분석 방법을 순서자료를 분석할 때 사용가능하다.
    • 신체검사 자료
      • BMI지수는 체중 (Kg)을 신장(m)의 제곱으로 나눈 값 (Kg/m^2)
      • 번호 001에서 007까지의BMI
        (22.9,24.5, 18.5, 21.1, 20.2, 17.3, 27.0)
      • 20대 이하의 경우 비만도 평균 구간
      • 이런식으로 BMI는 실제 수치 자료인데, 범주형으로 만든 것이고 이를 "순서자료"라고 한다.

통계학의 이해Ⅰ 강의 자료 2-1의 페이지7

수치자료(numerical data): 양적인 속성

  • 이산자료(discrete data)
    • 셀 수 있는 형태의 자료(countable data)
    • 예) 충치 수, 교통사고 건수, 자녀의 수
    • 범주형 자려의 발생빈도로 표현된다.
      • 예) 충치의 경우 치아 하나에 충치가 있다/없다.로 범주형 자료로 나타나게 된다. 모든 치아에서 범주형 자료의 발생 빈도를 파악하여 총 충치의 수를 확인하게 되는 것이다. 
      • 따라서 이산자료의 경우 범주형 자료의 발생빈도이기 때문에 범주형 자료의 분석이 사용되기도 한다.
  • 연속자료(continuous data)
    • 연속적인 속성을 가지는 자료
    • 예) 신장, 체중, 시간
    • 연속자료는 대부분 이산화를 통해 절사된 형태로 표시된다.
    • 실제 데이터의 속성은 연속적인데 이를 이산화하여 절사된 형태로 표현한 것으로 숫자는 정수형이어도 속성은 연속성이다.
      예) 체중의 경우 "65Kg"일 때, 실제로는 65.5~64.5 사이에 있는 값들을 모두 65Kg으로표기한다.
    • 편의를 위해서 척도에 따라 명목, 순서, 구간, 비율척도로 나뉜다.

자료를 어떠한 형태로 나누면 효과적으로 분석 모델을 선택할 수 있는가에 대하여 정할 수 있기 때문에 나누어서 분석한다.


요약

통계학의 이해Ⅰ 강의 자료 2-1의 페이지10

  • 자료는 크게 범주형 자료와 수치형 자료로 나뉜다.
  • 범주형 자료는 범주의 형태만 있는 명목자료와 순서가 있는 순서자료가 있다. 
  • 수치자료에는 셀 수 있는 형태인 이산자료와 연속성을 갖는 연속자료가 있다.
  • 연속자료를 범주화 하면 순서자료가 된다.
  • 범주형 자료를 묶어서 보면 이산자료가 될 수 있다.
  • 연속자료에서 순서자료, 순서자료에서 명목자료의 형태로 변환될수록 정보의 손실이 많아진다.
  • 데이터 형태는 상황에 따라 달라질 수 있으며 다양한 방법을 적용할 수 있다. 즉, 적절한 방법인지 더 효과적인 방법인지는 자료의 형태에 맞게 설정하는 것이 중요하다.