Data Scientist/Terms

Types of Data

디터치 2022. 8. 22. 18:42

데이터 분석의 기초는 내가 다루는 데이터의 타입이 무엇이고,
인사이트를 도출시키기 위해 어떻게 사용할지 계획을 세운다.

 

데이터타입은 integer, float, datetime 등 여러개로 분류할 수 있지만, Categorical / Continuos Data 크게 둘로 나눌 수 있다.

Categorical 에는 또 Nominal / Ordinal 로,

ContinuousInterval / Ratio 로 구분할 수 있다.

 

Categorical data: 범주형 데이터

 

- Nominal: Values represent discrete units. Changing the order of units does not change their value.

  • 명사로 지칭되는 데이터
  • 순서와는 상관없으며, 개수를 파악할때 유용함
  • 두 개의 범주 중 하나에 속하는 경우, dichotomous data(이분 자료)로 명칭 ex) 남/여, 장애/비장애, 오전/오후 등

 

- Ordinal: Values represent discrete and ordered units. Distance between units is not the same

  • 명사로 지칭될 수 있고, 순서가 있는 경우
  • 단, 그 순서에서 n번과 n+1의 차이가 항상 같지는 않다.
  • 가장 많이드는 예시로는 survey에서 1: 극호 ~ 5: 극불호

Continuos data: 연속성 데이터

 

- Interval: Ordered units with intermediate values. Distance between units is the same. No Absolute Zero

  • 중간값을 가지는 정렬된(연속적인) 단위들
  • 각각의 단위들 사이의 간격은 동일하며, 절대적인 시작점은 없다.
  • 시계열 데이터에서 특정 시간을 나타내는 data의 경우에는 interval data가 될 수 있다. (60초=1분, 60분=1시간 등의 불변의 규칙을 지키고 있기 때문)
  • 나이대별 데이터에서 각각 14세, 27세, 43세 등을 나타낸다.

 

- Ratio: Ordered units with intermediate values. Distance between units is the same. Absolute Zero

  • 중간값을 가지는 정렬된(연속적인) 단위들
  • 각각의 단위들 사이의 간격은 동일하며, 절대적인 시작점이 있는 경우 ex) 개점 후 1개월, 6개월, 1년 / 입대 후 6개월, 1년 등
  • 시계열 데이터에서 특정 시점을 나타내는 data의 경우에는 ratio data가 될 수 있다. (보통 경과된 시점에 따른 변화 추이)
  • 나이대별 데이터에서는 성인기준 20대(시작점), 30대, 40대 등등으로 표현한다.

★ 각각의 구분법은 초보자들의 이해를 돕기 위해 설명된 것이므로, 너무 맹신하면 안된다.

각각 세세한 정의를 하기엔 데이터가 담고 있는 의미가 중복되는 경우가 더 많기 때문이다.

본인이 사용하려하는 데이터의 특성을 이해한다고만 생각하자.