Data Scientist/Terms
Types of Data
디터치
2022. 8. 22. 18:42
데이터 분석의 기초는 내가 다루는 데이터의 타입이 무엇이고,
인사이트를 도출시키기 위해 어떻게 사용할지 계획을 세운다.
데이터타입은 integer, float, datetime 등 여러개로 분류할 수 있지만, Categorical / Continuos Data 크게 둘로 나눌 수 있다.
Categorical 에는 또 Nominal / Ordinal 로,
Continuous 는 Interval / Ratio 로 구분할 수 있다.
Categorical data: 범주형 데이터
- Nominal: Values represent discrete units. Changing the order of units does not change their value.
- 명사로 지칭되는 데이터
- 순서와는 상관없으며, 개수를 파악할때 유용함
- 두 개의 범주 중 하나에 속하는 경우, dichotomous data(이분 자료)로 명칭 ex) 남/여, 장애/비장애, 오전/오후 등
- Ordinal: Values represent discrete and ordered units. Distance between units is not the same
- 명사로 지칭될 수 있고, 순서가 있는 경우
- 단, 그 순서에서 n번과 n+1의 차이가 항상 같지는 않다.
- 가장 많이드는 예시로는 survey에서 1: 극호 ~ 5: 극불호
Continuos data: 연속성 데이터
- Interval: Ordered units with intermediate values. Distance between units is the same. No Absolute Zero
- 중간값을 가지는 정렬된(연속적인) 단위들
- 각각의 단위들 사이의 간격은 동일하며, 절대적인 시작점은 없다.
- 시계열 데이터에서 특정 시간을 나타내는 data의 경우에는 interval data가 될 수 있다. (60초=1분, 60분=1시간 등의 불변의 규칙을 지키고 있기 때문)
- 나이대별 데이터에서 각각 14세, 27세, 43세 등을 나타낸다.
- Ratio: Ordered units with intermediate values. Distance between units is the same. Absolute Zero
- 중간값을 가지는 정렬된(연속적인) 단위들
- 각각의 단위들 사이의 간격은 동일하며, 절대적인 시작점이 있는 경우 ex) 개점 후 1개월, 6개월, 1년 / 입대 후 6개월, 1년 등
- 시계열 데이터에서 특정 시점을 나타내는 data의 경우에는 ratio data가 될 수 있다. (보통 경과된 시점에 따른 변화 추이)
- 나이대별 데이터에서는 성인기준 20대(시작점), 30대, 40대 등등으로 표현한다.
★ 각각의 구분법은 초보자들의 이해를 돕기 위해 설명된 것이므로, 너무 맹신하면 안된다.
각각 세세한 정의를 하기엔 데이터가 담고 있는 의미가 중복되는 경우가 더 많기 때문이다.
본인이 사용하려하는 데이터의 특성을 이해한다고만 생각하자.