상세 컨텐츠

본문 제목

EDA (Exploratory Data Analysis)

Data Scientist/Subjects

by 디터치 2022. 8. 22. 17:44

본문

데이터 분석에 있어 raw data (원본데이터)를 바로사용하기에는 어렵습니다.

EDA란, 데이터 분석에 있어서 매우 중요한, 초기 분석의 단계를 의미하며

  • 시각화 같은 도구를 통해서 패턴을 발견하거나
  • 데이터의 특이성을 확인하거나
  • 통계와 그래픽 (혹은 시각적 표현)을 통해서 가설을 검정하는 과정 등을 포함합니다.

EDA의 방법은 크게 2가지 (Graphic, Non-Graphic) 으로 나눠질 수 있으며

  • Graphic : 차트 혹은 그림 등을 이용하여 데이터를 확인하는 방법입니다.
  • Non-Graphic :그래픽적인 요소를 사용하지 않는 방법으로, 주로 Summary Statistics를 통해 데이터를 확인하는 방법입니다.

동시에, EDA의 "타겟"(데이터) 또한 2가지 (Univariate, Multi-variate)로 나눠집니다.

  • Multi-variate 의 경우 여러 변수들간의 관계를 보는 것이 주요 목적입니다.

Uni - Non Graphic

Sample Data의 Distribution을 확인하는 것이 주목적입니다.

Numeric data의 경우 summary statistics를 제일 많이 활용하는데요. 이에는

  • Center (Mean, Median, Mode)
  • Spread (Variance, SD, IQR, Range)
  • Modality (Peak)
  • Shape (Tail, Skewness, Kurtosis)
  • Outliers 등을 확인합니다.

Categorical data의 경우 occurence, frequency, tabulation등을 할 수 있습니다.

## pandas를 통해 데이터를 불러오는 방법
import pandas as pd

df = pd.read_csv() # csv파일 불러오기

df.head() # 처음 ()번째 row까지 보여준다.

df.shape # dataframe의 전체 크기(columns * rows)

 

Useful Pandas Functions

앞에는 pandas.read_csv()로 불러온 dataframe이 온다.(df.***)

 

댓글 영역