데이터 분석에 있어 raw data (원본데이터)를 바로사용하기에는 어렵습니다.
EDA란, 데이터 분석에 있어서 매우 중요한, 초기 분석의 단계를 의미하며
EDA의 방법은 크게 2가지 (Graphic, Non-Graphic) 으로 나눠질 수 있으며
동시에, EDA의 "타겟"(데이터) 또한 2가지 (Univariate, Multi-variate)로 나눠집니다.
Sample Data의 Distribution을 확인하는 것이 주목적입니다.
Numeric data의 경우 summary statistics를 제일 많이 활용하는데요. 이에는
Categorical data의 경우 occurence, frequency, tabulation등을 할 수 있습니다.
## pandas를 통해 데이터를 불러오는 방법
import pandas as pd
df = pd.read_csv() # csv파일 불러오기
df.head() # 처음 ()번째 row까지 보여준다.
df.shape # dataframe의 전체 크기(columns * rows)
앞에는 pandas.read_csv()로 불러온 dataframe이 온다.(df.***)
댓글 영역