상세 컨텐츠

본문 제목

DataFrame #1

Data Scientist/Terms

by 디터치 2022. 8. 22. 17:54

본문

DataFrame에서 사용되는 기본용법에대해 알아보자.


  • index # 순서 0번부터 시작
  • columns # 세로열
  • dtypes # 해당 값의 타입 ex) float64, int64, object, datetime64[ns] ...
  • info # df를 구성하는 행과 열의 크기, 컬럼명, 컬럼을 구성하는 값의 자료형
  • describe # info와 마찬가지로 df를 구성하는 행과 열의 크기, 컬럼명, 컬럼을 구성하는 값의 자료형
  • select_dtypes # object형 데이터값만 호출 : include = 'object' / # object형이 아닌 데이터값만 호출 : exclude = 'object'
  • loc # 인덱스를 기준으로 데이터 불러오기
  • iloc # 행번호를 기준으로 데이터 불러오기(사용자 설정)
  • insert # 행,열 삽입 / 하이퍼파라미터로 (loc, column, value, allow_duplicates=True(중복된열 허용))
  • head # df의 처음 ()번째까지 출력
  • tail # head와 같은 기능이지만, 마지막으로부터 ()번째까지 출력
  • apply # 여러 행과 열에 동일한 함수를 적용시킨다.
  • aggregate # agg()로 축약해서 사용가능, 다수의 리스트를 사용하여 GroupBy 집계 함수를 동일한 column에 적용
  • drop # 행, 열 삭제 / axis=0(row), 1(column)
  • rename # 행, 열의 이름 변경
  • replace # 행, 열의 값을 지정값으로 치환한다.
  • nsmallest # 반환값이 가장 작은 값이있는 행을 기준으로 정렬한다.
  • nlargest # 반환값이 가장 큰 값이있는 행을 기준으로 정렬한다.
  • sort_values # 행을 기준으로 정렬한다. (ascending=True(오름차순)/False(내림차순))
  • sort_index # 열을 기준으로 정렬한다.
  • value_counts # 행을 기준으로 특정값이 몇개 있는지 출력한다.
  • shape # df의 shape을 출력한다.
 

'Data Scientist > Terms' 카테고리의 다른 글

list comprehension  (0) 2022.10.01
Types of Data  (0) 2022.08.22
Missing Data  (0) 2022.08.22

관련글 더보기

댓글 영역