D'Touch

고정 헤더 영역

글 제목

메뉴 레이어

D'Touch

메뉴 리스트

  • 홈
  • 분류 전체보기 (11)
    • SQL (0)
      • SQLD (0)
    • Data Scientist (11)
      • Subjects (1)
      • Terms (4)
      • Projects (5)
      • Errors (0)
    • Health (0)
    • Review (0)

검색 레이어

D'Touch

검색 영역

컨텐츠 검색

Data Scientist

  • list comprehension

    2022.10.01 by 디터치

  • 2022 관광데이터 AI 경진대회 - Dacon #5

    2022.10.01 by 디터치

  • 2022 관광데이터 AI 경진대회 - Dacon #4

    2022.09.28 by 디터치

  • 2022 관광데이터 AI 경진대회 - Dacon #3

    2022.09.26 by 디터치

  • 2022 관광데이터 AI 경진대회 - Dacon #2

    2022.09.22 by 디터치

  • 2022 관광데이터 AI 경진대회 - Dacon #1

    2022.09.21 by 디터치

  • Types of Data

    2022.08.22 by 디터치

  • DataFrame #1

    2022.08.22 by 디터치

list comprehension

list_arr = [] for num in range(0, 100+1): list_arr.append(num) >>> [0,1,2,3, ..., 100] list_arr = [x for x in range(0, 100+1)] >>> [0,1,2,3, ..., 100] 위의 코드처럼 3줄의 긴 코드를 한줄에 보기쉽고 빠르게 쓰기 위해서 자주 쓰이는 용법이다. 시간의 차이는 없고 유용하니 내가 조금 더 파이써닉한 사용자가 되고싶다면 필수다.

Data Scientist/Terms 2022. 10. 1. 20:04

2022 관광데이터 AI 경진대회 - Dacon #5

대회 상세페이지 2022 관광데이터 AI 경진대회 - DACON 분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다. dacon.io 10/1 각 cat별로 특징적인 단어들 추출하여 dataframe 만들기 - 각 overview별로 해당되는 단어 또는 등장횟수를 구하여 dict형태로 저장 - 모아놓은 dict를 합쳐 dataframe 만들기 - class로 Tokenize, 함수화로 각 카테고리별 진행 - 종합 퍼센티지 or (실측값 vs 예측값)을 (0,1)로 기록 * 클래스, 함수화 하는 도중에 '은', '는', '-다', '또', '에서' 등 조사 및 전치사 등을 제거하고 일반 명사, 대명사만 추출하기 ** 그래프는 단어별 분포도, 분산그래프와 상관계수 컬러맵을 사용하여 시..

Data Scientist/Projects 2022. 10. 1. 19:11

2022 관광데이터 AI 경진대회 - Dacon #4

대회 상세페이지 2022 관광데이터 AI 경진대회 - DACON 분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다. dacon.io 9/26 카테고리 분류하기 - Mecab-kor를 사용하여 tokenizer하기 - 각 카테고리별로 등장 빈도수가 높은 단어정렬 - 중복되는 단어이지만 다른 카테고리일 경우 word2vec 사용해보기 - 각 카테고리별로 적용되는 단어들을 다 합친 Dict 만들어 함수적용하기 * 원핫인코딩이 안되게끔 하려면 어떻게 해야할지 찾아보다 pytorch를 사용해볼 예정이다.(이번주동안 유튜브강의시청) 이수안 컴퓨터연구소 ** 다행히 텍스트의 성격이 주관적인 생각이나 감정을 드러내는 것이 아닌 객관적인 사실과 정보를 바탕으로 이루어져있어 pre-trained ..

Data Scientist/Projects 2022. 9. 28. 14:05

2022 관광데이터 AI 경진대회 - Dacon #3

대회 상세페이지 2022 관광데이터 AI 경진대회 - DACON 분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다. dacon.io 9/26 텍스트 전처리 - html코드, 기호 삭제 (train data의 1/3) - 첫줄에 가산점 - 핵심단어 찾기 ∙ 같은 카테고리내에 자주 반복되는 단어, 어순 ∙ 첫 단어, 첫 조사앞의 대명사 ∙ 문장 마지막에 명사, 대명사 바로 뒤에 '-이다', '-다.'로 끝나는 경우 * 카테고리 분류가 목적이기에 불필요한 텍스트를 삭제하고 핵심단어를 찾는 전처리가 가장 중요하고 오래걸릴 것 같다. 소분류 카테고리가 아주 유사한 항목들이 있어 정확하게 분류를 해야한다. 대,중,소 별로 dataframe을 나누어 작업중인데 합치는 과정에서 정확도를 더 높..

Data Scientist/Projects 2022. 9. 26. 20:16

2022 관광데이터 AI 경진대회 - Dacon #2

대회 상세페이지 2022 관광데이터 AI 경진대회 - DACON 분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다. dacon.io 9/22 텍스트 - 소분류를 대/중분류에서 분류하기 - 내용에서 반복되는 단어들 추출하기 - 핵심단어 추출 * 소개내용이 일관되게 흘러가진 않지만 '-이다.'의 통일성과 특징적인 대명사들이 자주 등장하여 다행이라고 생각한다. 전달하고자 하는 목표 역시 명확하고 오타가 없는 듯 하여 잘 쓰기만 하면 될 것 같다. 다만, 같은 장소에서 이루어지는 체험의 경우에는 중복되는 대명사가 있어 단어가 문장내에 위치하는 곳에따라 가산점을 주는 방식과 두번째, 세번째 문장내에서 어느 단어가 반복되고 강조되는지를 잘 고려해봐야겠다. **tidy data형태로 변환한 ..

Data Scientist/Projects 2022. 9. 22. 19:48

2022 관광데이터 AI 경진대회 - Dacon #1

대회 상세페이지 2022 관광데이터 AI 경진대회 - DACON 분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다. dacon.io 9/21 데이터 확인 / 계획 수립 - 텍스트 데이터프레임 훑어보기 - train/valid/test 데이터 분리 (Data Lackage 예방) - 텍스트 추출 / 이미지 분류 계획 * 혼자 진행하는 것이 처음이기에 많이 막막하다. 코버트,이미지 분류 관련 프로젝트를 다시 읽어봐야겠다.

Data Scientist/Projects 2022. 9. 21. 20:19

Types of Data

데이터 분석의 기초는 내가 다루는 데이터의 타입이 무엇이고, 인사이트를 도출시키기 위해 어떻게 사용할지 계획을 세운다. 데이터타입은 integer, float, datetime 등 여러개로 분류할 수 있지만, Categorical / Continuos Data 크게 둘로 나눌 수 있다. Categorical 에는 또 Nominal / Ordinal 로, Continuous 는 Interval / Ratio 로 구분할 수 있다. Categorical data: 범주형 데이터 - Nominal: Values represent discrete units. Changing the order of units does not change their value. 명사로 지칭되는 데이터 순서와는 상관없으며, 개수를 파..

Data Scientist/Terms 2022. 8. 22. 18:42

DataFrame #1

DataFrame에서 사용되는 기본용법에대해 알아보자. index # 순서 0번부터 시작 columns # 세로열 dtypes # 해당 값의 타입 ex) float64, int64, object, datetime64[ns] ... info # df를 구성하는 행과 열의 크기, 컬럼명, 컬럼을 구성하는 값의 자료형 describe # info와 마찬가지로 df를 구성하는 행과 열의 크기, 컬럼명, 컬럼을 구성하는 값의 자료형 select_dtypes # object형 데이터값만 호출 : include = 'object' / # object형이 아닌 데이터값만 호출 : exclude = 'object' loc # 인덱스를 기준으로 데이터 불러오기 iloc # 행번호를 기준으로 데이터 불러오기(사용자 설정) ..

Data Scientist/Terms 2022. 8. 22. 17:54

추가 정보

인기글

최신글

페이징

이전
1 2
다음
TISTORY
D'Touch © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바