상세 컨텐츠

본문 제목

2022 관광데이터 AI 경진대회 - Dacon #4

Data Scientist/Projects

by 디터치 2022. 9. 28. 14:05

본문

대회 상세페이지

 

2022 관광데이터 AI 경진대회 - DACON

분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.

dacon.io

 

9/26

 

카테고리 분류하기

- Mecab-kor를 사용하여 tokenizer하기

- 각 카테고리별로 등장 빈도수가 높은 단어정렬

- 중복되는 단어이지만 다른 카테고리일 경우 word2vec 사용해보기

- 각 카테고리별로 적용되는 단어들을 다 합친 Dict 만들어 함수적용하기

 

* 원핫인코딩이 안되게끔 하려면 어떻게 해야할지 찾아보다 pytorch를 사용해볼 예정이다.(이번주동안 유튜브강의시청)

이수안 컴퓨터연구소

 

** 다행히 텍스트의 성격이 주관적인 생각이나 감정을 드러내는 것이 아닌 객관적인 사실과 정보를 바탕으로 이루어져있어 pre-trained model에 잘 맞는것같아 다행이다.

 

*** One-Hot-Encoding이 제일 적절해보이지만 쓰면 안될 것 같은 함정들이 몇개 있어 당황스럽다.

 

 

관련글 더보기

댓글 영역