2022 관광데이터 AI 경진대회 - DACON
분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.
dacon.io
9/26
카테고리 분류하기
- Mecab-kor를 사용하여 tokenizer하기
- 각 카테고리별로 등장 빈도수가 높은 단어정렬
- 중복되는 단어이지만 다른 카테고리일 경우 word2vec 사용해보기
- 각 카테고리별로 적용되는 단어들을 다 합친 Dict 만들어 함수적용하기
* 원핫인코딩이 안되게끔 하려면 어떻게 해야할지 찾아보다 pytorch를 사용해볼 예정이다.(이번주동안 유튜브강의시청)
** 다행히 텍스트의 성격이 주관적인 생각이나 감정을 드러내는 것이 아닌 객관적인 사실과 정보를 바탕으로 이루어져있어 pre-trained model에 잘 맞는것같아 다행이다.
*** One-Hot-Encoding이 제일 적절해보이지만 쓰면 안될 것 같은 함정들이 몇개 있어 당황스럽다.
2022 관광데이터 AI 경진대회 - Dacon #5 (0) | 2022.10.01 |
---|---|
2022 관광데이터 AI 경진대회 - Dacon #3 (0) | 2022.09.26 |
2022 관광데이터 AI 경진대회 - Dacon #2 (0) | 2022.09.22 |
2022 관광데이터 AI 경진대회 - Dacon #1 (0) | 2022.09.21 |
댓글 영역