2022 관광데이터 AI 경진대회

2022 관광데이터 AI 경진대회 - Dacon #3

Data Scientist/Projects

by 디터치 2022. 9. 26. 20:16

2022 관광데이터 AI 경진대회 - DACON

분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.

dacon.io

9/26

텍스트 전처리

- html코드, 기호 삭제 (train data의 1/3)

- 첫줄에 가산점

- 핵심단어 찾기

∙ 같은 카테고리내에 자주 반복되는 단어, 어순

∙ 첫 단어, 첫 조사앞의 대명사

∙ 문장 마지막에 명사, 대명사 바로 뒤에 '-이다', '-다.'로 끝나는 경우

* 카테고리 분류가 목적이기에 불필요한 텍스트를 삭제하고 핵심단어를 찾는 전처리가 가장 중요하고 오래걸릴 것 같다.

소분류 카테고리가 아주 유사한 항목들이 있어 정확하게 분류를 해야한다.

대,중,소 별로 dataframe을 나누어 작업중인데 합치는 과정에서 정확도를 더 높일 수 있도록 다시 잘 생각해봐야겠다.

** 하나의 카테고리안에 두개 이상의 비슷한 카테고리를 합친 경우도 있어 분리 시킨 후에 합쳐야겠다. (ex: '티셔츠/반팔티', '와사비/고추냉이')

** 어디서 어떻게 데이터를 가져온건지 html코드가 그대로 적혀있어 행복했다...

소분류가 너무 투머치한게 아닌가 싶다...(내가 사용자라면 고르다 화날것 같은데..)

이미지 데이터는 외부데이터는 사용불가이기에 데이터 증강을 많이 이용해야겠다.(과적합은..)

D'Touch