2022 관광데이터 AI 경진대회 - DACON
분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.
dacon.io
9/26
텍스트 전처리
- html코드, 기호 삭제 (train data의 1/3)
- 첫줄에 가산점
- 핵심단어 찾기
∙ 같은 카테고리내에 자주 반복되는 단어, 어순
∙ 첫 단어, 첫 조사앞의 대명사
∙ 문장 마지막에 명사, 대명사 바로 뒤에 '-이다', '-다.'로 끝나는 경우
* 카테고리 분류가 목적이기에 불필요한 텍스트를 삭제하고 핵심단어를 찾는 전처리가 가장 중요하고 오래걸릴 것 같다.
소분류 카테고리가 아주 유사한 항목들이 있어 정확하게 분류를 해야한다.
대,중,소 별로 dataframe을 나누어 작업중인데 합치는 과정에서 정확도를 더 높일 수 있도록 다시 잘 생각해봐야겠다.
** 하나의 카테고리안에 두개 이상의 비슷한 카테고리를 합친 경우도 있어 분리 시킨 후에 합쳐야겠다. (ex: '티셔츠/반팔티', '와사비/고추냉이')
** 어디서 어떻게 데이터를 가져온건지 html코드가 그대로 적혀있어 행복했다...
소분류가 너무 투머치한게 아닌가 싶다...(내가 사용자라면 고르다 화날것 같은데..)
이미지 데이터는 외부데이터는 사용불가이기에 데이터 증강을 많이 이용해야겠다.(과적합은..)
2022 관광데이터 AI 경진대회 - Dacon #5 (0) | 2022.10.01 |
---|---|
2022 관광데이터 AI 경진대회 - Dacon #4 (0) | 2022.09.28 |
2022 관광데이터 AI 경진대회 - Dacon #2 (0) | 2022.09.22 |
2022 관광데이터 AI 경진대회 - Dacon #1 (0) | 2022.09.21 |
댓글 영역