데이터 형태
name | restaurant | content | type | address | date |
---|---|---|---|---|---|
유저명 | 음식점 이름 | 리뷰 | 음식점 타입 | 주소 | 날짜 |
음식점에 대한 추천을 진행하기 위해 음식점 관련 type만 남긴다
크롤링한 데이터 중 네이버에서 제공하는 type 수는 113 종류이다.
회의를 통해 14 종류의 type2으로 구분하여 주었다.
중복되는 리뷰는 제거하였다.
서울 내의 음식점에 대한 추천을 하기 위해, 서울에 있는 음식점에 대한 리뷰만 남겨주었다.
리뷰어에 대한 시퀀스를 정확하게 포착하기 위해, 서울에 있는 음식점에 대한 리뷰만 남겨주었다.
리뷰어 별로 작성한 리뷰의 수가 다양하므로, 최근 날짜를 기준으로 하여 한 사용자당 리뷰를 최대 30개까지만 보유할 수 있도록 전처리 해준다.
향후 모델의 input 값으로 넣어주기 위해 사용자, type별로 각각 고유한 숫자를 할당해주었다.
Ex) bert4rec inference 포함