Data Navigator

[NLP, gensim] 호텔스닷컴 사용자 리뷰 Word2Vec 분석 본문

Machine Learning, Deep Learning

[NLP, gensim] 호텔스닷컴 사용자 리뷰 Word2Vec 분석

코딩하고분석하는돌스 2021. 2. 25. 00:38

기존의 호텔스 닷컴 사용자 리뷰 분석을 gensim 모듈의 Word2Vec을 사용하여 다시 분석해 보았다.

Word2Vec는 단어를 벡터화 한 후 단어들 간에 상관도가 높은 것들을 모아서 추출할 수 있다.

 

1. 분석결과

     1) 사용자 리뷰 전체를 벡터화해서 가장 빈도수가 높은 상위 10개 단어들을 넣고 연관 단어를 찾았으나 특이한 점은

         발견 할 수 없었음.

     2) 평점 8 이상을 good(만족), 7 이하를 bad(불만족)으로 구별하여 각각 다시 벡터화

     3) good(만족) 그룹에서는 역시 특이한 점을 찾기 어려웠고 bad(불만족) 그룹에서 의미있는 자료가 나옴

     4) bad(불만족) 그룹에서 눈에 띄었던 결과

검색어: 방음

('옆방', 0.9461838006973267), ('층간', 0.9254038333892822), ('소음', 0.9100062251091003),
('소리', 0.8953380584716797), ('대화', 0.8535889983177185), ('문소리', 0.8529661893844604),
('물소리', 0.8514931201934814), ('코고', 0.8487786650657654), ('윗방', 0.8481355309486389),
('웅', 0.829635739326477)]

 

검색어: 불친절

[('응대', 0.985035240650177), ('태도', 0.9659591913223267), ('대응', 0.9488734006881714),
('교육', 0.9382745027542114), ('말투', 0.9286551475524902), ('인사', 0.925360381603241),
('데스크', 0.9241042137145996), ('고객', 0.923350989818573), ('표정', 0.9121052622795105), ('성실', 0.8999203443527222)]

 

검색어: 냄새

[('담배', 0.888995349407196), ('방향제', 0.8857129812240601), ('냄', 0.8804351091384888),
('남', 0.8731814026832581), ('환기', 0.8726521730422974), ('하수구', 0.8604413270950317),
('진동', 0.8579041957855225), ('연기', 0.8502274751663208), ('락스', 0.8435613512992859),
('화학', 0.8432978987693787)]

 

검색어: 불편

[('공간', 0.8030064105987549), ('공용', 0.7456557750701904), ('계단', 0.7389194369316101),
('캐리어', 0.7243545055389404), ('콘센트', 0.7238076329231262), ('진입로', 0.719048798084259),
('수납', 0.7172905206680298), ('위험', 0.7135182619094849), ('이중주', 0.7053956389427185), ('힘', 0.6995351910591125)]

 

      5) 위의 결과에서 볼 수 있듯이 고객들이 불만을 느꼈던 부분에 대한 내용이 연관 단어로 보여졌다. 개인적으로 흥미로웠던

          부분은 [냄새]와 [불편] 이었다.

      6) [냄새] 는 담배 냄새와 같은 것만 떠올리고 있었는데, 결과를 보니 방향제, 하수구, 락스, 다른 화학적 약품 냄새에도 민감함을

          알 수 있었다. 객실 청소를 깨끗하게 한다고 락스를 사용해서 청소는 깨끗하게 했지만 그 냄새가 남아 있다면 고객의 불만을

          초래할 수 있는 것 같다. 그리고 향을 좋게 하기 위한 방향제의 경우에도 호불호가 갈릴 수 있어서 사용에 주의가 필요하다.

      7) [불편] 고객이 불편함을 느끼는 부분 중 시설에 관한 내용을 엿볼 수 있었다. 우선 [객실 공간]이나 [공용 공간]의 구조, [계단],

          [캐리어]가 상위에 나오는 것으로 보아 엘리베이터가 없거나 고장나서 캐리어를 들고 계단을 올라가야 하는 상황을 상상해 볼

          수 있다. [공간], [캐리어], [진입로], [수납]을 연결해서 보면 진입로가 캐리어를 들고 들어오기에 힘든 구조일 경우, 객실에

          캐리어를 놓은 공간이 부족하거나, 공용공간에 캐리어를 보관할 곳이 없는 등의 문제를 유추해 볼 수 있다.

          [콘센트], [위험] 을 연관지어 생각해 보면 객실내에 콘센트 갯수나 위치, 혹은 상태가 좋지 않아 위험한 경우가 있어 고객의

          불만을 초래했을 것으로 상정해 볼 수 있다.

 

2. 분석 방법 및 환경

    1) 분석 방법 

         A. Python의 pandas로 데이터 정제(특수 문자 제거)

         B. KoNLPy의 Mecab 토크나이저를 이용해 명사만 추출

         C. 추출된 호텔스닷컴 사용자 리뷰 키워드를 gensim 모듈의 Word2Vec 로 변환해서 연관 단어 추출

         D. 빈도수가 높은 단어순으로 연관 단어 탐색

 

    2) 분석 환경

         A. 자료수집: Windows 10, python, pandas

         B. 자료 전처리 및 분석: Linux Ubuntu 20.02, Python, Pandas, KoNLPy, Mecab, gensim, Word2Vec