일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- chatGPT
- sklearn
- python 정렬
- HTML
- 판다스 데이터정렬
- 랭체인
- NLP
- fastapi #파이썬웹개발
- 판다스
- pytorch
- konlpy
- 비지도학습
- Python
- fastapi
- 챗gpt
- fastapi #python웹개발
- 파이토치
- OpenAIAPI
- programmablesearchengine
- 파이썬웹개발
- 머신러닝
- 딥러닝
- MachineLearning
- langchain
- 파이토치기본
- 자연어분석
- 파이썬
- 사이킷런
- pandas
- deeplearning
- Today
- Total
목록gensim (2)
Data Navigator
기존의 호텔스 닷컴 사용자 리뷰 분석을 gensim 모듈의 Word2Vec을 사용하여 다시 분석해 보았다. Word2Vec는 단어를 벡터화 한 후 단어들 간에 상관도가 높은 것들을 모아서 추출할 수 있다. 1. 분석결과 1) 사용자 리뷰 전체를 벡터화해서 가장 빈도수가 높은 상위 10개 단어들을 넣고 연관 단어를 찾았으나 특이한 점은 발견 할 수 없었음. 2) 평점 8 이상을 good(만족), 7 이하를 bad(불만족)으로 구별하여 각각 다시 벡터화 3) good(만족) 그룹에서는 역시 특이한 점을 찾기 어려웠고 bad(불만족) 그룹에서 의미있는 자료가 나옴 4) bad(불만족) 그룹에서 눈에 띄었던 결과 검색어: 방음 ('옆방', 0.9461838006973267), ('층간', 0.9254038333..
1. 영어 Word2Vec 만들기 gensim 패키지 사용¶ In [13]: import nltk nltk.download('punkt') [nltk_data] Downloading package punkt to /home/haram4th/nltk_data... [nltk_data] Package punkt is already up-to-date! Out[13]: True In [14]: import urllib.request import zipfile from lxml import etree import re from nltk.tokenize import word_tokenize, sent_tokenize 2. Data load (ted_en-20160408.xml, 출처: wit3.fb..