일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 사이킷런
- NLP
- fastapi
- HTML
- 머신러닝
- 판다스
- 판다스 데이터정렬
- 파이썬웹개발
- pandas
- sklearn
- MachineLearning
- programmablesearchengine
- deeplearning
- 챗gpt
- fastapi #파이썬웹개발
- pytorch
- 파이토치
- 비지도학습
- 파이토치기본
- 랭체인
- Python
- chatGPT
- OpenAIAPI
- 자연어분석
- python 정렬
- 딥러닝
- konlpy
- 파이썬
- langchain
- fastapi #python웹개발
- Today
- Total
목록NLP (5)
Data Navigator
기존의 호텔스 닷컴 사용자 리뷰 분석을 gensim 모듈의 Word2Vec을 사용하여 다시 분석해 보았다. Word2Vec는 단어를 벡터화 한 후 단어들 간에 상관도가 높은 것들을 모아서 추출할 수 있다. 1. 분석결과 1) 사용자 리뷰 전체를 벡터화해서 가장 빈도수가 높은 상위 10개 단어들을 넣고 연관 단어를 찾았으나 특이한 점은 발견 할 수 없었음. 2) 평점 8 이상을 good(만족), 7 이하를 bad(불만족)으로 구별하여 각각 다시 벡터화 3) good(만족) 그룹에서는 역시 특이한 점을 찾기 어려웠고 bad(불만족) 그룹에서 의미있는 자료가 나옴 4) bad(불만족) 그룹에서 눈에 띄었던 결과 검색어: 방음 ('옆방', 0.9461838006973267), ('층간', 0.9254038333..
IMDB 리뷰 감성 분류하기 PyTorch, Torchtext¶ In [1]: import os import torch import torch.nn as nn import torch.nn.functional as F from torchtext import data, datasets import random 1. 랜덤시드, 하이퍼 파라미터 지정¶ In [2]: # 랜덤 시드 고정 SEED = 5 random.seed(SEED) torch.manual_seed(SEED) Out[2]: In [3]: # 하이퍼 파라미터 정의 BATCH_SIZE = 64 lr = 0.001 EPOCHS = 10 2. GPU 연산을 위한 CUDA 환경 세팅¶ In [4]: USE_CUDA = torch.cuda.is_availa..
NLP 호텔스닷컴 사용자 후기와 평점 분석 sklearn의 Naive Bayes Classification을 이용 1. 분석 목적 호텔스 닷컴에서 수집한 호텔에 대한 평점과 사용자 리뷰 간의 관계를 파악하고 리뷰 글을 분석해서 평점이 긍정적으로 나올지, 아닐지를 판별하는 예측 모델을 만든다. 2. 분석 대상 데이터 호텔스 닷컴에서 수집한 전국 8884개 호텔, 사용자 리뷰 89,942개 3. 분석 결과 1) 사용자 리뷰 키워드 분석 내용 전체적으로 객실, 친절, 조식, 직원 등의 빈도가 높았고 객실 상태, 직원의 친절한 응대, 조식 음식의 맛과 질이 호텔 사용자 만족도에 크게 영향을 끼침을 알 수 있었음. A. '만족'한 그룹의 사용자 리뷰에서 가장 높은 빈도수를 나타낸 단어는 [친절], [편안], [위..
1. 영어 Word2Vec 만들기 gensim 패키지 사용¶ In [13]: import nltk nltk.download('punkt') [nltk_data] Downloading package punkt to /home/haram4th/nltk_data... [nltk_data] Package punkt is already up-to-date! Out[13]: True In [14]: import urllib.request import zipfile from lxml import etree import re from nltk.tokenize import word_tokenize, sent_tokenize 2. Data load (ted_en-20160408.xml, 출처: wit3.fb..
NLP 상품 리뷰 분석¶ In [2]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns In [3]: data = pd.read_csv('./09. 상품 리뷰 분석(NLP)/yelp.csv', index_col =0) In [4]: data.head() Out[4]: review_id user_id business_id stars date text useful funny cool 2967245 aMleVK0lQcOSNCs56_gSbg miHaLnLanDKfZqZHet0uWw Xp_cWXY5rxDLkX-wqUg-iQ 5 2015-09-30 LOVE the cheeses here. They ..