일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 딥러닝
- konlpy
- 판다스
- HTML
- langchain
- 자연어분석
- pandas
- 비지도학습
- 파이썬웹개발
- 파이토치
- 파이썬
- pytorch
- chatGPT
- 챗gpt
- 머신러닝
- fastapi #python웹개발
- sklearn
- 랭체인
- deeplearning
- fastapi #파이썬웹개발
- NLP
- Python
- python 정렬
- 사이킷런
- 판다스 데이터정렬
- MachineLearning
- 파이토치기본
- OpenAIAPI
- programmablesearchengine
- fastapi
- Today
- Total
목록Machine Learning, Deep Learning (15)
Data Navigator
기존의 호텔스 닷컴 사용자 리뷰 분석을 gensim 모듈의 Word2Vec을 사용하여 다시 분석해 보았다. Word2Vec는 단어를 벡터화 한 후 단어들 간에 상관도가 높은 것들을 모아서 추출할 수 있다. 1. 분석결과 1) 사용자 리뷰 전체를 벡터화해서 가장 빈도수가 높은 상위 10개 단어들을 넣고 연관 단어를 찾았으나 특이한 점은 발견 할 수 없었음. 2) 평점 8 이상을 good(만족), 7 이하를 bad(불만족)으로 구별하여 각각 다시 벡터화 3) good(만족) 그룹에서는 역시 특이한 점을 찾기 어려웠고 bad(불만족) 그룹에서 의미있는 자료가 나옴 4) bad(불만족) 그룹에서 눈에 띄었던 결과 검색어: 방음 ('옆방', 0.9461838006973267), ('층간', 0.9254038333..
IMDB 리뷰 감성 분류하기 PyTorch, Torchtext¶ In [1]: import os import torch import torch.nn as nn import torch.nn.functional as F from torchtext import data, datasets import random 1. 랜덤시드, 하이퍼 파라미터 지정¶ In [2]: # 랜덤 시드 고정 SEED = 5 random.seed(SEED) torch.manual_seed(SEED) Out[2]: In [3]: # 하이퍼 파라미터 정의 BATCH_SIZE = 64 lr = 0.001 EPOCHS = 10 2. GPU 연산을 위한 CUDA 환경 세팅¶ In [4]: USE_CUDA = torch.cuda.is_availa..
NLP 호텔스닷컴 사용자 후기와 평점 분석 sklearn의 Naive Bayes Classification을 이용 1. 분석 목적 호텔스 닷컴에서 수집한 호텔에 대한 평점과 사용자 리뷰 간의 관계를 파악하고 리뷰 글을 분석해서 평점이 긍정적으로 나올지, 아닐지를 판별하는 예측 모델을 만든다. 2. 분석 대상 데이터 호텔스 닷컴에서 수집한 전국 8884개 호텔, 사용자 리뷰 89,942개 3. 분석 결과 1) 사용자 리뷰 키워드 분석 내용 전체적으로 객실, 친절, 조식, 직원 등의 빈도가 높았고 객실 상태, 직원의 친절한 응대, 조식 음식의 맛과 질이 호텔 사용자 만족도에 크게 영향을 끼침을 알 수 있었음. A. '만족'한 그룹의 사용자 리뷰에서 가장 높은 빈도수를 나타낸 단어는 [친절], [편안], [위..
1. 영어 Word2Vec 만들기 gensim 패키지 사용¶ In [13]: import nltk nltk.download('punkt') [nltk_data] Downloading package punkt to /home/haram4th/nltk_data... [nltk_data] Package punkt is already up-to-date! Out[13]: True In [14]: import urllib.request import zipfile from lxml import etree import re from nltk.tokenize import word_tokenize, sent_tokenize 2. Data load (ted_en-20160408.xml, 출처: wit3.fb..
In [62]: import numpy as np import torch import torch.nn as nn import torch.nn.functional as F In [63]: from torch.utils.data import TensorDataset from torch.utils.data import DataLoader In [64]: X_train = torch.FloatTensor([[73, 80, 75], [93, 88, 93], [89, 91, 90], [96, 98, 100], [73, 66, 70]]) y_train = torch.FloatTensor([[152], [185], [180], [196], [142]]) In [65]: # TensorDataset은 기본적으로 텐서를 ..
¶ In [1]: import numpy as np import torch 뷰(View) - 원소의 수를 유지하면서 텐서의 크기 변경¶ 파이토치 텐서의 뷰(View)는 넘파이에서의 리쉐이프(Reshape)와 같은 역할¶ In [3]: t= np.array([[[0, 1, 2], [3, 4, 5]], [[6, 7, 8], [9, 10, 11]]]) In [4]: ft = torch.FloatTensor(t) In [5]: print(ft.shape) torch.Size([2, 2, 3]) 3차원 텐서에서 2차원 텐서로 변경¶ In [6]: ft.view([-1,3]) Out[6]: tensor([[ 0., 1., 2.], [ 3., 4., 5.], [ 6., 7., 8.], [ 9., 10., 11.]])..
Numpy로 Tensor 만들기¶ In [1]: import numpy as np 1차원 백터 In [2]: t = np.array([0.,1.,2.,3.,4.,5.,6.]) In [3]: t Out[3]: array([0., 1., 2., 3., 4., 5., 6.]) .ndim으로 몇 차원인지 확인¶ In [5]: t.ndim Out[5]: 1 .shape로 크기 및 형태 출력¶ In [6]: t.shape Out[6]: (7,) 2차원 행렬(matrix) 만들기¶ In [7]: t = np.array([[1., 2., 3.], [4., 5., 6.], [7., 8., 9.], [10., 11., 12.]]) t Out[7]: array([[ 1., 2., 3.], [ 4., 5., 6.], [ 7...
Kmeans Clustering 을 활용한 데이터 기반 고객 분류¶ 연령, 소득 수준, 성별에 따른 소비 패턴을 분석하고 분류¶ In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns In [5]: data = pd.read_csv('Mall_Customers.csv', index_col= 0) In [6]: data.head() Out[6]: Gender Age Annual Income (k$) Spending Score (1-100) CustomerID 1 Male 19 15 39 2 Male 21 15 81 3 Female 20 16 6 4 Female 23 16 77 5 F..
한국 환경 공단 실내 공기질 분석¶ In [26]: import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt In [27]: import xlrd In [ ]: 엑셀 데이터로드¶ In [28]: df = pd.read_excel("last_amb_hour_time.xls") In [29]: df.head() Out[29]: Unnamed: 0 Unnamed: 1 Unnamed: 2 Unnamed: 3 Unnamed: 4 Unnamed: 5 Unnamed: 6 Unnamed: 7 Unnamed: 8 Unnamed: 9 Unnamed: 10 Unnamed: 11 Unnamed: 12 Unnamed: ..
KNN 알고리즘을 이용하여 고객이탈 예측하기¶ In [135]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns KNN (K 와 가까운 거리의 그룹으로 계산, K를 어떻게 설정하느냐에 따라서 결과가 달라짐) 통신사 고객 데이터 로딩¶ In [136]: data = pd.read_csv('churn.csv') pd.set_option('display.max_columns', 100) 을 사용하여 100개의 컬럼까지 탐색¶ In [244]: pd.set_option('display.max_columns',100) In [245]: data.head(100) Out[245]: SeniorCit..