일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- 머신러닝
- 파이토치
- konlpy
- sklearn
- chatGPT
- HTML
- fastapi #python웹개발
- fastapi #파이썬웹개발
- 딥러닝
- python 정렬
- 챗gpt
- OpenAIAPI
- 파이썬
- programmablesearchengine
- pytorch
- MachineLearning
- Python
- 데이터분석
- NLP
- 사이킷런
- 자연어분석
- pandas
- deeplearning
- 비지도학습
- 파이썬웹개발
- 판다스 데이터정렬
- langchain
- fastapi
- 랭체인
- 판다스
- Today
- Total
목록Python (20)
Data Navigator

wsl2 Ubuntu Anaconda 가상환경에 Tensorflow, cudatoolkit, cudnn 설치하고 gpu 사용하기 이 글은 윈도우 10/11 에 설치된 wsl2에 ubuntu-20.04 / ubuntu-22.04 를 설치하고 Anaconda를 설치한 환경에서 현재 글 작성일 기준 (2023-11-03) 최신 버전 tensorflow 2.14 과 nvidia gpu를 사용하도록 셋팅하는 방법을 설명합니다. 1. wls2 에 설치한 ubuntu 에 tensorflow를 설치하는 이유 tensorflow는 공식적으로 2.10 버전을 마지막으로 windows 환경에서 gpu 가속 지원을 중단했다. 최신 tensorflow 버전은 2.14다. deep learning 특성상 훈련시간이 오래걸리고 c..

List 와 Tuple의 정렬 sort, sorted¶ sort: 리스트와 튜플 자체를 정렬 (return값이 없음)¶ reverse: 내림차순으로 정렬할지에 대한 여부를 결정하는 매개변수 pandas에서 inplace=True로 설정한 것과 같음 sorted: 정렬된 리스트와 튜플을 반환¶ reverse: 내림차순으로 정렬할지에 대한 여부를 결정하는 매개변수 key: 정렬 기준 함수(주로 lambda 함수 사용) sort 함수- 리스트.sort() 형식으로 사용, sort(리스트) 형식은 오류¶ In [4]: L = [1,4,3,5,2,5] L.sort() # 출력이 없고 L자체가 수정됨 In [5]: L Out[5]: [1, 2, 3, 4, 5, 5] In [3]: L = [1,4,3,5,2,5] L..

groupby를 활용한 조건부 통계¶ groupby는 조건부 통계량을 계산하기 위한 방법¶분할, 적용, 결합의 3단계로 구성됨¶ 사용 방법: df.groupby(분할 기준 컬럼)[적용 기준 칼럼].집계함수 주요입력: by:분할 기준 컬럼(목록) as_index: 분할 기준 컬럼들을 인덱스로 사용할 것인지 여부 (default: True) 여러 개의 집계 함수나 사용자 정의 함수를 쓰고 싶다면 agg 함수를 사용해야 함 pivot_table과 groupby의 차이점¶ 결과값은 pivot_table과 groupby는 동일함 그러나 출력 값의 형태에 차이가 있으므로 상황에 맞게 구별해 사용 pivot_table은 출력 결과 자체가 결과물인 경우, groupby는 중간 산출물로써 사용 pivot_table은 h..

pivot table 조건에 따른 변수들의 통계량 파악¶ pandas.pivot_table 행단위 데이터 프레임을 피벗 테이블로 변환 data: 데이터 프레임 index: 행에 들어갈 조건 columns: 열에 들어갈 조건 values: 집계 대상 컬럼 목록 aggfunc: 집계 함수 In [1]: import os import pandas as pd os.chdir(r"D:\bigdata\jupyter\data_preprocessing\1. 데이터 핸들링\데이터") In [4]: df = pd.read_csv("온라인_판매기록.csv", encoding="ANSI", engine='python') In [5]: df.head() Out[5]: 쇼핑몰 제품 수량 판매금액 쇼핑몰 유형 0 쿠..

concat, os.listdir, openpyxl을 이용한 데이터 통합¶ 1. merge와 concat의 차이¶ merge는 2개의 데이터 프레임, concat은 2개 이상의 데이터 프레임을 이어 붙이는데 사용 빈데이터 프레임을 만들고 여러 개의 데이터 프레임을 리스트로 입력 받아 붙이는 것이 가능 2.os.listdir: path상에 있는 모든 파일명을 리스트 형태로 변환¶ 3.openpyxl를 이용한 엑셀시트 목록 가져오기¶ python 3.8.5에서는 xlrd로 xlsx 파일을 불러오는 것이 불가능 xlrd의 대용으로 openpyxl사용 wb = openpyxl.load_workbook(file) # 엑셀 파일을 불러와 wb에 저장 wb.sheetnames #wb에 있는 시트 목록을 리스트 형태로..

Pandas - merge를 이용한 데이터 프레임 통합¶ merge는 sql의 join과 같은 방식으로 통합된다. In [5]: import os import pandas as pd os.chdir(r"D:/bigdata/jupyter/data_preprocessing/1. 데이터 핸들링\데이터/") merge 기초 In [6]: df1 = pd.read_csv("merge_실습_employee_group.csv", engine="python") df2 = pd.read_csv("merge_실습_employee_hire_date.csv", engine="python") In [7]: df1 Out[7]: employee group 0 Bob Accounting 1 Jake Engineering 2 Lis..

기존의 호텔스 닷컴 사용자 리뷰 분석을 gensim 모듈의 Word2Vec을 사용하여 다시 분석해 보았다. Word2Vec는 단어를 벡터화 한 후 단어들 간에 상관도가 높은 것들을 모아서 추출할 수 있다. 1. 분석결과 1) 사용자 리뷰 전체를 벡터화해서 가장 빈도수가 높은 상위 10개 단어들을 넣고 연관 단어를 찾았으나 특이한 점은 발견 할 수 없었음. 2) 평점 8 이상을 good(만족), 7 이하를 bad(불만족)으로 구별하여 각각 다시 벡터화 3) good(만족) 그룹에서는 역시 특이한 점을 찾기 어려웠고 bad(불만족) 그룹에서 의미있는 자료가 나옴 4) bad(불만족) 그룹에서 눈에 띄었던 결과 검색어: 방음 ('옆방', 0.9461838006973267), ('층간', 0.9254038333..

Logistic Regression을 활용한 소비자 광고 반응률 예측¶ In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns In [3]: df = pd.read_csv('./03. 광고 반응률 예측 (Logistic Regression)/advertising.csv') df.head(10) Out[3]: Daily Time Spent on Site Age Area Income Daily Internet Usage Ad Topic Line City Male Country Timestamp Clicked on Ad 0 68.95 NaN 61833.90 256.09 Cloned 5t..

SVM 서포트 백터 머신을 이용해서 외국어 문장 판별하기¶ In [25]: from sklearn import svm, metrics import glob, os.path, re, json In [15]: def check_freq(fname): name = os.path.basename(fname) lang = re.match(r'^[a-z]{2,}',name).group() with open(fname, 'r', encoding='utf-8') as f: text = f.read() text = text.lower() cnt=[0 for n in range(0,26)] code_a = ord('a') #97~ code_z = ord('z') for ch in text: n = ord(ch) #숫자값 ..

파이썬을 이용하면서 가장 빈번하게 사용하게 되는 자료형은 list 같다. 이번 글에서는 리스트와 튜플을 만드는 법(list/tuple packing) 그리고 list와 tuple의 값을 이용해서 여러 변수에 한 번에 담는 법(list/tuple unpacking)을 소개한다. 1. list packing 리스트 만들기 1) 변수에 [ ]를 이용해서 직접 만들기 a = [1, 2.0, -3, '사', True] list는 자료형이 달라도 다 들어간다. 2) range를 이용한 list 만들기 b = list(range(-4, 10, 2)) b [-4, -2, 0, 2, 4, 6, 8] 3) input() 함수로 값을 입력받아 split() 함수로 list 만들기 d = input().split() prin..