일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 랭체인
- 판다스
- chatGPT
- pandas
- langchain
- 비지도학습
- 파이토치기본
- fastapi #python웹개발
- 판다스 데이터정렬
- sklearn
- 머신러닝
- 파이썬
- konlpy
- NLP
- programmablesearchengine
- deeplearning
- fastapi
- 딥러닝
- 자연어분석
- python 정렬
- pytorch
- HTML
- 파이토치
- fastapi #파이썬웹개발
- OpenAIAPI
- Python
- 파이썬웹개발
- MachineLearning
- 사이킷런
- 챗gpt
- Today
- Total
목록Python (31)
Data Navigator
pandas DataFrame 정렬 sort_values()¶ Series와 마찬가지로 DaraFrame도 sort_values()로 정렬 가능¶ by: 정렬 기준 컬럼 ascending: 오름차순으로 정렬 key: 정렬 기준 함수(주로 lambda 함수 사용) na_position: 결측이 있는 경우 어디에 배치할 것인지 결정 {first, last} In [2]: import pandas as pd import numpy as np In [3]: df = pd.DataFrame({"A":[1,2,3,1,2,3],'B':[3,2,1,3,2,1],'C':[1,2,3,4,3,2]}) df Out[3]: A B C 0 1 3 1 1 2 2 2 2 3 1 3 3 1 3 4 4 2 2 3 5 3 1 2 In [..
pandas Series 정렬 sort_values(), value_counts, unique¶ sort_values() 사용¶ ascending: 오름차순으로 정렬 key: 정렬 기준 함수(주로 lambda 함수 사용) na_position: 결측이 있는 경우 어디에 배치할 것인지 결정 {first, last} In [1]: import pandas as pd import numpy as np In [2]: S = pd.Series(np.random.randint(1,10,100)) #1과 10 사이의 숫자를 100개 생성 S.iloc[0:3] = np.nan # 0부터 3까지 결측치로 변환 S.head(10) Out[2]: 0 NaN 1 NaN 2 NaN 3 2.0 4 7.0 5 6.0 6 9.0 7..
List 와 Tuple의 정렬 sort, sorted¶ sort: 리스트와 튜플 자체를 정렬 (return값이 없음)¶ reverse: 내림차순으로 정렬할지에 대한 여부를 결정하는 매개변수 pandas에서 inplace=True로 설정한 것과 같음 sorted: 정렬된 리스트와 튜플을 반환¶ reverse: 내림차순으로 정렬할지에 대한 여부를 결정하는 매개변수 key: 정렬 기준 함수(주로 lambda 함수 사용) sort 함수- 리스트.sort() 형식으로 사용, sort(리스트) 형식은 오류¶ In [4]: L = [1,4,3,5,2,5] L.sort() # 출력이 없고 L자체가 수정됨 In [5]: L Out[5]: [1, 2, 3, 4, 5, 5] In [3]: L = [1,4,3,5,2,5] L..
groupby를 활용한 조건부 통계¶ groupby는 조건부 통계량을 계산하기 위한 방법¶분할, 적용, 결합의 3단계로 구성됨¶ 사용 방법: df.groupby(분할 기준 컬럼)[적용 기준 칼럼].집계함수 주요입력: by:분할 기준 컬럼(목록) as_index: 분할 기준 컬럼들을 인덱스로 사용할 것인지 여부 (default: True) 여러 개의 집계 함수나 사용자 정의 함수를 쓰고 싶다면 agg 함수를 사용해야 함 pivot_table과 groupby의 차이점¶ 결과값은 pivot_table과 groupby는 동일함 그러나 출력 값의 형태에 차이가 있으므로 상황에 맞게 구별해 사용 pivot_table은 출력 결과 자체가 결과물인 경우, groupby는 중간 산출물로써 사용 pivot_table은 h..
pivot table 조건에 따른 변수들의 통계량 파악¶ pandas.pivot_table 행단위 데이터 프레임을 피벗 테이블로 변환 data: 데이터 프레임 index: 행에 들어갈 조건 columns: 열에 들어갈 조건 values: 집계 대상 컬럼 목록 aggfunc: 집계 함수 In [1]: import os import pandas as pd os.chdir(r"D:\bigdata\jupyter\data_preprocessing\1. 데이터 핸들링\데이터") In [4]: df = pd.read_csv("온라인_판매기록.csv", encoding="ANSI", engine='python') In [5]: df.head() Out[5]: 쇼핑몰 제품 수량 판매금액 쇼핑몰 유형 0 쿠..
concat, os.listdir, openpyxl을 이용한 데이터 통합¶ 1. merge와 concat의 차이¶ merge는 2개의 데이터 프레임, concat은 2개 이상의 데이터 프레임을 이어 붙이는데 사용 빈데이터 프레임을 만들고 여러 개의 데이터 프레임을 리스트로 입력 받아 붙이는 것이 가능 2.os.listdir: path상에 있는 모든 파일명을 리스트 형태로 변환¶ 3.openpyxl를 이용한 엑셀시트 목록 가져오기¶ python 3.8.5에서는 xlrd로 xlsx 파일을 불러오는 것이 불가능 xlrd의 대용으로 openpyxl사용 wb = openpyxl.load_workbook(file) # 엑셀 파일을 불러와 wb에 저장 wb.sheetnames #wb에 있는 시트 목록을 리스트 형태로..
Pandas - merge를 이용한 데이터 프레임 통합¶ merge는 sql의 join과 같은 방식으로 통합된다. In [5]: import os import pandas as pd os.chdir(r"D:/bigdata/jupyter/data_preprocessing/1. 데이터 핸들링\데이터/") merge 기초 In [6]: df1 = pd.read_csv("merge_실습_employee_group.csv", engine="python") df2 = pd.read_csv("merge_실습_employee_hire_date.csv", engine="python") In [7]: df1 Out[7]: employee group 0 Bob Accounting 1 Jake Engineering 2 Lis..
python 버전을 보기 위해서 아나콘다 콘솔에서 python -V 입력 python 3.8.5 확인 아래의 사이트에서 python 3.8.5 버전에 맞는 jpype를 받는다. https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype 아나콘다 콘솔에서 방금 파일을 다운받은 위치로 이동해서 pip로 JPype1을 인스톨 해준다. 나의 경우 파일을 d:/bigdata/jupyter/ 에 저장했다. pip install JPype1‑1.2.0‑cp38‑cp38‑win_amd64.whl 2. konlpy 설치 pip install konlpy 3. 학습을 위한 패키시 설치 pip install nltk 4. WordCloud 를 위한 패키지 설치 pip install wordcl..
for korean in df['description']: if isHangul(korean[0]) == True: isKor = df.loc[df['description'] == korean] KoreanReviews = pd.concat([KoreanReviews,isKor]) else: notKor = df.loc[df['description'] == korean] ForeignReviews = pd.concat([ForeignReviews,notKor]) print('일치: ',len(KoreanReviews['description'].value_counts()), '불일치: ', len(ForeignReviews['description'].value_counts())) 247,519개의 자료를 ..
list와 tuple은 자료가 연속적으로 들어가 있다. . a = [1,2,3,4,5,6,7,8,9,10] b = (1,2,3,4,5,6,7,8,9,10) print(a) print(b) [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] # 리스트 a의 출력 결과 (1, 2, 3, 4, 5, 6, 7, 8, 9, 10) # 튜플 b의 출력 결과 그래서 일반 변수와는 다르게 list나 tuple안에 있는 값을 가져오려면 list/tuple 내의 위치(index)를 지정해서 가져와야 한다. 인덱스는 거의 모든 프로그래밍 언어에서 0번부터 시작한다. (R은 1번부터 시작) index 0 1 2 3 4 5 6 7 8 9 a 1 2 3 4 5 6 7 8 9 10 b 1 2 3 4 5 6 7 8 9 10 위..