일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- python 정렬
- Python
- 판다스 데이터정렬
- 판다스
- pandas
- 파이썬
- 랭체인
- 머신러닝
- MachineLearning
- 챗gpt
- sklearn
- konlpy
- fastapi #파이썬웹개발
- 파이토치기본
- programmablesearchengine
- HTML
- deeplearning
- 비지도학습
- NLP
- OpenAIAPI
- 파이토치
- langchain
- 자연어분석
- fastapi #python웹개발
- pytorch
- 파이썬웹개발
- chatGPT
- 딥러닝
- 사이킷런
- fastapi
- Today
- Total
목록pandas (8)
Data Navigator
pandas 마스킹 검색 df.loc[비교할 행 == True/False 조건 값]¶ pandas의 DataFrame과 Series는 모두 ndarray 이므로 비교연산 및 브로드캐스팅이 적용될 수 있음 df.loc[ 조건 비교할 컬럼과 조건 ] 으로 True, False를 체크하여 인덱싱 가능 In [1]: import os import pandas as pd os.chdir(r"D:\bigdata\jupyter\data_preprocessing\1. 데이터 핸들링\데이터") In [3]: df = pd.read_csv('온라인_판매기록.csv', encoding='ANSI', engine='python') df Out[3]: 쇼핑몰 제품 수량 판매금액 쇼핑몰 유형 0 쿠팡 제품_16 8 1134400..
DaraFrame의 중복 제거_drop_duplicates¶ drop_duplicates 함수로 중복이 있는 행 제거¶저장이 되지 않으므로 결과를 저장하고 싶으면 변수에 넣어줘야 함¶ subset: 중복 기준을 판단하는 컬럼(목록) keep: 중복이 있는 행의 어느 부분을 남길 것인지 결정 {'first','last','false'} 'first': 첫 번째 행을 남김 'last': 마지막 행을 남김 'false': 중복 행 모두 제거 In [1]: import pandas as pd In [2]: df = pd.DataFrame({"A":[1,2,3,1,2,3],'B':[3,2,1,3,2,1],'C':[1,2,3,4,3,2]}) df Out[2]: A B C 0 1 3 1 ..
pandas DataFrame 정렬 sort_values()¶ Series와 마찬가지로 DaraFrame도 sort_values()로 정렬 가능¶ by: 정렬 기준 컬럼 ascending: 오름차순으로 정렬 key: 정렬 기준 함수(주로 lambda 함수 사용) na_position: 결측이 있는 경우 어디에 배치할 것인지 결정 {first, last} In [2]: import pandas as pd import numpy as np In [3]: df = pd.DataFrame({"A":[1,2,3,1,2,3],'B':[3,2,1,3,2,1],'C':[1,2,3,4,3,2]}) df Out[3]: A B C 0 1 3 1 1 2 2 2 2 3 1 3 3 1 3 4 4 2 2 3 5 3 1 2 In [..
groupby를 활용한 조건부 통계¶ groupby는 조건부 통계량을 계산하기 위한 방법¶분할, 적용, 결합의 3단계로 구성됨¶ 사용 방법: df.groupby(분할 기준 컬럼)[적용 기준 칼럼].집계함수 주요입력: by:분할 기준 컬럼(목록) as_index: 분할 기준 컬럼들을 인덱스로 사용할 것인지 여부 (default: True) 여러 개의 집계 함수나 사용자 정의 함수를 쓰고 싶다면 agg 함수를 사용해야 함 pivot_table과 groupby의 차이점¶ 결과값은 pivot_table과 groupby는 동일함 그러나 출력 값의 형태에 차이가 있으므로 상황에 맞게 구별해 사용 pivot_table은 출력 결과 자체가 결과물인 경우, groupby는 중간 산출물로써 사용 pivot_table은 h..
pivot table 조건에 따른 변수들의 통계량 파악¶ pandas.pivot_table 행단위 데이터 프레임을 피벗 테이블로 변환 data: 데이터 프레임 index: 행에 들어갈 조건 columns: 열에 들어갈 조건 values: 집계 대상 컬럼 목록 aggfunc: 집계 함수 In [1]: import os import pandas as pd os.chdir(r"D:\bigdata\jupyter\data_preprocessing\1. 데이터 핸들링\데이터") In [4]: df = pd.read_csv("온라인_판매기록.csv", encoding="ANSI", engine='python') In [5]: df.head() Out[5]: 쇼핑몰 제품 수량 판매금액 쇼핑몰 유형 0 쿠..
concat, os.listdir, openpyxl을 이용한 데이터 통합¶ 1. merge와 concat의 차이¶ merge는 2개의 데이터 프레임, concat은 2개 이상의 데이터 프레임을 이어 붙이는데 사용 빈데이터 프레임을 만들고 여러 개의 데이터 프레임을 리스트로 입력 받아 붙이는 것이 가능 2.os.listdir: path상에 있는 모든 파일명을 리스트 형태로 변환¶ 3.openpyxl를 이용한 엑셀시트 목록 가져오기¶ python 3.8.5에서는 xlrd로 xlsx 파일을 불러오는 것이 불가능 xlrd의 대용으로 openpyxl사용 wb = openpyxl.load_workbook(file) # 엑셀 파일을 불러와 wb에 저장 wb.sheetnames #wb에 있는 시트 목록을 리스트 형태로..
Pandas - merge를 이용한 데이터 프레임 통합¶ merge는 sql의 join과 같은 방식으로 통합된다. In [5]: import os import pandas as pd os.chdir(r"D:/bigdata/jupyter/data_preprocessing/1. 데이터 핸들링\데이터/") merge 기초 In [6]: df1 = pd.read_csv("merge_실습_employee_group.csv", engine="python") df2 = pd.read_csv("merge_실습_employee_hire_date.csv", engine="python") In [7]: df1 Out[7]: employee group 0 Bob Accounting 1 Jake Engineering 2 Lis..
Logistic Regression을 활용한 소비자 광고 반응률 예측¶ In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns In [3]: df = pd.read_csv('./03. 광고 반응률 예측 (Logistic Regression)/advertising.csv') df.head(10) Out[3]: Daily Time Spent on Site Age Area Income Daily Internet Usage Ad Topic Line City Male Country Timestamp Clicked on Ad 0 68.95 NaN 61833.90 256.09 Cloned 5t..