Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 비지도학습
- 랭체인
- 판다스
- Python
- fastapi #python웹개발
- NLP
- programmablesearchengine
- 자연어분석
- 파이썬
- 챗gpt
- 판다스 데이터정렬
- HTML
- 파이썬웹개발
- pandas
- 데이터분석
- 파이토치
- OpenAIAPI
- deeplearning
- 딥러닝
- konlpy
- MachineLearning
- 한빛미디어
- langchain
- fastapi #파이썬웹개발
- 사이킷런
- 머신러닝
- fastapi
- chatGPT
- sklearn
- pytorch
Archives
- Today
- Total
Data Navigator
[pandas] DaraFrame의 중복 제거 .drop_duplicates 본문
DaraFrame의 중복 제거_drop_duplicates¶
In [1]:
import pandas as pd
In [2]:
df = pd.DataFrame({"A":[1,2,3,1,2,3],'B':[3,2,1,3,2,1],'C':[1,2,3,4,3,2]})
df
Out[2]:
| A | B | C | |
|---|---|---|---|
| 0 | 1 | 3 | 1 |
| 1 | 2 | 2 | 2 |
| 2 | 3 | 1 | 3 |
| 3 | 1 | 3 | 4 |
| 4 | 2 | 2 | 3 |
| 5 | 3 | 1 | 2 |
In [3]:
# A를 기준으로 중복 제거(첫 행 남김) keep의 기본 값은 'first'
df.drop_duplicates(subset=['A'])
Out[3]:
| A | B | C | |
|---|---|---|---|
| 0 | 1 | 3 | 1 |
| 1 | 2 | 2 | 2 |
| 2 | 3 | 1 | 3 |
In [5]:
# 저장 하지 않았기 때문에 삭제했던 행이 다시 보임
df
Out[5]:
| A | B | C | |
|---|---|---|---|
| 0 | 1 | 3 | 1 |
| 1 | 2 | 2 | 2 |
| 2 | 3 | 1 | 3 |
| 3 | 1 | 3 | 4 |
| 4 | 2 | 2 | 3 |
| 5 | 3 | 1 | 2 |
In [6]:
# A를 기준으로 중복 제거(마지막 행 남김) keep='last'
df.drop_duplicates(subset=['A'], keep='last')
Out[6]:
| A | B | C | |
|---|---|---|---|
| 3 | 1 | 3 | 4 |
| 4 | 2 | 2 | 3 |
| 5 | 3 | 1 | 2 |
In [ ]:
In [ ]:
In [ ]:
'Python > Pandas' 카테고리의 다른 글
| [pandas] .loc를 사용하여 조건에 맞는 행 인덱싱(마스킹 인덱싱) (0) | 2021.04.15 |
|---|---|
| [pandas] 판다스 DataFrame정렬 sort_values() (0) | 2021.04.13 |
| [pandas] Series 데이터 정렬하기 sort_values(), .value_counts(), .unique() (0) | 2021.04.12 |
| [pandas] groupby를 이용한 조건부 통계 (0) | 2021.04.10 |
| [pandas] pivot_table을 이용한 조건별 변수별 통계량 파악 (0) | 2021.04.09 |