Python/Pandas
[pandas] DaraFrame의 중복 제거 .drop_duplicates
코딩하고분석하는돌스
2021. 4. 14. 09:13
DaraFrame의 중복 제거_drop_duplicates¶
In [1]:
import pandas as pd
In [2]:
df = pd.DataFrame({"A":[1,2,3,1,2,3],'B':[3,2,1,3,2,1],'C':[1,2,3,4,3,2]})
df
Out[2]:
A | B | C | |
---|---|---|---|
0 | 1 | 3 | 1 |
1 | 2 | 2 | 2 |
2 | 3 | 1 | 3 |
3 | 1 | 3 | 4 |
4 | 2 | 2 | 3 |
5 | 3 | 1 | 2 |
In [3]:
# A를 기준으로 중복 제거(첫 행 남김) keep의 기본 값은 'first'
df.drop_duplicates(subset=['A'])
Out[3]:
A | B | C | |
---|---|---|---|
0 | 1 | 3 | 1 |
1 | 2 | 2 | 2 |
2 | 3 | 1 | 3 |
In [5]:
# 저장 하지 않았기 때문에 삭제했던 행이 다시 보임
df
Out[5]:
A | B | C | |
---|---|---|---|
0 | 1 | 3 | 1 |
1 | 2 | 2 | 2 |
2 | 3 | 1 | 3 |
3 | 1 | 3 | 4 |
4 | 2 | 2 | 3 |
5 | 3 | 1 | 2 |
In [6]:
# A를 기준으로 중복 제거(마지막 행 남김) keep='last'
df.drop_duplicates(subset=['A'], keep='last')
Out[6]:
A | B | C | |
---|---|---|---|
3 | 1 | 3 | 4 |
4 | 2 | 2 | 3 |
5 | 3 | 1 | 2 |
In [ ]:
In [ ]:
In [ ]: