pandas删除重复数据

1年前作者：**星光*分类：Toy博客阅读(8)违法举报

这篇具有很好参考价值的文章主要介绍了pandas删除重复数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1、pandas中重复索引问题

df = df[~df.index.duplicated()]

2、pandas删除重复数据行

# 首先导入常用的两个包
import pandas as pd
import numpy as np

# 1.删除完全重复的行
df.drop_duplicates()

2.按k列进行去重，对于重复项，保留第一次出现的值
df.drop_duplicates('k',keep='first')

3、k2和k1两列进行去重
df.drop_duplicates(['k2','k1'], keep='first')
 
"""
keep：{‘first’, ‘last’, False}, 默认值 ‘first’

first：保留第一次出现的重复行，删除后面的重复行。
last：删除前面的重复项，保留最后一次出现的重复行。
False：删除所有重复项


"""

3、drop_duplicates()函数的语法

df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)

参数说明如下：文章来源地址https://www.toymoban.com/news/detail-529357.html

subset：表示要进去重的列名，默认为 None。

keep：有三个可选参数，分别是 first、last、False，默认为 first，表示只保留第一次出现的重复项，删除其余重复项，last 表示只保留最后一次出现的重复项，False 则表示删除所有重复项。

inplace：布尔值参数，默认为 False 表示删除重复项后返回一个副本，若为 Ture 则表示直接在原数据上删除重复项。

到了这里，关于pandas删除重复数据的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Pandas数据分析系列9-数据透视与行列转换
当数据量较大时，为了更好的分析数据特征，通常会采用数据透视表。数据透视表是一种对数据进行汇总和分析的工具，通过重新排列和聚合原始数据，可以快速获得更全面的数据洞察。数据透视表在 Excel 中也是经常使用的一个强大功能，在 Pandas 模块，其提供了 pivot
2024年02月08日
浏览(5)
Pandas 数据分析系列1--Series&DataFrame数据结构详解
P andas 是一个开源的数据分析和数据处理库，是基于 NumPy 开发的。它提供了灵活且高效的数据结构，使得处理和分析结构化、缺失和时间序列数据变得更加容易。其在数据分析和数据处理领域广泛应用，在金融、社交媒体、科学研究等领域都有很高的使用率和广泛的应用
2024年02月08日
浏览(11)
【头歌】——数据分析与实践-python-Pandas 初体验-Pandas数据取值与选择-Pandas进阶
第1关了解数据处理对象–Series 第2关了解数据处理对象-DataFrame 第3关读取 CSV 格式数据第4关数据的基本操作——排序第5关数据的基本操作——删除第6关数据的基本操作——算术运算第7关数据的基本操作——去重第8关数据重塑第1关 Series数据选择第2关 DataFrame数据
2024年01月22日
浏览(58)
python-数据分析-pandas
第一种：通过标量创建Series 第二种：通过列表创建Series 第三种：通过字典创建Series 第四种：通过ndarray创建Series values和index 索引和切片第一种：通过一维列表构成的字典创建DataFrame 姓名数学语文计算机 0 张三 87 54 34 1 李四 45 76 56 2 王五 34 55 77 3 赵六 98 90 87 姓名数学语文
2023年04月23日
浏览(13)
Python数据分析-Pandas
个人笔迹，建议不看 Series类型 DataFrame类型是一个二维结构，类似于一张excel表 DateFrame只要求每列的数据类型相同就可以了查看数据读取数据及数据操作行操作条件选择缺失值及异常值处理判断缺失值：填充缺失值：删除缺失值 age count 2.000000 mean 1.500000 std 0.707107 min 1
2024年02月10日
浏览(14)
pandas---删除重复行、映射、异常值检测与过滤、抽样
1. 删除重复行使用duplicated()函数检测重复的行。返回布尔类型的Series对象，每个元素对应一行，如果该行不是第一次出现，则元素为True。使用drop_duplicates()函数删除重复的行： 2. 映射映射的含义：创建一个映射关系列表，把values元素和一个特定的标签或者字符串绑
2024年02月09日
浏览(7)
《Python数据分析技术栈》第06章使用 Pandas 准备数据 01 Pandas概览（Pandas at a glance）
《Python数据分析技术栈》第06章使用 Pandas 准备数据 01 Pandas概览（Pandas at a glance） Wes McKinney developed the Pandas library in 2008. The name (Pandas) comes from the term “Panel Data” used in econometrics for analyzing time-series data. Pandas has many features, listed in the following, that make it a popular tool for data wrang
2024年01月23日
浏览(12)
实战演练Python数据分析[pandas]
本篇文章出自于《利用Python进行数据分析》示例数据请结合提供的示例数据，分析代码的功能，并进行数据分析与可视化拓展。本篇文章通过四个例子，通过MoviesLens数据集、美国1880-2010年的婴儿名字、美国农业部视频数据库、2012年联邦选举委员会数据库来进行着重讲解。
2024年02月15日
浏览(13)
【Python练习】数据分析库Pandas
1. 了解Serie
2024年02月09日
浏览(18)
【Python】数据分析+数据挖掘——探索Pandas中的数据筛选
当涉及数据处理和分析时，Pandas是Python编程语言中最强大、灵活且广泛使用的工具之一。Pandas提供了丰富的功能和方法，使得数据的选择、筛选和处理变得简单而高效。在本博客中，我们将重点介绍Pandas中数据筛选的关键知识点，包括条件索引、逻辑操作符、 query() 方法以及
2024年02月15日
浏览(13)