pandas删除重复数据

这篇具有很好参考价值的文章主要介绍了pandas删除重复数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

 1、pandas中重复索引问题

df = df[~df.index.duplicated()]

2、pandas删除重复数据行

# 首先导入常用的两个包
import pandas as pd
import numpy as np

# 1.删除完全重复的行
df.drop_duplicates()

2.按k列进行去重,对于重复项,保留第一次出现的值
df.drop_duplicates('k',keep='first')

3、k2和k1两列进行去重
df.drop_duplicates(['k2','k1'], keep='first')
 
"""
keep:{‘first’, ‘last’, False}, 默认值 ‘first’

first:保留第一次出现的重复行,删除后面的重复行。
last:删除前面的重复项,保留最后一次出现的重复行。
False:删除所有重复项


"""

 3、drop_duplicates()函数的语法

df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)

参数说明如下:文章来源地址https://www.toymoban.com/news/detail-529357.html

  • subset:表示要进去重的列名,默认为 None。
  • keep:有三个可选参数,分别是 first、last、False,默认为 first,表示只保留第一次出现的重复项,删除其余重复项,last 表示只保留最后一次出现的重复项,False 则表示删除所有重复项。
  • inplace:布尔值参数,默认为 False 表示删除重复项后返回一个副本,若为 Ture 则表示直接在原数据上删除重复项。

到了这里,关于pandas删除重复数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Pandas数据分析系列9-数据透视与行列转换

       当数据量较大时,为了更好的分析数据特征,通常会采用数据透视表。 数据透视表是一种对数据进行汇总和分析的工具,通过重新排列和聚合原始数据,可以快速获得更全面的数据洞察。数据透视表在 Excel 中也是经常使用的一个强大功能,在 Pandas 模块,其提供了 pivot

    2024年02月08日
    浏览(40)
  • Pandas 数据分析系列1--Series&DataFrame数据结构详解

       P andas 是一个开源的数据分析和数据处理库,是基于 NumPy 开发的。它提供了灵活且高效的数据结构,使得处理和分析结构化、缺失和时间序列数据变得更加容易。其在数据分析和数据处理领域广泛应用,在金融、社交媒体、科学研究等领域都有很高的使用率和广泛的应用

    2024年02月08日
    浏览(41)
  • 【头歌】——数据分析与实践-python-Pandas 初体验-Pandas数据取值与选择-Pandas进阶

    第1关 了解数据处理对象–Series 第2关 了解数据处理对象-DataFrame 第3关 读取 CSV 格式数据 第4关 数据的基本操作——排序 第5关 数据的基本操作——删除 第6关 数据的基本操作——算术运算 第7关 数据的基本操作——去重 第8关 数据重塑 第1关 Series数据选择 第2关 DataFrame数据

    2024年01月22日
    浏览(152)
  • python-数据分析-pandas

    第一种:通过标量创建Series 第二种:通过列表创建Series 第三种:通过字典创建Series 第四种:通过ndarray创建Series values和index 索引和切片 第一种:通过一维列表构成的字典创建DataFrame 姓名 数学 语文 计算机 0 张三 87 54 34 1 李四 45 76 56 2 王五 34 55 77 3 赵六 98 90 87 姓名 数学 语文

    2023年04月23日
    浏览(63)
  • Python数据分析-Pandas

    个人笔迹,建议不看 Series类型 DataFrame类型 是一个二维结构,类似于一张excel表 DateFrame只要求每列的数据类型相同就可以了 查看数据 读取数据及数据操作 行操作 条件选择 缺失值及异常值处理 判断缺失值: 填充缺失值: 删除缺失值 age count 2.000000 mean 1.500000 std 0.707107 min 1

    2024年02月10日
    浏览(61)
  • pandas---删除重复行、映射、异常值检测与过滤、抽样

    1. 删除重复行 使用duplicated()函数检测重复的行。 返回布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为True。    使用drop_duplicates()函数删除重复的行:   2. 映射 映射的含义:创建一个映射关系列表,把values元素和一个特定的标签或者字符串绑

    2024年02月09日
    浏览(34)
  • 《Python数据分析技术栈》第06章使用 Pandas 准备数据 01 Pandas概览(Pandas at a glance)

    《Python数据分析技术栈》第06章使用 Pandas 准备数据 01 Pandas概览(Pandas at a glance) Wes McKinney developed the Pandas library in 2008. The name (Pandas) comes from the term “Panel Data” used in econometrics for analyzing time-series data. Pandas has many features, listed in the following, that make it a popular tool for data wrang

    2024年01月23日
    浏览(46)
  • 【Python练习】数据分析库Pandas

    1. 了解Serie

    2024年02月09日
    浏览(60)
  • 实战演练Python数据分析[pandas]

    本篇文章出自于《利用Python进行数据分析》示例数据 请结合提供的示例数据,分析代码的功能,并进行数据分析与可视化拓展。本篇文章通过四个例子,通过MoviesLens数据集、美国1880-2010年的婴儿名字、美国农业部视频数据库、2012年联邦选举委员会数据库来进行着重讲解。

    2024年02月15日
    浏览(49)
  • 【Python】数据分析+数据挖掘——探索Pandas中的数据筛选

    当涉及数据处理和分析时,Pandas是Python编程语言中最强大、灵活且广泛使用的工具之一。Pandas提供了丰富的功能和方法,使得数据的选择、筛选和处理变得简单而高效。在本博客中,我们将重点介绍Pandas中数据筛选的关键知识点,包括条件索引、逻辑操作符、 query() 方法以及

    2024年02月15日
    浏览(58)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包