【机器学习】数据清洗——基于Pandas库的方法删除重复点

这篇具有很好参考价值的文章主要介绍了【机器学习】数据清洗——基于Pandas库的方法删除重复点。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【机器学习】数据清洗——基于Pandas库的方法删除重复点,机器学习,机器学习,pandas,人工智能

🎈个人主页:豌豆射手^
🎉欢迎 👍点赞✍评论⭐收藏
🤗收录专栏:机器学习
🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步!


引言

在机器学习领域,高质量的数据是构建强大模型的基石。而数据清洗作为数据预处理的关键步骤之一,对于确保数据质量至关重要。

本博客将重点介绍基于Pandas库的强大功能,特别是drop_duplicates()方法,来处理数据中的重复点。通过深入了解这一方法及其不同应用场景,读者将能够更有效地进行数据清洗,为机器学习任务打下坚实的基础。

【机器学习】数据清洗——基于Pandas库的方法删除重复点,机器学习,机器学习,pandas,人工智能

一 drop_duplicates() 介绍

drop_duplicates() 方法是 Pandas 库中用于删除 DataFrame 中重复数据的方法。

它返回一个新的 DataFrame,其中不包含重复的行或列。

这个方法有几个重要的参数:

subset:指定要用来判断重复的列或列的组合。默认为 None,表示考虑整个 DataFrame 的所有列。

keep:指定保留重复值的方式。可以是 ‘first’(默认值,保留第一个出现的重复值)、‘last’(保留最后一个出现的重复值)或
False(删除所有重复值)。

inplace:指定是否在原 DataFrame 上直接进行修改,而不是返回一个新的 DataFrame。默认为 False。

【机器学习】数据清洗——基于Pandas库的方法删除重复点,机器学习,机器学习,pandas,人工智能

二 删除重复行

Pandas提供了drop_duplicates()方法,可以用于删除DataFrame中的重复行。

这个方法会返回一个新的DataFrame,其中不包含重复的行。

示例:

import pandas as pd

# 假设df是一个包含重复点的DataFrame
df = pd.DataFrame({'A': [1, 2, 2, 3, 3],
                   'B': ['a', 'b', 'b', 'c', 'c']})

# 使用drop_duplicates()方法删除重复行
df_unique = df.drop_duplicates()

print(df_unique)

输出:

   A  B
0  1  a
1  2  b
3  3  c

在上面的例子中,原始DataFrame df 包含重复的行,经过drop_duplicates()方法处理后,返回了一个新的DataFrame df_unique,其中不包含重复的行。
【机器学习】数据清洗——基于Pandas库的方法删除重复点,机器学习,机器学习,pandas,人工智能

三 指定删除重复点时的列

drop_duplicates()方法还可以接受subset参数,用于指定删除重复点时的列。

默认情况下,该方法会考虑所有的列,但你也可以通过subset参数指定特定的列进行重复点的判断。

示例

import pandas as pd

# 创建一个包含重复点的DataFrame
# 注意列A中有重复值,但列B中的值是不同的
df = pd.DataFrame({
    'A': [1, 1, 2, 2, 3],
    'B': ['a', 'b', 'c', 'd', 'e']
})

print("原始DataFrame:")
print(df)

# 使用drop_duplicates()方法,并指定subset参数为列A
# 这意味着只会基于列A的值来判断和删除重复点
df_c = df.drop_duplicates(subset=['A'])

print("\n基于列处理后的DataFrame:")
print(df_c)

#使用drop_duplicates()方法,不指定subset参数为列A
df_r = df.drop_duplicates()
print("\n基于行处理后的DataFrame:")
print(df_r)

输出

原始DataFrame:
   A  B
0  1  a
1  1  b
2  2  c
3  2  d
4  3  e

基于列处理后的DataFrame:
   A  B
0  1  a
2  2  c
4  3  e

基于行处理后的DataFrame:
   A  B
0  1  a
1  1  b
2  2  c
3  2  d
4  3  e
​

代码分析:

以上代码首先创建了一个包含重复数据的 DataFrame,其中列 A 中有重复值,但列 B 中的值是不同的。

接着使用 drop_duplicates() 方法,并指定 subset 参数为列 A,这意味着只会基于列 A的值来判断和删除重复的数据点。

处理后的 DataFrame df_c 中只保留了列 A 中的唯一值,并保留了每个唯一值对应的第一个出现的行。

然后,代码使用 drop_duplicates() 方法没有指定 subset 参数,这意味着将考虑整个 DataFrame 的所有列进行去重。

因为B列全是不同的数据,故DataFrame 并没有发生变化。
【机器学习】数据清洗——基于Pandas库的方法删除重复点,机器学习,机器学习,pandas,人工智能

四 保留第一个或最后一个出现的重复点

drop_duplicates()方法默认保留第一个出现的重复点,但你也可以通过keep参数指定保留最后一个出现的重复点,或者将所有重复点都删除。

示例

import pandas as pd

# 创建一个包含重复点的DataFrame
df = pd.DataFrame({
    'A': [1, 1, 2, 2, 3, 3],
    'B': ['a', 'b', 'c', 'd', 'e', 'f']
})

print("原始DataFrame:")
print(df)

# 保留第一个出现的重复点
df_first = df.drop_duplicates(subset=['A'],keep='first')

print("\n保留第一个出现的重复点处理后的DataFrame:")
print(df_first)

# 保留最后一个出现的重复点
df_last = df.drop_duplicates(subset=['A'],keep='last')

print("\n保留最后一个出现的重复点处理后的DataFrame:")
print(df_last)

运行结果:

原始DataFrame:
   A  B
0  1  a
1  1  b
2  2  c
3  2  d
4  3  e
5  3  f

保留第一个出现的重复点处理后的DataFrame:
   A  B
0  1  a
2  2  c
4  3  e

保留最后一个出现的重复点处理后的DataFrame:
   A  B
1  1  b
3  2  d
5  3  f

代码分析:

以上代码首先创建了一个包含重复数据的 DataFrame,其中列 A 中有重复值,但列 B 中的值是不同的,并且相同列A对应的B元素是不一样的。

接着,使用 drop_duplicates() 方法并指定 subset 参数为列 A,同时设置 keep 参数为 ‘first’,这意味着保留每个重复值中的第一个出现的数据点。

处理后的 DataFrame df_first 中只保留了列 A 中的唯一值,并保留了每个唯一值对应的第一个出现的行。

然后,再次使用 drop_duplicates() 方法指定 subset 参数为列 A,但这次设置 keep 参数为’last’,这意味着保留每个重复值中的最后一个出现的数据点。

处理后的 DataFrame df_last 中只保留了列 A 中的唯一值,并保留了每个唯一值对应的最后一个出现的行。

从代码结果可以看出,因为相同列A对应的B元素是不一样的,所以这两种方式删除重复点后的结果也是不一样

总体而言,这段代码演示了通过 drop_duplicates() 方法结合 subset 和 keep 参数来实现不同的去重策略,分别保留第一个和最后一个出现的重复点,从而得到两个不同的处理后的 DataFrame。

【机器学习】数据清洗——基于Pandas库的方法删除重复点,机器学习,机器学习,pandas,人工智能

五 原地修改DataFrame

默认情况下,drop_duplicates()方法返回一个新的DataFrame,而不改变原始DataFrame。

但你也可以通过inplace参数将修改应用到原始DataFrame上。

示例

import pandas as pd

# 创建一个包含重复数据的 DataFrame
data = {
    'A': [1, 1, 2, 2, 3],
    'B': ['a', 'b', 'c', 'c', 'd']
}
df = pd.DataFrame(data)

# 显示原始 DataFrame
print("原始 DataFrame:")
print(df)

# 删除重复点,并显示修改后的结果
df.drop_duplicates(inplace=True)
print("\n删除重复点后的 原始DataFrame:")
print(df)

运行结果:

原始 DataFrame:
   A  B
0  1  a
1  1  b
2  2  c
3  2  c
4  3  d

删除重复点后的 原始DataFrame:
   A  B
0  1  a
1  1  b
2  2  c
4  3  d
​

在这个例子中,通过inplace=True参数,我们在原地修改了DataFrame,不再返回新的DataFrame,同时原始DataFrame也发生了改变,变为了删除重复值的样子。

将inplace参数改为False,我们会发现输出结果中,原始dataframe并没有发生改变,如:

import pandas as pd

# 创建一个包含重复数据的 DataFrame
data = {
    'A': [1, 1, 2, 2, 3],
    'B': ['a', 'b', 'c', 'c', 'd']
}
df = pd.DataFrame(data)

# 显示原始 DataFrame
print("原始 DataFrame:")
print(df)

# 删除重复点,并显示修改后的结果
df.drop_duplicates(inplace=False)
print("\n删除重复点后的 原始DataFrame:")
print(df)

输出结果:

原始 DataFrame:
   A  B
0  1  a
1  1  b
2  2  c
3  2  c
4  3  d

删除重复点后的 原始DataFrame:
   A  B
0  1  a
1  1  b
2  2  c
3  2  c
4  3  d

六 总结

在本博客中,我们深入探讨了机器学习中数据清洗的关键任务之一——删除重复点的方法,重点介绍了基于Pandas库的drop_duplicates()方法。

我们详细讨论了如何使用这一方法删除数据中的重复行,以及在多列情况下如何指定删除重复点的列,强调了方法的灵活性。

同时,我们解释了通过keep参数选择保留第一个或最后一个出现的重复点的策略,并提及了在处理大型数据集时需要注意的内存效率问题。

通过掌握这一技能,读者将能够更加轻松、灵活和高效地进行数据清洗,确保所使用的数据是准确、可靠且高质量的,为机器学习任务的成功打下坚实的基础。

【机器学习】数据清洗——基于Pandas库的方法删除重复点,机器学习,机器学习,pandas,人工智能

这篇文章到这里就结束了

谢谢大家的阅读!

如果觉得这篇博客对你有用的话,别忘记三连哦。

我是甜美的江,让我们我们下次再见

【机器学习】数据清洗——基于Pandas库的方法删除重复点,机器学习,机器学习,pandas,人工智能

【机器学习】数据清洗——基于Pandas库的方法删除重复点,机器学习,机器学习,pandas,人工智能文章来源地址https://www.toymoban.com/news/detail-829033.html

到了这里,关于【机器学习】数据清洗——基于Pandas库的方法删除重复点的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【机器学习】数据清洗之处理缺失点

    🎈个人主页:甜美的江 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:机器学习 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步! 引言: 在机器学习领域,数据被广泛认为是驱动模型性能的关键。然而,在真实世界的数据中,缺

    2024年02月20日
    浏览(31)
  • pandas数据清洗——缺失值处理

    使用DataFrame对象的info()方法 原始数据 ​​ 注:NaN为空缺值   查看是否有缺失值    Non-Null Count列显示的是每个索引中不是空缺的个数 使用DataFrame的isnull()方法和notnull()方法 1. isnull()方法——判断是否为空,输出结果为True和False,不为NaN时返回False,为NaN时返回True。     2.

    2024年02月12日
    浏览(36)
  • 机器学习笔记 - 数据科学中基于 Scikit-Learn、Tensorflow、Pandas 和 Scipy的7种最常用的特征工程技术

            特征工程描述了制定相关特征的过程,这些特征尽可能准确地描述底层数据科学问题,并使算法能够理解和学习模式。换句话说:您提供的特征可作为将您自己对世界的理解和知识传达给模型的一种方式。         每个特征描述一种信息“片段”。这些部分的

    2024年02月10日
    浏览(30)
  • pandas由入门到精通-数据清洗-分类数据

    文中用S代

    2024年02月10日
    浏览(28)
  • 数据分析Pandas专栏---第一章<数据清洗>

    当我们使用爬虫从网上收集到大量的数据时,经常会面临一个重要任务:对这些数据进行清洗和整理,以便进一步分析和利用。在Python中,pandas是一个功能强大且广泛使用的数据处理库,它提供了各种灵活而高效的工具,可以方便地进行数据清洗和转换。本篇文章将重点介绍

    2024年02月21日
    浏览(38)
  • 数据分析 — Pandas 数据加载、存储和清洗

    函数 说明 read_csv 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号。 read_table 从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符(‘t’)。 read_excel 从 Excel XLS 或 XLSX file 读取表格数据。 read_json 读取 JSON(JavaScript Object Notation)字符串

    2024年02月22日
    浏览(29)
  • 【玩转pandas系列】数据清洗(文末送书)

    本文介绍在数据分析中如何使用 pandas 进行数据清洗,是 pandas 学习阶段的 重点 ,没有之一。 pandas中用于重复值检测的是 duplicated() 函数,可以用于检测行或列是否前后重复,返回值是 bool 类型。True 表示重复,False 表示不重复。 函数参数: keep :默认情况下 keep = first ,表

    2024年02月14日
    浏览(26)
  • Pandas实战100例 | 案例 3: 数据清洗 - 处理缺失值

    案例 3: 数据清洗 - 处理缺失值 知识点讲解 在现实世界的数据集中,经常会遇到缺失值。Pandas 提供了多种方法来处理这些缺失值,包括填充缺失值、删除含有缺失值的行或列。 示例代码 检测缺失值 填充缺失值

    2024年01月20日
    浏览(32)
  • 【第三章 Python 机器学习入门之Series和DataFrame的创建、索引、切片、数据清洗、数据分析等】

    第一章 Python 机器学习入门之Pandas库的使用 第二章 Python 机器学习入门之NumPy库的使用 第四章 Python 机器学习入门之数据可视化 第五章 Python 机器学习入门之机器学习算法 第六章 Python 机器学习入门之实战项目 Series是一种一维数组,可以通过以下方式创建: 通过列表创建Ser

    2024年02月05日
    浏览(41)
  • 利用Python进行数据清洗与预处理:Pandas的高级用法【第147篇—Pandas的高级用法】

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 在数据科学和机器学习领域,数据清洗和预处理是至关重要的步骤。Pandas库作为Python中最受欢迎的数据处理工具之一,提供了强大的功能来处

    2024年04月09日
    浏览(88)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包