十行python代码实现文件去重,去除重复文件的脚本

这篇具有很好参考价值的文章主要介绍了十行python代码实现文件去重,去除重复文件的脚本。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1.导入依赖

'''导入依赖'''

from pathlib import Path

import filecmp

2.函数说明

filecmp.cmp(path1, path2, shallow=True)

path1/path2:待比较的两个文件路径。

shallow :默认为True,即只比较os.stat()获取的元数据(创建时间,大小等信息)是否相同,
设置为False的话,在对比文件的时候还要比较文件内容。文章来源地址https://www.toymoban.com/news/detail-786139.html

3.提取待去重文件路径

# 初始化文件路径列表
path_files_list = []

# 遍历
for path in Path(r'/usr/load/data').iterdir():

    # 校验是否为文件
    if path.is_file():
        # 加入到待去重文件列表
        path_files_list.append(path)
#学习中遇到问题没人解答?小编创建了一个Python学习交流群:711312441
# 遍历待去重文件
for file_index in range(len(path_files_list) - 1):

    # 遍历,两辆比对
    for later in range(file_index + 1, len(path_files_list)):

        # 校验内容是否相同
        if filecmp.cmp(path_files_list[file_index], 
path_files_list[later], shallow=False):

            # 内容相同、则删除
            path_files_list[file_index].unlink()
            break

到了这里,关于十行python代码实现文件去重,去除重复文件的脚本的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 八十行代码实现开源的 Midjourney、Stable Diffusion “咒语”作图工具

    本篇文章聊聊如何通过 Docker 和八十行左右的 Python 代码,实现一款类似 Midjourney 官方图片解析功能 Describe 的 Prompt 工具。 让你在玩 Midjourney、Stable Diffusion 这类模型时,不再为生成 Prompt 描述挠头。 本文将提供两个版本的工具,分别支持 CPU 和 GPU 推理使用,如果你有一张大于

    2023年04月14日
    浏览(46)
  • bat脚本删除文件夹下的重复文件

    需求:删除某个文件夹下重复的文件。例如文件名后带(1)(2)等等 脚本: 说明: 指定一个目录(不能包含中文),生成两个记录文件,执行删除文件,最后2s后关闭 参考: bat脚本删除文件夹下的重复文件

    2024年01月21日
    浏览(33)
  • 用python实现检查一个文件夹中所有word文件内容是否重复

    要检查一个文件夹中所有Word文件的内容是否重复,你可以使用Python的 python-docx 库来读取Word文件的内容,并使用Python的集合数据结构来检查重复项。 以下是一个示例代码,演示如何实现这个功能: python复制代码 import os from docx import Document def get_word_files(directory): \\\"\\\"\\\"获取指定目

    2024年01月23日
    浏览(53)
  • java 集合去重、获取、统计重复元素

    开发过程中常遇见的三种问题:集合去重、获取重复元素、统计重复次数。 网上搜了下,实现过程五花八门,这里简单汇总下我觉得比较常用的方式: 方法:List转set;一行代码即可; 前提是不需要获取重复元素和统计重复次数 ,最简单的就是把List转为Set,众所周知,set的

    2024年02月16日
    浏览(43)
  • 十行代码,就能真正让你理解DMA(CPU的秘书)

    下面的代码是单片机串口发送数据的程序. 那我们定义的变量a的值存储在哪里了呢?可以看下单片机的逻辑框图。 变量其实都是存在一个叫SRAM的存储器中,它是单片机的内存。存储变量的这个步骤,是由单片机的内核通过总线来操作完成。 第二行代码:它是把内存里的数据

    2024年02月08日
    浏览(23)
  • leetcode 316. 去除重复字母

    给你一个字符串 s ,请你去除字符串中重复的字母,使得每个字母只出现一次。需保证 返回结果的字典序最小(要求不能打乱其他字符的相对位置)。 示例 1: 输入:s = “bcabc” 输出:“abc” 示例 2: 输入:s = “cbacdcbc” 输出:“acdb” 提示: 1 = s.length = 104 s 由小写英文

    2024年02月16日
    浏览(29)
  • php 去除二维数组重复

    在 PHP 中,我们常常需要对数组进行处理和操作。有时候,我们需要去除数组中的重复元素,这里介绍一种针对二维数组的去重方法。 以下是列举一些常见的方法: 方法一:使用 array_map 和 serialize 函数 array_map 函数可以对数组中的每个元素应用一个回调函数,该回调函数返回

    2024年02月13日
    浏览(31)
  • 录制完视频如何去除重复部分?

    在录制视频的过程中,有时会出现一些重复的部分,这给视频的制作人员带来了不小的困扰。如果不及时去除重复部分,不仅会影响观众的观看体验,还会浪费观众的时间和从业者的精力。那录制完的视频如何去除重复部分呢?无须担心,继续阅读下文,会有去除视频重复部

    2024年02月03日
    浏览(36)
  • MySQL去除数据库重复记录

    要从MySQL数据库中删除重复的记录,您可以使用 DELETE 语句结合 GROUP BY 和 HAVING 子句来实现。以下是一个示例: 在上述示例中,您需要将 your_table 替换为您的表名,并将 column1, column2, ... 替换为用于判断重复的列名。这个查询将删除所有重复的记录,只保留每组重复记录中的一

    2024年02月11日
    浏览(50)
  • MATLAB 点云重复点去除(7)

    效果上看不出来,但实际上左边的点云是右边的两倍 重复点的去除,是点云处理中常用的预处理方法,因为重复点的存在有时候会严重干扰后续算法的准确性,甚至出现意想不到的错误,去除方法也比较简单,即我们认为0.01m以内的点过于靠近,则可以将它们看作重复点,此

    2024年02月03日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包