Python用pandas进行大数据Excel两文件比对去重300w大数据处理

这篇具有很好参考价值的文章主要介绍了Python用pandas进行大数据Excel两文件比对去重300w大数据处理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Python用pandas进行大数据Excel两文件比对去重

背景介绍:

通俗理解有两个excel文件 分别为A和B

我要从B中去掉A中含有的数据,数据量大约在300w左右

因为数据量较大,无论是wps还是office自带的去重都无法正常使用这样就需要用到脚本了

话不多说,代码如下:

import pandas as pd
from tqdm import tqdm


# 引号内填写需要去重的表格路径

targetExcel = r'./222.xlsx'

# 引号内填写依据表格的路径

basisExcel = r'./11.xlsx'

# 引号内填写输出字段

field = 'removeRepeatResult'


def removeRepeat():

    count = 0
    ind   = 1
    targetIndex = field + str(ind)
    resultExcel  = {
        field+'1': []
    }
    header = ['A','B','C','D','E','F','G','H','I','J','K']

    print('读取数据')
    target_Excel = pd.read_excel(targetExcel,header=None,names=header, dtype='object')
    basis_Excel  = pd.read_excel(basisExcel,header=None,names=['A'], dtype='object')
    print('读取成功')

    for index in tqdm(header):
        for i in tqdm(target_Excel[index], leave=False):
            if pd.isnull(i):
                continue
            elif i in list(basis_Excel['A']):
                continue
            else:
                resultExcel[targetIndex].append(i)
                count += 1
                if count >= 1020000:
                    count = 0
                    ind += 1
                    targetIndex = field + str(ind)
                    resultExcel[targetIndex] = []
    
    print('等待数据合并')
    df = pd.concat([pd.DataFrame(i) for i in resultExcel.values()], axis=1)  
    df.fillna(0) # 取消长短不一致问题 
    df.to_excel('resultExcel.xlsx', header=None, index=False) # 取消表头与行号
    #上一行中自定义文件名!


removeRepeat()
input('>>> 任意键退出...')

运行效果图:

pandas对比两张表,Python,pandas,大数据,数据分析,python

 欢迎大家指导交流,共同学习,共同进步!文章来源地址https://www.toymoban.com/news/detail-617503.html

到了这里,关于Python用pandas进行大数据Excel两文件比对去重300w大数据处理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Pandas对Excel文件进行读取、增删、打开、保存等操作的代码实现

    Pandas 是一种基于 NumPy 的开源数据分析工具,用于处理和分析大量数据。Pandas 模块提供了一组高效的工具,可以轻松地读取、处理和分析各种类型的数据,包括 CSV、Excel、SQL 数据库、JSON 等格式的数据。 pd.read_csv() / pd.read_excel() / pd.read_sql() 等:读取不同格式的数据文件或 S

    2024年02月13日
    浏览(35)
  • Jupyter:用python读取pandas的csv文件,txt文件和excel文件

    首先打开Anaconda Powershell Prompt,输入豆瓣镜像源相关包的下载地址  pip  install  -i  https://pypi.doubanio.com/simple/  --trusted-host pypi.doubanio.com com后面要有空格,空格后面加pandas,后面好识别pd(pandas是包名,也可以改成其他任意名字,但是尽量不要改,容易出错) 按回车,显示S

    2024年02月04日
    浏览(45)
  • Python Pandas 处理Excel数据 制图

    目录 1、饼状图  2、条形统计图

    2024年02月11日
    浏览(29)
  • Python:使用pandas对excel数据筛选选择

    #直接筛选 #DataFrame索引使用[], #直接索引语法:df[] 1.1 直接筛选,选择单列数据:df[\\\"列\\\"] 1.2直接筛选,选择多列数据:df[[\\\"列1\\\",\\\"列2\\\"]](注意:多嵌套列) 1.3直接筛选,选择多行数据:df[2:4]按照位置选取连续的行(切片),前闭后开 #(\\\'----------筛选方式2:条件筛选-------------\\\') #条件筛选

    2024年02月16日
    浏览(40)
  • Python的pandas库来实现将Excel文件转换为JSON格式的操作

    ✅作者简介:2022年 博客新星 第八 。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏:Python案例分享专栏 ✨特色专栏:国学周更-心性养成之路 🥭本文内容:Python的pandas库来实现

    2024年02月09日
    浏览(34)
  • Python+pandas数据直接写入和接续写入Excel

    数据类型(3行7列的数据)和: (7行1列的数据) 直接写入两个不同的sheet 效果: 效果 效果 直接写入:(12条消息) 【python学习】-将数据输出存储到CSV或xls,xlsx文件(并实现将不同数据存储在同一份文件的不同sheet)_electrochemjy的博客-CSDN博客_python输出数据到csv 接续写入:Python

    2024年02月03日
    浏览(34)
  • Python 自动获取大批量excel数据并填写到网页表单(pandas;selenium)

    自动获取大批量excel数据并填写到网页表单 部分网页获取下拉列表点击的方式有所差异 这个请根据网页源码自做选择 一定要学会使用IPDB调试工具 太好用了!!!! 可能需要pip update一下 看提示 很好解决 没有报错最好啦 Python真是太好用了 办公利器啊!!!!

    2024年02月12日
    浏览(40)
  • 在Python中使用LooseVersion进行软件版本号比对

    Python是一门极其热门、极其灵活的开发语言,其更新迭代的速度也非常的快速。有时候我们遇到不同的软件版本不同方法处理的情况,此时就需要用到版本号比对的工具。举一个例子说,我们要在python代码中区分numpy版本在1.21.6之前和之后的版本。虽然我们可以自己手写一个

    2024年02月13日
    浏览(20)
  • [数据分析实战]对比用Excel和Python用来做数据分析的优缺点,用Python的Pandas操作Excel数据表格原来如此简单?还不赶紧学起来?

    目录 首先,我先总结一下用Excel和Python用来做数据分析的优缺点 Excel做数据分析的优点: Excel做数据分析的缺点: Python做数据分析的优点: Python做数据分析的缺点: 1.展示本例子中使用的数据 2.开始动手 一、导入数据以及理解数据部分  1.1查看数据维度(行列) 2.2.查看数据格

    2024年02月04日
    浏览(29)
  • Python 2.x 中如何使用pandas模块进行数据分析

    Python 2.x 中如何使用pandas模块进行数据分析 概述: 在数据分析和数据处理过程中,pandas是一个非常强大且常用的Python库。它提供了数据结构和数据分析工具,可以实现快速高效的数据处理和分析。本文将介绍如何在Python 2.x中使用pandas进行数据分析,并为读者提供一些代码示例

    2024年02月13日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包