pandas(十七)批量拆分与合并Excel文件

这篇具有很好参考价值的文章主要介绍了pandas(十七)批量拆分与合并Excel文件。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、Pandas 进行索引和切片的iloc、loc方法
  • iloc是基于整数位置进行索引和切片的方法
    它允许您使用整数来访问 DataFrame 或 Series 中的特定行和列
    import pandas as pd
    
    # 创建示例 DataFrame
    df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})
    
    # 使用 iloc 访问特定行和列
    value = df.iloc[0, 1]  # 获取第一行、第二列的值
    row = df.iloc[1]  # 获取第二行的所有列
    col = df.iloc[:, 2]  # 获取第三列的所有值
    slice_df = df.iloc[1:3, 0:2]  # 获取第二行到第三行、第一列到第二列的切片
    
    print(value)  # 输出: 4
    print(row)  # 输出: A    2\nB    5\nC    8\nName: 1, dtype: int64
    print(col)  # 输出: 0    7\n1    8\n2    9\nName: C, dtype: int64
    print(slice_df)
    # 输出:
    #    A  B
    # 1  2  5
    # 2  3  6
    
  • loc是基于标签进行索引和切片的方法。
    它允许您使用标签来访问 DataFrame 或 Series 中特定的行和列
    import pandas as pd
    
    # 创建示例 DataFrame
    df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}, index=['a', 'b', 'c'])
    
    # 使用 loc 访问特定行和列
    value = df.loc['a', 'B']  # 获取索引为 'a',列为 'B' 的值
    row = df.loc['b']  # 获取索引为 'b' 的所有列
    col = df.loc[:, 'C']  # 获取列标签为 'C' 的所有值
    slice_df = df.loc['b':'c', 'A':'B']  # 获取索引为 'b''c',列标签为 'A''B' 的切片
    
    print(value)  # 输出: 4
    print(row)  # 输出: A    2\nB    5\nC    8\ndtype: int64
    print(col)  # 输出: a    7\nb    8\nc    9\nName: C, dtype: int64
    print(slice_df)
    # 输出:
    #    A  B
    # b  2  5
    # c  3  6
    
二、Pandas批量拆分与合并Excel文件

将一个大Excel等分,拆成多个Excel
将多个小Excel合并并标记来源文章来源地址https://www.toymoban.com/news/detail-528856.html

import pandas as pd

df_path = '/Users/python/Desktop/means/ml-25m/ratings.csv'
df_source = pd.read_csv(df_path)
df_source.head()

	userId	movieId	rating	timestamp
0	1	296	5.0	1147880044
1	1	306	3.5	1147868817
2	1	307	5.0	1147868828
3	1	665	5.0	1147878820
4	1	899	3.5	1147868510
df.index    查看索引信息  总共行数1000209
RangeIndex(start=0, stop=1000209, step=1)
df.shape    查看总的行列信息  总共10002094(1000209, 4)

获取总的行数信息
total_row_count = df.shape[0]
total_row_count

1000209
二、 将一个大的Excel 等分拆成多个Excel
计算拆分后每个excel的行数 (可能除不尽 取余 + 1)
user_names = ["zhangsan", "lisi", "wanger", 'mazi']
split_size = total_row_count // len(user_names)
if total_row_count % len(user_names) != 0:
    split_size += 1
拆分多个dataframe 

for idx, user_name in enumerate(user_names):
    begin = idx * split_size
    end = (idx + 1 ) * split_size    
    df_sub = df_source.iloc[begin:end]
    df_subs.append((idx, user_name, df_sub))
将多个datafame 写入csv

for idx, user_name, df_sub in df_subs:
    file_name = f'/Users/python/Desktop/means/ml-25m/ratings_{user_name}.csv'
    df_sub.to_csv(file_name, index=False)
三、 将多个Excel合并成一个大的Excel
1. 便利文件夹,得到要合并的Excel 文件列表
2. 分别去读到dataframe, 给每个df添加一列用于标记来源
3. 使用pd.concat 进行批量合并
4. 将合并到的dataframe 输入到excel
读取要合并的excel,并添加username 列

df_list = []
fnames = ['ratings_mazi.csv', 'ratings_zhangsan.csv', 'ratings_lisi.csv','ratings_wanger.csv','ratings_mazi.csv']
for fname in fnames:
    file_name = f'/Users/python/Desktop/means/ml-25m/{fname}'
    df_split = pd.read_csv(file_name)
    username = fname.replace("ratings_", '').replace(".csv", '')
    df_split['username'] = username
    df_list.append(df_split)
使用pd.concat 进行合并
df_merged = pd.concat(df_list)

df_merged.shape    查看总的行列信息    总共10002094列 
df_merged.head()   查看合并后的前几行信息

	userId	movieId	rating	timestamp	username
0	5109	508	3.0	840577637	mazi
1	5109	519	2.0	840577227	mazi
2	5109	524	2.0	840577346	mazi
3	5109	527	3.0	840576285	mazi
4	5109	529	3.0	840576680	mazi


df_merged['username'].value_counts() 查看username 的取值种类

username
mazi        500106
zhangsan    250053
lisi        250053
wanger      250053
Name: count, dtype: int64
将合并后的dataframe输入到excel中

df_merged.to_csv('/Users/python/Desktop/means/ml-25m/ratings_merged.csv', index=False)

到了这里,关于pandas(十七)批量拆分与合并Excel文件的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Pandas快速合并多张excel表格

    目录 一、Excel表格命名存在规律的情况下 二、Excel表格文件名不规律的情况下 1.首先将所有excel表格放到一个文件夹下面 2.用pandas进行合并 三、身份证号合并乱码解决 最近用Pandas合并表格,发现效率非常高,现总结以下两种方法: 对身份证号码合并的时候,会因为编码方式

    2024年02月08日
    浏览(45)
  • Python批量合并Excel表

    现收集到多个Excel表,需要对这些表进行汇总合并。但是这些Excel表并不规则,有不少空列,而且这些列名虽然一致,但是顺序各不相同,所以汇总起来并不是那么简单。单独的一个Excel表显示如下: Excel表 起初考虑用openpyxl,但是由于问题较为复杂,最后决定用os和pandas来解

    2024年02月14日
    浏览(42)
  • pandas数据分析40——读取 excel 合并单元格的表头

    案例背景 真的很容易疯....上班的单位的表格都是不同的人做的,所以就会出现各种合并单元格的情况,要知道我们用pandas读取数据最怕合并单元格了,因为没规律...可能前几列没合并,后面几列又合并了....而且pandas对于索引很严格,这种合并单元读取进来就是空的,还怎么

    2024年02月12日
    浏览(57)
  • QGIS根据excel中分类批量合并地类

    在QGIS中,可以使用Python编写代码来实现根据Excel中土地利用分类进行批量合并一些地类的操作。以下是示例代码: # 导入所需库 from qgis.core import QgsProject, QgsVectorLayer, QgsJoinLayerByFieldOptions # 设置图层路径和文件名 vector_layer_path = \\\'path_to_your_vector_layer.shp\\\'  # 替换为矢量图层的路

    2024年02月12日
    浏览(57)
  • 批量将excel中第5列中值大于500的行合并

    您可以使用Excel的筛选和合并功能来批量将第5列中值大于500的行合并。 以下是具体的操作步骤: 1. 打开Excel文件,定位到包含数据的工作表。 2. 选中整个工作表的范围,或者只选中需要筛选的列和行范围。 3. 在Excel菜单栏中选择\\\"数据\\\"选项卡。 4. 在\\\"排序与筛选\\\"区域中,点击

    2024年02月12日
    浏览(36)
  • Python 自动获取大批量excel数据并填写到网页表单(pandas;selenium)

    自动获取大批量excel数据并填写到网页表单 部分网页获取下拉列表点击的方式有所差异 这个请根据网页源码自做选择 一定要学会使用IPDB调试工具 太好用了!!!! 可能需要pip update一下 看提示 很好解决 没有报错最好啦 Python真是太好用了 办公利器啊!!!!

    2024年02月12日
    浏览(50)
  • 4种方法用Python批量实现多Excel多Sheet合并

    目录 方法一:使用pandas库 方法二:使用openpyxl库 方法三:使用xlrd和xlwt库 方法四:使用os和glob库 在数据处理中,经常需要将多个Excel文件中的多个工作表进行合并。以下介绍了4种方法,使用Python批量实现多Excel多Sheet的合并。 Pandas是Python中常用的数据处理库,提供了简便的

    2024年01月19日
    浏览(53)
  • 利用python将Excel文件拆分为多个CSV

    目录 一、准备工作 二、拆分Excel文件为多个CSV 1、读取Excel文件: 2、确定要拆分的列: 3、创建空的字典来存储CSV文件: 4、循环遍历数据并根据类别拆分: 5、打印或返回CSV文件名字典: 6、保存CSV到特定目录: 7、检查并清理临时文件: 总结与优化 使用Python拆分Excel文件是

    2024年01月21日
    浏览(50)
  • pandas输出excel文件

    源数据:2020数学建模国赛c题附件一 将附件一的企业代号进行数据处理后将其作为excel文件保存输出 若待处理数据为Series类型,需要添加如下代码先将其转换为DataFrame类型 输出结果 我们发现,pandas在处理数据时会自动加上一列行索引 ,若要删除,需要设定to_excel()的参数i

    2024年02月16日
    浏览(30)
  • 多个excel文件合并为一个excel

    Python openpyxl库实现将同一目录下的excel文件合并为一个excel功能(包含格式,不含宏),运行程序后,输入要生成的excel文件名称即可

    2024年02月16日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包