pandas中DataFrame数据合并、连接

这篇具有很好参考价值的文章主要介绍了pandas中DataFrame数据合并、连接。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

为解决数据冗余等问题，大量的数据会分开存放在不同的文件（表格）里。在数据处理时，经常会有不同表格的数据需要进行合并操作。可以通过pandas库的merge函数和concat函数来实现数据集的合并。

1、DataFrame数据合并—merge()

1.1 简介：连接行，列数增加

根据一个或多个键将不同DataFrame中的行连接起来。

说明：类似于关系数据库的连接(join)操作、excel的vlookup

应用场景：

针对同一个主键存在两张包含不同字段的表，现在想把他们整合到一张表里。

在此典型情况下，结果集的行数并没有增加，列数则为两个元数据的列数和减去连接键的数量

例：

原有的两个DataFrame，分别为：df1；df2

dataframe合并,pandas学习笔记,pandas,数据分析,python,Powered by 金山文档

合并后：按指定的键连接，列数增加，去掉了多余的键

1.2 格式

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,left_index=False, right_index=False, sort=True,suffixes=('_x', '_y'), copy=True, indicator=False)

1.3 按指定的键连接

1.4 按索引连接

1.5 按多个键连接

结果：

1.6 参数说明

on=None 用于指定用于连接的列名（键名），如果该列在两个对象上的列名不同，则可以通过 left_on=None, right_on=None 来分别指定。

例：

或者想直接使用行索引作为连接键的话，就将 left_index=False, right_index=False 设为 True

例：

how='inner' 参数指的是当左右两个对象中存在不重合的键时，取结果的方式：inner 代表交集；outer 代表并集；left 和 right 分别为取一边。

例：

inner和outer分别取交集和并集

left和right分别以一边为参考合并

suffixes=(‘_x’,‘_y’) 指的是当左右对象中存在除连接键外相同列名时，结果集中的区分方式，可各加一个小尾巴。

注：对于多对多连接，结果采用的是行的笛卡尔积。

2、DataFrame数据连接—concat()

2.1 简介：连接列，行数增加

可以沿着一条轴将多个对象堆叠到一起，concat函数相当于数据库中的全连接(UNION ALL)

可以指定按某个轴进行连接，也可以指定连接的方式join(outer,inner 只有这两种)。

与数据库不同的是concat不会去重，要达到去重的效果可以使用drop_duplicates方法

2.2 格式

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,keys=None, levels=None, names=None, verify_integrity=False,copy=True)

2.3 参数说明

轴向连接 pd.concat() 就是单纯地把两个表拼在一起，这个过程也被称作连接（concatenation）、绑定（binding）或堆叠（stacking）。

因此可以想见，这个函数的关键参数应该是 axis，用于指定连接的轴向。

在默认的 axis=0 情况下：

pd.concat([obj1,obj2]) 函数的效果与obj1.append(obj2) 是相同的，即obj1行与obj2行的叠加；

在 axis=1 的情况下：

pd.concat([df1,df2],axis=1)和pd.merge(df1,df2,left_index=True,right_index=True,how='outer')的效果是相同的，即两个DataFrame数据的按照索引进行列的链接。文章来源地址https://www.toymoban.com/news/detail-612946.html