使用Pandas计算两个系统客户名称的相似度

这篇具有很好参考价值的文章主要介绍了使用Pandas计算两个系统客户名称的相似度。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

使用Pandas计算两个系统客户名称的相似度,pandas,pandas


引言:

在日常业务处理中,我们经常会面临将不同系统中的数据进行匹配和比对的情况。特别是在涉及到客户管理的领域,我们需要确保两个系统中的客户记录是准确、一致和无重复的。

本文将介绍如何使用Python的Pandas库来处理这个问题。我们将以一个示例情景为例,假设我们有一个MR系统和一个客户系统,这两个系统都有一个客户ID和客户名称的列。我们的目标是根据客户ID匹配后,计算两列客户名称的相似度。

步骤1:导入必要的库

首先,我们需要导入必要的库。除了Pandas库,我们还将使用fuzzywuzzy库来计算字符串相似度。

import pandas as pd
from fuzzywuzzy import fuzz

步骤2:创建示例数据集

为了演示我们的方法,让我们创建一个简单的示例数据集。假设我们有一个包含MR系统客户信息的DataFrame,其中包括客户ID和客户姓名的列。同样地,我们还有一个包含客户系统客户信息的DataFrame,其中也包括客户ID和客户姓名的列。

mr_system = pd.DataFrame({
    '客户ID': ['1001', '1002', '1003', '1004', '1005'],
    '客户姓名': ['中国电信', '中石油股份有限公司', '中国工商银行', '阿里巴巴集团', '腾讯控股有限公司']
})

customer_system = pd.DataFrame({
    '客户ID': ['1001', '1002', '1003', '1004', '1005'],
    '客户姓名': ['中国电信通信集团', '中石化石油化工集团', '中国建设银行股份有限公司', '京东集团有限公司', '百度在线网络技术']
})

步骤3:数据匹配和相似度计算

现在,我们将根据客户ID将这两个数据集进行匹配,并计算两列客户名称的相似度。我们可以使用Pandas的merge()方法来合并两个数据集,并根据客户ID进行匹配。

matched_data = pd.merge(mr_system, customer_system, on='客户ID')

然后,我们可以使用fuzzywuzzy库的fuzz.ratio()方法来计算两列客户名称的相似度。该方法返回一个介于0到100之间的分数,表示两个字符串的相似程度。

matched_data['相似度'] = matched_data.apply(lambda row: fuzz.ratio(row['客户姓名_x'], row['客户姓名_y']), axis=1)

步骤4:结果展示

最后,我们可以打印出匹配后的数据和相似度结果。

print(matched_data[['客户ID', '客户姓名_x', '客户姓名_y', '相似度']])

结果示例:

	客户ID	客户姓名_x	客户姓名_y	相似度
0	1001	中国电信	中国电信通信集团	67
1	1002	中石油股份有限公司	中石化石油化工集团	33
2	1003	中国工商银行	中国建设银行股份有限公司	44
3	1004	阿里巴巴集团	京东集团有限公司	29
4	1005	腾讯控股有限公司	百度在线网络技术	0

步骤5:查询相似度大于40的客户

matched_data.loc[matched_data.相似度 > 40]

输出:

	客户ID	客户姓名_x	客户姓名_y	相似度
0	1001	中国电信	中国电信通信集团	67
2	1003	中国工商银行	中国建设银行股份有限公司	44

结论:

通过使用Pandas库和字符串相似度算法,我们可以方便地计算两个系统中客户名称的相似度。这有助于我们发现和处理重复或相似的客户记录,提高数据的准确性和

🚀💻 欢迎一起探索pandas的更多精彩博客!🌟
🔗1️⃣ Pandas特殊连接:模糊连接和有序变量表连接!
🔗2️⃣ pandas特征工程:线性变换
🔗3️⃣ Pandsa时间序列采样频率滑窗及重采样
🔗4️⃣ Pandas 日期处理:生成及去除工作日与节假日
🔗5️⃣ Python音频处理——pydub
🔗6️⃣Python使用XPath解析HTML:从入门到精通
🔗7️⃣Pandas:客户数据清洗

一起来学习吧!😄🎉 #编程 #CSDN #Python #Pandas #Astropy #Pydub 🎓💡🎯文章来源地址https://www.toymoban.com/news/detail-591667.html

到了这里,关于使用Pandas计算两个系统客户名称的相似度的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 计算两个向量的余弦相似度

    余弦相似度是判断两个向量相似度常用的算法,我在做行人重识别的时候,用到了余弦相似度的算法,记录一下。 余弦相似度算法:一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小,余弦值接近1,夹角趋于0,表明两个向量越相似,余弦值接近于

    2024年02月03日
    浏览(37)
  • Java 计算两个字符的相似度

    在Java中,要计算两个字符的相似度,可以借助一些字符串相似度算法。以下是几种常见的字符串相似度算法: Levenshtein距离:也称为编辑距离,用于计算两个字符串之间的最小编辑操作次数(插入、删除、替换)来转换一个字符串为另一个字符串。编辑距离越小,表示两个字

    2024年02月05日
    浏览(35)
  • Pandas实战100例 | 案例 25: 计算相关系数

    案例 25: 计算相关系数 知识点讲解 在统计分析中,了解变量之间的关系是非常重要的。相关系数是衡量变量之间线性相关程度的一种方法。Pandas 提供了 corr 方法来计算列之间的相关系数。 相关系数 : 相关系数的值范围在 -1 到 1 之间。接近 1 表示正相关,接近 -1 表示负相关

    2024年01月21日
    浏览(30)
  • Pandas实战100例 | 案例 70: 分组后计算排名

    案例 70: 分组后计算排名 知识点讲解 在数据分析中,我们经常需要在分组基础上进行排名。Pandas 允许在对数据分组后,对每个分组内的数据进行排名。 分组后计算排名 : 使用 groupby 方法创建分组,然后对每个组应用 rank 方法来计算排名。这可以为每个组内的元素分配一个基

    2024年01月17日
    浏览(33)
  • python 计算均值、方差、标准差 Numpy,Pandas

    Python 中的 numpy 包 和 pandas 包都能够计算均值、方差等,本文总结一下它们的用法。 #1. Numpy 计算均值、方差、标准差 一般的均值可以用 numpy 中的 mean 方法求得: numpy 中的 average 方法不仅能求得简单平均数,也可以求出加权平均数。average 里面可以跟一个 weights 参数,里面是

    2024年02月08日
    浏览(31)
  • ChatGPT 拓展资料:AI大模型之美 -计算两个向量之间的余弦相似度

    ChatGPT 拓展资料:AI大模型之美 -计算两个向量之间的余弦相似度 本文讲解使用openai.embeddings_utils中的cosine_similarity和get_embedding函数。 首先,让我们了解一下这两个函数的作用: cosine_similarity: 计算两个向量之间的余弦相似度。 get_embedding: 获取一个单词或短语的嵌入向量表示。

    2023年04月23日
    浏览(42)
  • 【pandas使用技巧】pandas中空值的处理方法

    在pandas中,可以使用fillna()方法对DataFrame中的空值进行处理。fillna()方法可以接受一个参数,用于指定如何填充空值。以下是一些常用的填充方式: 使用固定值填充:fillna(value) 使用前一个非空值填充:fillna(method=‘ffill’) 使用后一个非空值填充:fillna(method=‘bfill’) 使用平均

    2024年02月15日
    浏览(36)
  • pandas进行数据计算时如何处理空值的问题?

    目录 1.数据预览: 2.解决方法 (1)问题示例 (2)方法 A.方法一 B.方法二 如下图如果不理睬这些空值的话,计算总分便也会是空值 A.方法一 我们可以利用fillna(0)将空值填充为零再进行计算 B.方法二 利用灵活算数法中的fill_value参数将空值填充为零 方法 描述 add 加法 sub 减法

    2024年01月18日
    浏览(29)
  • 【pandas使用技巧】如何用pandas拼接excel的多个sheet

    加入excel文件有多个sheet,同时sheet的表头都一致,可使用pandas库中的concat()方法将多个sheet拼接成一个DataFrame,栗子如下: 在代码中,使用pd.read_excel()方法读取Excel文件中的所有sheet,返回一个字典类型的对象,其中键为sheet名,值为DataFrame。然后使用pd.concat()方法将所有DataF

    2024年02月14日
    浏览(29)
  • 《Python数据分析技术栈》第06章使用 Pandas 准备数据 01 Pandas概览(Pandas at a glance)

    《Python数据分析技术栈》第06章使用 Pandas 准备数据 01 Pandas概览(Pandas at a glance) Wes McKinney developed the Pandas library in 2008. The name (Pandas) comes from the term “Panel Data” used in econometrics for analyzing time-series data. Pandas has many features, listed in the following, that make it a popular tool for data wrang

    2024年01月23日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包