当前目录下的excel文件的两列内容的相似度比较

这篇具有很好参考价值的文章主要介绍了当前目录下的excel文件的两列内容的相似度比较。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

# -- coding: utf-8 --**
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
import pandas as pd
import os

# 获取当前目录
current_dir = os.getcwd()

# 获取当前目录下所有xlsx文件名
xlsx_files = [file for file in os.listdir(current_dir) if file.endswith(".xlsx")]
# 打印xlsx文件名
for file in xlsx_files:
print(file)
# 读取Excel文件
excel_file = file
data = pd.read_excel(excel_file)
# 提取第3列和第5列的值
column3_values = data.iloc[:, 1] # 第3列的值
column5_values = data.iloc[:, 3] # 第5列的值

# 打印提取的值
print("第3列的值:")
print(column3_values)

print("\n第5列的值:")
print(column5_values)

print(len(column3_values))
print(len(column5_values))
#
res=[]
# # 两段话
for i in range(len(column3_values)):
# 创建计数向量器
vectorizer = CountVectorizer().fit_transform([column3_values[i], column5_values[i]])
# 计算余弦相似度
cosine_sim = cosine_similarity(vectorizer)

# 提取余弦相似度值
similarity_value = cosine_sim[0][1]
if similarity_value>0.3:
res.append("正确")
elif similarity_value>0.05 and similarity_value<0.3:
res.append("部分正确")
else:
res.append("错误")
# res.append(similarity_value)

print("两段话的余弦相似度:", similarity_value)


# 指定txt文件名
txt_file =excel_file.replace(".xlsx","")+".txt"

# 将列表逐行写入txt文件
with open(txt_file, 'w') as f:
for item in res:
f.write("%s\n" % item)

print("内容已写入到", txt_file)文章来源地址https://www.toymoban.com/news/detail-669173.html

到了这里,关于当前目录下的excel文件的两列内容的相似度比较的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • NodeJS获取当前目录、运行文件所在目录、运行文件的上级目录

    参考链接: NodeJS获取当前目录和运行文件所在目录 node如何获取当前文件的上级目录路径?

    2024年02月16日
    浏览(37)
  • python获取当前文件下的所有文件名

    运行效果图

    2024年02月12日
    浏览(41)
  • linux查看当前目录及子目录所有文件

    1.查看当前目录及子目录所有文件: du -ah 执行结果如下: 2.查看当前目录及子目录所有文件,并根据大小排序: du -a | sort -n 执行结果如下:(单位:字节) 整理完毕,完结撒花~

    2024年02月16日
    浏览(34)
  • Linux查看目录下的文件及根目录文件的解释

    在Linux操作系统当中,文件名不区分后缀,但经常使用后缀来帮助用户区分文件。 语法结构:ls 路径 列出指定目录下的内容,该命令在没有指定要列出哪个选项和参数的时候,默认为列出当前目录下的内容,一本都有默认的(注:默认的情况下不区分文件和目录,注意,在

    2024年02月09日
    浏览(63)
  • Excel如何把两列互换

    第一步:选择一列 打开excel,选中一列后将鼠标放在列后,让箭头变成十字方向。   第二步:选择Shift键 按住键盘上的Shift键,将列往后移动变成图示样。   第三步:选择互换 完成上述操作后,松开鼠标两列互换。  

    2024年02月14日
    浏览(36)
  • Python获取当前目录下所有文件的六种方法

    这段代码中, os.listdir() 方法返回的是一个列表,因为获取的是文件名,而不是文件路径。如果需要获取文件路径,可以使用 os.path.join() 方法将列表中的文件名拼接成一个完整的路径。 这段代码中, os.getcwd() 返回当前工作目录, glob.glob() 函数用于获取指定目录下所有文件,

    2024年02月12日
    浏览(46)
  • Linux查看当前目录下各文件所占空间

    要查看当前目录下各文件所占空间,可以使用du命令(磁盘使用情况)配合sort命令来实现。以下是在Linux系统中执行的命令: 解释一下这个命令: du -sh * :计算当前目录下每个文件和目录的总大小,并以易读的方式显示(例如以KB、MB、GB为单位)。 sort -hr :将du命令的输出进

    2024年02月13日
    浏览(43)
  • excel中两列数据生成折线图

    WPS中excel的两列数据,第一列为x轴,第二列为y轴,生成折线图,并生成拟合函数。 1.选中两列数据,右击选择插入图表,选择XY(散点图),生成散点折线图  2.选中图中散点,右击选择添加趋势线,界面右边的趋势线选择显示公式  

    2024年02月11日
    浏览(33)
  • excel两列数据绘制单折线图表

    有关excel的两列数据绘制出一张折线图或柱状图的方法。要求两列数据分别成为图表的横坐标和纵坐标。 首先,打开excel软件,输入数据(以下为范例,大家根据实际输入) 接着 选中将作为图表纵坐标的数据。 选择插入图表,选择折线图。 软件自动生成了图表。 可以发现,

    2024年02月16日
    浏览(36)
  • 撤销Excel文件工作表保护的两种方法

    Excel的工作表保护,是保护excel文件的数据不被轻易修改,也就是说我们编辑excel文件受到了限制。设置了工作表保护还体现在不能粘贴复制excel内容、不能打印excel文件等。 平时我们除了自己给excel文件设置工作表保护,有时候在网上下载来的excel文件也有可能设置了工作表保

    2024年02月12日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包