怎么从休学证明中取出休学原因(python自动化办公,涉及word和excel)

这篇具有很好参考价值的文章主要介绍了怎么从休学证明中取出休学原因(python自动化办公,涉及word和excel)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

怎么从休学证明中取出休学原因(python自动化办公,涉及word和excel)

本代码偏向处理高校教务处的工作

休学或请假模板如下:

                                         休学证明(此联存教务办)
                                            编号:休202323
计算机系23级计算机科学与技术本科专业学生5-StarrySky,不男不女,因自身原因,从2023年9月至2027年9
月休学。复学时持复学申请和休学证明及休学期间所在单位开具的无违法乱纪行为证明办理复学手续。复学
后编入2027级同专业就读。若逾期两周不办理复学手续,将做自动退学处理。
                                          CSDN大学教务办
2023年11月12日

需求说明:

1.首先从excel中取出需要休学的姓名
2.然后利用得到姓名去word文件进行匹配
3.最后通过观察发现,休学原因,在'因'和','之间,所以我们这样去取我们想要的数据

代码如下:

		import re
    	# 从表格文件中提取姓名数据
        table_data = pd.read_excel("休学名单.xls")
        # names = table_data["XM"]


        # 从表格文件中提取姓名数据
        names = table_data["XM"]

        # 提取 Word 文档中的文本
        text = docx2txt.process("休学证明.docx")

        # 创建一个字典来存储姓名和对应的请假原因
        name_reason_dict = {}

        for name in names:
            found = False
            reason = None
            # 在提取的文本中搜索姓名
            if name in text:
                # 查找姓名出现的最后一次位置
                name_position = max([m.start() for m in re.finditer(name, text)])
                # 查找 "因" 和截取到 "," 之前的文本
                match = re.search(r'因(.*?),', text[name_position:])
                if match:
                    reason = match.group(1)
                    found = True
            if found:
                # 使用姓名作为键,保存最后一个匹配到的原因
                name_reason_dict[name] = reason

        # 打印姓名和对应的请假原因
        for name, reason in name_reason_dict.items():
            print(f"姓名: {name}, 请假原因: {reason}")
        df = DataFrame(list(name_reason_dict.items()), columns=['XM', 'XXYY'])
        df.to_excel("休学证明.xlsx")

重要知识点补充文章来源地址https://www.toymoban.com/news/detail-734410.html

docx2txt:
将docx文件转换为txt格式的模块
能够直接读取docx文档并将其中的文本部分剥离出来的简单工具

re.finditer:
和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。
参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。参见:正则表达式修饰符 - 可选标志
* 字符匹配
实例	描述
python	匹配 "python" 参考网址:https://www.runoob.com/python/python-reg-expressions.html

max([m.start() for m in re.finditer(name, text)])
这行代码是使用 Python 的正则表达式模块(re)来在文本字符串 text 中查找所有匹配 name 的位置,并返回其中最
大的位置。
具体解释如下:
re.finditer(name, text):这部分使用 re.finditer() 函数来查找在 text 中所有匹配 name 的位置。finditer() 返回一个迭
代器,迭代器的每个元素是一个包含匹配的相关信息的 Match 对象。
[m.start() for m in ...]:这部分是一个列表推导式,它遍历 re.finditer() 返回的 Match 对象列表,对于每个 Match 对
象 m,取其匹配的开始位置 m.start()。
max([...]):最后,max() 函数用来从位置列表中找到最大的位置。

match = re.search(r'因(.*?),', text[name_position:])
这行代码使用正则表达式来搜索文本中以指定字符串 "因" 开头并以逗号 "," 结尾的文本段。
具体解释如下:
re.search(pattern, text):这部分使用 re.search() 函数来在文本字符串 text 中搜索与正则表达式 pattern 匹配的部
分。pattern 是正则表达式模式,text 是要搜索的文本。
r'因(.*?),':这是正则表达式模式。它的含义是:
因:匹配字面字符串 "因"。
(.*?):这是一个非贪婪捕获组,它会匹配任意字符(.)零次或多次(*),使匹配最短(非贪婪)。
,:匹配字面字符串 ","。
text[name_position:]:这部分是对 text 字符串的切片操作,从 name_position 位置开始提取子字符串。

list(name_reason_dict.items()): 这部分将字典 name_reason_dict 中的键值对转换为一个列表,其中每个元素是一个
元组,元组的第一个元素是姓名 'XM',第二个元素是请假原因 'XXYY'。这个列表看起来像下面这样
[('姓名1', '请假原因1'), ('姓名2', '请假原因2'), ('姓名3', '请假原因3'), ...]
columns=['XM', 'XXYY']: 这是在创建 DataFrame 时指定的列名。DataFrame 的第一列将命名为 'XM',第二列将命
名为 'XXYY',这与字典中的键对应。所以,在 DataFrame 中,第一列将包含姓名,第二列将包含请假原因。

match 是一个 Python 正则表达式匹配对象,它包含了与正则表达式匹配的文本的详细信息。
reason = match.group(1):用于从正则表达式匹配中获取文本中的具体部分。在这个特定的情况下,match 对象表
示一个成功的正则表达式匹配,group(1) 用于提取匹配中的第一个捕获组(通常由括号包围的部分)。在你的情况
下,正则表达式是 '因(.*?),',其中 (.*?) 表示一个捕获组,它将匹配 "因" 和 "," 之间的任何文本。
参考链接:https://blog.csdn.net/m0_37360684/article/details/84140403

到了这里,关于怎么从休学证明中取出休学原因(python自动化办公,涉及word和excel)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 自动化方案不合理的原因浅析

    前言 一直以来,测试团队都面临一个迫在眉睫的问题:自动化测试收效甚微,甚至被认为是”为了实现自动化而自动化“。之前写过一篇博客自动化测试的评价维度,其实自动化的评价不乏有其他的评价指标。但这里想说的一点是,自动化方案产出低的一个重要原因是自动化

    2024年02月10日
    浏览(27)
  • Python自动化测试怎么去学习?熬夜7天整理出这一份3000字学习指南!

    Python用于简单脚本编程,如编写2048小游戏或12306的自动抢票软件; Python用于系统编程,如开发系统应用; Python用于开发网络爬虫; 网络爬虫的用途是进行数据采集,也就是将互联网中的数据采集过来。网络爬虫的难点其实并不在于爬虫本身,由于网站方为了避免被爬取回采

    2024年01月22日
    浏览(23)
  • Python 自动化测试框架环境怎么搭建?这篇文章给你讲的明明白白

    目录 Python 自动化测试框架环境搭建 第一步:安装 Python 第二步:安装 PyCharm 第三步:安装 Selenium WebDriver 第四步:安装浏览器驱动 第五步:创建测试用例 第六步:集成持续集成平台 总结 Python 是一种流行的编程语言,可以用于多种应用场景,包括自动化测试。本文将介绍如

    2023年04月12日
    浏览(33)
  • 使用SaleSmartly自动化流程的 5 个原因

    想象一下,如果您可以采用智能数字解决方案来减轻团队和公司的手动和重复业务流程负担。它可以帮助您节省时间、提高公司的底线、消除冗余并增强数据管理。SaleSmartly(ss客服)就是这样。 通过利用自动化的力量,SaleSmartly(ss客服)可以帮您的客服从重复性工作、复制

    2024年02月03日
    浏览(29)
  • 报错原因:Traceback (most recent call last): File "D:/03.进阶python实验/08.复习进阶python/第十二节/01.自动化查询学习成绩.py"...

    这个错误表明,Selenium在执行你的代码时遇到了一个错误。更具体地,当Selenium试图通过调用 send_keys 方法在一个HTML元素中输入文本时,遇到了一个\\\"ElementNotInteractableException\\\"错误。 这意味着,HTML元素在当前的页面上不可交互。可能的原因包括: 元素在当前页面上不存在 元素

    2024年02月12日
    浏览(23)
  • 在 CI/CD流水线中运行自动化单元测试的4个原因

    目录 什么是单元测试? C#中的单元测试示例 我需要在CI/CD 流水线中运行自动化测试吗? 开发人员代码验证反馈循环 预验证 步步为营 减少“另一个开发人员写了这段代码”的问题 单元测试 什么是单元测试? 单元测试是一小段代码,用于测试应用程序编写的代码的逻辑。单

    2024年02月16日
    浏览(56)
  • Web自动化测试怎么做?Web自动化测试的详细流程和步骤

    自动化(Automation)是指机器设备、系统或过程(生产、管理过程)在没有人或较少人的直接参与下,按照人的要求,经过自动检测、信息处理、分析判断、操纵控制,实现预期的目标的过程。 这是教科书里面的自动化的定义,回归到自动化测试其实自动化测试就是什么呢?

    2024年02月02日
    浏览(31)
  • Selenium浏览器自动化怎么上传文件

    Selenium 封装了现成的文件上传操作。但是随着现代前端框架的发展,文件上传的方式越来越多样。而有一些文件上传的控件,要做自动化控制会更复杂一些,这篇文章主要讨论在复杂情况下,如何通过自动化完成文件上传。 如果页面需要文件上传,那么在大多数情况下,都能

    2024年02月08日
    浏览(35)
  • 软件测试面试题——接口自动化测试怎么做?

    面试过程中,也问了该问题,以下是自己的回答: 接口自动化测试,之前做过,第一个版本是用jmeter 做的,1 主要是将P0级别的功能接口梳理出来,根据业务流抓包获取相关接口,并在jmeter中跑通,2 是整理了项目上的所有接口,先将单个接口跑通,然后再编写不同的接口用

    2024年02月14日
    浏览(46)
  • Selenium自动化程序被检测为爬虫,怎么屏蔽和绕过

    使用selenium自动化网页时,有一定的概率会被目标网站识别,一旦被检测到,目标网站会拦截该客户端做出的网页操作。 比如淘宝和大众点评的登录页,当手工打开浏览器,输入用户名和密码时,是能正常进入首页的,但是如果是通过selenium打开, 会直接提示验证失败,点击

    2024年02月16日
    浏览(26)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包