python办公自动化(6)——读取word文档

这篇具有很好参考价值的文章主要介绍了python办公自动化(6)——读取word文档。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、思路和基础知识

因为我们要进行文件相关的操作,所以需要在一开始使用import导入Python内置的os模块。

我们需要先获取该文件夹下所有的答题卡列表,再使用for循环遍历文件夹中所有学生的答题卡,以便之后逐个读取信息。
完成了第一个步骤,接下来,我们就需要在for循环里,依次获取每位学生的班级、姓名、学号、选择题分数和填空题分数。

面对总共三个班的学生,每位学生都有相对应的五条信息,我们应该如何在程序中存储这些数据呢?我们可以在for循环内,使用字典来存储每位学生的信息。在这个字典中,我们用5个键(key)值(value)对来分别存储学生的班级、姓名、学号、填空题成绩和选择题成绩。键的名称和对应数据如图所示。

确定使用字典来存储每个学生的数据后,我们可以在for循环外,使用一个列表来汇总存储所有学生的字典数据。如图所示:列表中的每个元素就是一个装了学生信息的字典。

# 使用import导入os模块
import os

# 将乔老师的答题卡文件夹路径 /Users/qiao/answerKey 赋值给变量allKeyPath
allKeyPath = "/Users/qiao/answerKey"
# 使用os.listdir()函数获取该路径下所有的文件,并赋值给变量allItems
allItems = os.listdir(allKeyPath)

# 定义一个空列表allStudentsData存储所有学生数据
allStudentsData = []

# 使用for循环逐个遍历所有学生答题卡
for item in allItems:
    # 定义一个空字典studentData存储单个学生数据
    studentData = {
   }
    
    # 使用os.path.splitext()函数获取文件名的前半段,并赋值给变量fileName
    fileName = os.path.splitext(item)[0]
    # 使用split()函数以"-"分隔文件名,将第1部分班级信息赋值到学生数据字典的classInfo键里
    studentData["classInfo"] = fileName.split("-")[0]
    # 使用split()函数以"-"分隔文件名,将第2部分姓名信息赋值到学生数据字典的name键里
    studentData["name"] = fileName.split("-")[1]

    # 使用append()函数将studentData添加到总学生数据allStudentsData中
    allStudentsData.append(studentData)
    
# 使用print输出变量allStudentsData
print(allStudentsData)

刚刚我们已经完成了前两步,现在我们来完成第三步:确定答题卡中要读取的信息位置。

在开始确定答题卡中要读取的信息位置前,我们需要先学习一下Word文档的基本结构。
一个Word文件就是一个Word文档(Document)。Word文档(Document)的基本组成单位是段落(Paragraph)。标题、目录、正文、图形、空行都是段落。每个段落之中的内容可以具有不同的样式(Style)。常见的样式有:字体、字形、字号、字体颜色、下划线、删除线、上标和下标等。连续具有相同样式的基本单元可称为一个样式块(run)。 例如,图中这一段话原本是同一个样式块。但在这个段落中加粗一个字,那么这个字就形成了一个样式块。并且这个加粗的字的左右两边都被切割成了新的样式块。这样这句话就变成了三个样式块。 没有任何内容的空行段落里没有样式块。段落里只要有内容就至少包含一个样式块。
python办公自动化(6)——读取word文档

除了段落外,Word文档中还能嵌入表格(Table)。表格和段落在Word文档中属于并列级别。也就是说表格不属于任何段落,我们不能够通过遍历段落来获取表格。

和Excel表格的结构很相似,Word文档中的表格也是由单元格(Cell)组成。 单元格中的内容可以包含段落和表格,相当于独自构成了一个完整的Word文档。

和Excel表格的结构很相似,Word文档中的表格也是由单元格(Cell)组成。 单元格中的内容可以包含段落和表格,相当于独自构成了一个完整的Word文档。

二、安装docx

要使用Python对Word文档进行读取,我们需要安装一个用于读取数据的工具python-docx。

python-docx是一个用于创建和更新Word文档的开源模块。需要注意的是,该模块只可读取、写入.docx文件,不支持.doc文件。

安装python-docx非常简单,在终端中输入代码:pip install python-docx即可。

如果在自己电脑上安装不上或安装缓慢,可在命令后添加如下配置进行加速:
pip install python-docx -i https://pypi.tuna.tsinghua.edu.cn/simple/

三、读取doc文档

在安装和导入python-docx之后,读取指定路径下的Word文档需要使用函数ÿ文章来源地址https://www.toymoban.com/news/detail-403366.html

到了这里,关于python办公自动化(6)——读取word文档的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 怎么从休学证明中取出休学原因(python自动化办公,涉及word和excel)

    本代码偏向处理高校教务处的工作 休学或请假模板如下: 需求说明: 代码如下: 重要知识点补充

    2024年02月07日
    浏览(51)
  • python从小白到大师-第一章Python应用(八)应用领域与常见包-自动化办公word

    目录 一.python-docx 二.pypiwin32 Python-docx是一个用于创建、修改和读取Microsoft Word文件(.docx)的Python库。它提供了一组丰富的功能,使开发人员能够使用Python生成自定义的Word文档。 以下是python-docx库的一些主要特点和功能: 创建和编辑Word文档:可以使用python-docx库创建新的Wor

    2024年02月21日
    浏览(37)
  • 100天精通Python丨办公效率篇 —— 12、Python自动化操作 office-word(word转pdf、转docx、段落、表格、标题、页面、格式)

    本文收录于 《100天精通Python专栏 - 快速入门到黑科技》专栏 ,是由 CSDN 内容合伙人丨全站排名 Top 4 的硬核博主 不吃西红柿 倾力打造。 基础知识篇以理论知识为主 ,旨在帮助没有语言基础的小伙伴,学习我整理成体系的精华知识,快速入门构建起知识框架; 黑科技应用篇

    2023年04月18日
    浏览(45)
  • Python操作Word:轻松实现文档的创建、编辑与自动化处理

    引言: 在日常工作和学习中,我们经常需要使用Microsoft Word来创建、编辑和处理文档。然而,手动操作Word可能会耗费大量的时间和精力。为了提高工作效率,我们可以使用Python编程语言来操作Word文档,实现文档的自动化处理。本文将详细介绍如何使用Python操作Word,包括创建

    2024年01月21日
    浏览(43)
  • Word、Excel、PPT题库——“办公自动化”

    小雅兰期末加油冲冲冲!!! 1. 【单选题】下列文件扩展名,不属于Word模板文件的是( A )。 A. .DOCX B. .DOTM C. .DOTX D. .DOT 本题的考查点是word基本知识的了解。     .DOCX:word文档。     .DOTM:启用宏的word模板。     .DOTX:word模板。     .DOT:word 97-2003模板。     故本题答案为

    2024年02月07日
    浏览(61)
  • python自动化操作:批量处理照片尺寸并输出到word文档中【第14篇—python-照片尺寸批量处理输出】

    在当今数字化时代,照片处理和文档编辑是许多领域中不可或缺的任务。从个人创作到企业文档,人们经常需要快速而有效地处理大量照片,并将它们整合到文档中。Python作为一种强大而灵活的编程语言,为自动化这一过程提供了理想的平台。 这篇文章将探讨如何使用Pytho

    2024年02月05日
    浏览(35)
  • [bat]0基础实现自动化办公-基于start实现一键打开常用软件/文档

    每次开机时,都要一个个打开常用软件,比如微信、QQ或是word文档、excel表格等程序,比较费时。 使用bat脚本中的start方法,通过将需要打开的程序或文件写入到bat脚本中,运行bat脚本从而实现一键批量打开常用软件。 通过前文已实现了新建一个可运行的bat脚本,现在我们只

    2024年01月19日
    浏览(48)
  • Python办公自动化 – 自动化清理数据和自动化系统命令

    以下是往期的文章目录,需要可以查看哦。 Python办公自动化 – Excel和Word的操作运用 Python办公自动化 – Python发送电子邮件和Outlook的集成 Python办公自动化 – 对PDF文档和PPT文档的处理 Python办公自动化 – 对Excel文档和数据库的操作运用、设置计划任务 Python办公自动化 – 对

    2024年02月01日
    浏览(43)
  • python实现办公自动化

    目录 一 python办公自动化所需类库 二 python操作excel文件 三 python自动发送邮件 四 python操作word文件 五 python操作PPT文件 一 python办公自动化所需类库 python操作excel、word、ppt所需库如下, 二 python操作excel文件 三 python自动发送邮件 四 python操作word文件 五 python操作PPT文件

    2024年02月05日
    浏览(42)
  • Python&Excel办公自动化

    操作工作簿 01 新建一个excel工作簿 02 批量新建多个工作簿 03 打开已有的工作簿 04 打开文件夹下的所有工作簿 05 重命名多个工作簿 06 批量修改工作簿格式 07 拆分一个工作簿变成多个新工作簿 08 将多个工作簿合并为一个工作簿 09 按照扩展名分类工作簿 10 按照日期分类工作簿

    2024年02月08日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包