【python】使用docx获取word文档的标题等级、大纲等级和编号等级

这篇具有很好参考价值的文章主要介绍了【python】使用docx获取word文档的标题等级、大纲等级和编号等级。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

标题等级、大纲等级、编号等级的区别

在Microsoft Word中:

  • 【标题X】是一个样式,一般来说,【标题1】样式的大纲级别是1级。
  • 大纲级别一般用于页面导航和生成目录。可以右键文字->段落里查看/设置大纲的级别。设置成【x级】后左侧导航栏就会显示。
  • 编号等级就是大家熟知的项目编号,常用于正文。

1、使用docx读取word文档

from docx import Document

source_path = "./test.docx"
docs = docx_Document(source_path)

基本没有一个python库能直接读取doc文档的,所以需要先把doc转化为docx文件,参考:【python】linux系统下doc转docx文件

2、使用docx获取word文档的标题 等级 样式

import re

for paragraph in docs.paragraphs:
    if paragraph and paragraph.text:
        # 获取xml源码
        xml = paragraph._p.xml
        # 进行xml源码字符匹配
        if xml.find('<w:outlineLvl') >= 0:
            start_index = xml.find('<w:outlineLvl')
            end_index = xml.find('>', start_index)
            outlineLvl_value = xml[start_index:end_index+1]
            outlineLvl_value = re.search("\d+", outlineLvl_value).group()
            print(f"文本:{paragraph.text}-->大纲等级:{outlineLvl_value}")

原理:
1、docx.Document()读取文档后会按照文章段落划分成一段一段的。
2、然后我们再获取每个段落的xml源码,即:xml = paragraph._p.xml。
3、源码中的<w:outlineLvl w:val=“2”/>就表示这是个3级大纲(因为是从0开始)。
4、接下来就好办了,就用字符串匹配把这个值提取出来就行了。

3、使用docx获取word文档的编号等级

原理和代码同上,只需要把outlineLvl改成ilvl即可。文章来源地址https://www.toymoban.com/news/detail-775197.html

到了这里,关于【python】使用docx获取word文档的标题等级、大纲等级和编号等级的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • vue 使用docx库生成word表格文档

            在Vue.js中生成Word表格文档,可以通过前端库来实现。这些库可以帮助我们轻松地将HTML表格转换为Word文档(通常是.docx格式)。以下是一些流行的前端库,它们可以用于在Vue项目中生成Word表格文档:                  docx是一个流行的JavaScript库,用于在浏览

    2024年02月21日
    浏览(41)
  • 使用OpenXML库替换docx文档(Word文档)中的特定字段

    在批量生成Word文档的应用中,最常见的需求莫过于替换掉文档中的特定字段以生成新的文档。利用OpenXML库可轻松实现这一需求。 首先放出最简单然而有bug的版本: 该版本的原理是遍历word文档中的每个段落,搜索段落中的每个文字字段对象,如果找到匹配的值就将其替换成

    2024年02月11日
    浏览(31)
  • 使用VBA将大纲级别定义良好的单个Word文档按指定的大纲样式分割成多个文档

    我们知道,大纲级别定义良好的 Word 文档可以轻松用 Edraw master 转换成思维导图。但是,对于一个极长的文档,例如一本教材,直接导入 Edraw master 转换后的思维导图,因为内容过多,仍然很难阅读。这时候,可以考虑分章节将长文档分割成一个一个小文档,再将小文档导入

    2024年02月12日
    浏览(32)
  • Python 实现 PDF 到 Word 文档的高效转换(DOC、DOCX)

    PDF(Portable Document Format)已成为一种广泛使用的电子文档格式。PDF的主要优势是跨平台,可以在不同设备上呈现一致的外观。然而,当我们需要对文件内容进行编辑或修改,直接编辑PDF文件会非常困难,而且效果也不理想。将PDF文件转换为Word文档(doc、docx)再进行编辑是一

    2024年02月03日
    浏览(39)
  • 【Python】导出docx格式Word文档中的文本、图片和附件等

    为批量批改学生在机房提交的实验报告,我需要对所有的实验文档内容进行处理。需要批量提取Word文档中的图片和附件以便进一步检查。如何提取?我想到了用起来比较方便的Python,经过试验,方案可行,故此记录。学生的作业主要是docx或者doc文档,学生把项目打成压缩包

    2024年02月07日
    浏览(31)
  • Node.js 使用 officecrypto-tool 读取加密的 Excel (xls, xlsx) 和 Word( docx)文档

    Node.js 使用 officecrypto-tool 读取加密的 Excel (xls, xlsx) 和 Word( docx)文档, 还支持 xlsx 和 docx 文件的加密(具体使用看文档)。暂时不支持doc文件的解密 传送门:officecrypto-tool 读取加密的 Excel 示例 读取加密的 Word 示例 使用:mammoth officecrypto-tool 使用其他的word读取库也是一样的道理

    2024年02月10日
    浏览(30)
  • 借助文档控件Aspose.Words,将 Word DOC/DOCX 转换为 TXT

    在文档处理领域,经常需要将 Word 文档转换为更简单的纯文本格式。无论是出于数据提取、内容分析还是兼容性原因,将 Word(.doc、.docx)文件转换为纯文本(.txt)的能力对于开发人员来说都是一项宝贵的技能。在这篇博文中,我们将探讨如何在 C# 应用程序中将 Word 文档转换

    2024年01月19日
    浏览(40)
  • Python获取豆丁文档数据内容, 保存word文档

    前言 嗨喽,大家好呀~这里是爱看美女的茜茜呐 开发环境: python 3.8 pycharm 模块使用: requests -- pip install requests re base64 docx -- pip install python-docx 第三方模块安装方法: win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源) 准备工作 在

    2024年02月13日
    浏览(45)
  • ppt技巧:如何将Word文档大纲中导入到幻灯片中?

    在PowerPoint中,将Word文档的大纲导入到新的幻灯片是一种非常实用的技巧。以下是详细的步骤: 首先,需要打开PowerPoint软件并打开原始的幻灯片文件。 在PowerPoint的顶部【开始】菜单栏中,找到并点击“新建幻灯片”按钮,选择下拉菜单。 在这个下拉菜单中,需要找到并点击

    2024年04月15日
    浏览(28)
  • 20230507使用python3批量转换DOCX文档为TXT

    20230507使用python3批量转换DOCX文档为TXT 2023/5/7 20:22 WIN10使用python3.11 # – coding: gbk – import os from pdf2docx import Converter from win32com import client as wc \\\"\\\"\\\"这里需要安转包pywin32com\\\"\\\"\\\" # 读取pdf文件文本内容 def DocxToTxt(inputFinallyPath, outputFinallyPath):     wordhandle = wc.Dispatch(\\\"Word.Application\\\")    

    2024年02月13日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包