python提取word文本和word图片

这篇具有很好参考价值的文章主要介绍了python提取word文本和word图片。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

import docx # pip3 install python-docx
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片文章来源地址https://www.toymoban.com/news/detail-698334.html

import zipfile
import os, re
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')

到了这里,关于python提取word文本和word图片的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 利用python工具提取多个word中的图片和表格

    由于工作因素,经常要对多个文档内容进行查重,文字类可以借助查重工具辅助,但图片和表格只能依靠鼠标滚轮还有笔者的打工眼。久而久之,眼睛废了,肩颈也吃不消了(-.-)。于是乎,就想用脚本批量导出,从而提高效率。 笔者非软件专业,所以只能请ChatGPT当导师了

    2024年02月08日
    浏览(47)
  • Python自动处理pptx:新建、另存、添加幻灯片、添加标题、插入文本图片图形、提取文本

    Python-pptx库是一个用于创建、更新和读取Microsoft PowerPoint .pptx 文件的Python库。它允许我们使用Python脚本自动化PowerPoint文件的创建、更新和读取操作,是一个非常方便自动化处理PPTX的工具。 https://python-pptx.readthedocs.io/en/latest/index.html

    2024年02月08日
    浏览(56)
  • 【Python】导出docx格式Word文档中的文本、图片和附件等

    为批量批改学生在机房提交的实验报告,我需要对所有的实验文档内容进行处理。需要批量提取Word文档中的图片和附件以便进一步检查。如何提取?我想到了用起来比较方便的Python,经过试验,方案可行,故此记录。学生的作业主要是docx或者doc文档,学生把项目打成压缩包

    2024年02月07日
    浏览(52)
  • C# 提取PDF中指定文本、图片的坐标

    获取 PDF 文件中文字或图片的坐标可以实现精确定位,这对于快速提取指定区域的元素,以及在 PDF 中添加注释、标记或自动盖章等操作非常有用。本文将详解如何使用国产 PDF 库 通过 C# 提取 PDF 中指定文本或图片的坐标位置( X, Y 轴) 。 ✍ 用于操作PDF文件的第三方库为 S

    2024年02月04日
    浏览(46)
  • Java poi之Excel文本图片内容提取

    应公司需求,需实现以下功能 Excel文本内容的替换; Excel文本内容的提取; Excel中图片的提取存放 此文章将使用Apache POI实现Excel文件中文本内容及图片的提取; Apache POI 是基于 Office Open XML 标准(OOXML)和 Microsoft 的 OLE 2 复合文档格式(OLE2)处理各种文件格式的开源项目。

    2024年02月05日
    浏览(82)
  • java 使用POI-TL根据word模版,生成word文件,含图片,富文本。

    1.引入mavna坐标` 2 .poi-tl-ext插件主要用于富文本内容格式在word展现 3.word模版创建 3.具体代码实现 4.本文的miniourl路径实质为网络路径的文件。

    2024年02月16日
    浏览(67)
  • 使用poi-tl向word插入图片、文本、表格行循环

    工作中难免会向word中操作数据,本文主要介绍poi-tl的使用,先来看效果图 核心介绍: 标签 1、插入文本标签 : {{var}} 2、插入图片标签: {{@var}} 操作步骤: 1、引入依赖 2、Java核心代码 官方网址:http://deepoove.com/poi-tl/ 1、准备模版,定义好需要的标签 2、查询模版 3、获取需要填

    2024年02月05日
    浏览(119)
  • java实现word导入导出富文本(含图片)-附完整测试用例

    1、解决富文本导入导出依赖兼容问题 2、处理富文本和非富文本内容 3、解决webp格式通过java下载不了问题,如果要用到富文本导出,将来势必是会碰到的bug,这里提前给提出来并解决,测试用例中有给图片测试。 4、在原有方法上优化,比如处理等比缩小图片、将图片本地路

    2024年02月03日
    浏览(53)
  • Python和VBA批量提取Word中的表格

    表格在word文档中常见的文档元素之一。操作word文件时有时需要提取文件中多个表格的内容到一个新的文件,甚至有时还会要提取题注信息。 今天,给大家分享两种批量提取文档中表格的两种方法,分别是VBA法和Python法两种。 1. 代码实现 VBA(Visual Basic for Applications)操作Wo

    2024年02月19日
    浏览(60)
  • Python从图像中提取文本及其坐标

    Python从图像中提取文本及其坐标 在数字化时代,文本数据已经成为人们生活和工作中重要的数据形式。有时候我们需要从图片中提取文字信息,这就要用到Python编程语言中OCR技术的应用了。本文将介绍如何使用Python从图片中提取文字,同时提供完整的源代码。 首先,我们需

    2024年02月14日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包