python读取word/pdf文档,指定文字内容和图片

这篇具有很好参考价值的文章主要介绍了python读取word/pdf文档,指定文字内容和图片。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

任务要求:

将每页需要的内容读取出来放到不同的文件夹,找出含有指定内容的页面创建文件夹,然后把相关的内容和图片放进去。


一 先将word转为PDF

pdf 读起来比较方便, 按页码读取文件:文章来源地址https://www.toymoban.com/news/detail-653455.html

import pdfplumber
from PIL import Image
import cv2
import numpy as np
import re
import os
import logging
import io


def create_folder(folder_name):
    if not os.path.exists(folder_name):
        os.makedirs(folder_name)


def CountPages(file_path):
    """
    根据编号创建文件夹
    :param file_path:
    :return:
    """
    with pdfplumber.open(file_path) as pdf:
        count = 0
        for page in pdf.pages:
            count += 1
            print(f"----------- 第{count}页 ----------- \n\n")

            text = page.extract_text()
            matches = re.findall(r'编号\s*(\S+)', text)

            if matches:
                for match in matches:
                    if '*' in match:
                        logging.warning(f'编号名称存在不能使用的字符,需要单独调整,Page {count}, 编号后面的内容: {match}')
                        folder_name = 'new_files/' + f'000 error Page_{count}'
                        # continue
                    else:
                        # folder_name = './new_files/' + match
                        folder_name = './new_files/' + f'{count}_' + match
                    create_folder(folder_name)

            images = page.images
            print(f'images: {images}')
            for i, img in enumerate(images):
                # x0, y0, x1, y1 = img["x0"], img["y0"], img["x1"], img["y1"]
                img_stream = img["stream"]

                # 从流中提取图像数据
                img_data = img_stream.get_data()

                # 使用数据创建新图像
                pil_img = Image.open(io.BytesIO(img_data))

                # 将图像保存为 JPG
                img_filename = f"{folder_name}/image_{count}_{i + 1}.jpg"
                pil_img.save(img_filename, format="JPEG")
                print(f"保存图像:{img_filename}")

        return count


"""
    1 需要先将文档转换为 pdf
    2 文件夹名称不要页码改 39 行
    3 编号最好不要出现 * 这种不能作为文件名的符号
    4 filePath 改文件路径
    5 保存文件在同级文件目录下
"""

# filePath = r"E:\11-normal_program\registration_card.pdf"
filePath = r"./registration_card.pdf"
CountPages(filePath)

到了这里,关于python读取word/pdf文档,指定文字内容和图片的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python-pdfplumber读取PDF所有内容并自行提取指定内容

    🌸 欢迎来到Python办公自动化专栏—Python处理办公问题,解放您的双手 🏳️‍🌈 博客主页:一晌小贪欢的博客主页 👍 该系列文章专栏:Python办公自动化专栏 文章作者技术和水平有限,如果文中出现错误,希望大家能指正🙏 ❤️ 欢迎各位佬关注! ❤️ 最近接到一个需求

    2024年02月15日
    浏览(27)
  • python实现图片式PDF转可搜索word文档[OCR](已打包exe文件)

    目录  1、介绍 1.1、痛点 1.2、程序介绍 2、安装方式 2.1、🔺必要环节 2.2、脚本安装 2.2.1、不太推荐的方式 2.2.2、节约内存的方式 2.3、⭐完整版安装 3、使用 3.1、最终文件目录 3.2、主程序 3.2.1、绝对路径 3.2.2、是否为书籍 3.2.3、⭐截取区域 3.2.4、⭐进程数 3.3、运行完成 3.4、

    2024年01月19日
    浏览(28)
  • java读取图片、PDF中图片上的文字

    提示:本文是基于tess4j 总是有一些与众不同的需求在等着研发人员去探索,本文介绍如何通过java读取图片上的文字。 说tess4j之前,先说说Tesseract,因为tess4j是基于它的封装。 Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之

    2024年02月09日
    浏览(47)
  • ios 实现PDF,Word,Excel等文档类型的读取与预览

    最近正在研发的项目有一个需求: 允许用户将iCloud中的文档上传,实现文件的流转。 以前接触的项目对于资料类的上传大多是仅限于图片与视频。对于文档类(PDF, Word, Excel, Text等), 因苹果的沙箱环境限制,想要读取文件是无法实现的。目前虽然可以支持选择文件,但只能通

    2024年02月06日
    浏览(23)
  • SpringBoot 项目使用 Elasticsearch 对 Word、Pdf 等文档内容的检索

    本文参考自:https://blog.csdn.net/Q54665642ljf/article/details/127701719 本文适用于 elasticsearch 入门小白,还请大佬能指出我的不足(本人其实也是刚学 elasticsearch 没多久) (1)为什么要有文本抽取插件? 对于 word 、 pdf 等文档类型的文件而言,它们文件底层的内容除了纯文本之外,还

    2024年02月16日
    浏览(26)
  • Word导出创建Adobe PDF其中emf图片公式马赛克化及文字缺失

    Word 2021 Visio 2019 Adobe Acrobat Pro 2020 公式马赛克化,是指在Word中使用MathType编辑的公式,然后在Visio中使用 图片(增强型图元文件) 形式得到的粘贴对象,效果如下 文字缺失,是指Word 导出 → 创建Adobe PDF → 创建Adobe PDF 获得的PDF文件中,原来的emf矢量图部分文字缺失,效果如下

    2024年02月11日
    浏览(30)
  • Java word文档转图片 || word转pdf两行代码搞定

    目录 一、首先引入我们需要的依赖。 二、准备一个word文档模板,使用{{}}定义我们需要填充的数据。 三、word文档动态数据填充转换图片demo示例 四、poi-tl(poi template language)Word模板引擎 五、把demo示例简化封装成Controller接口层 六、word文档生成动态数据转换成pdf 一、首先引

    2024年02月06日
    浏览(22)
  • PDF或图片文档内容识别、关系抽取

            自动识别法院和公积金中心的文书(调解书、判决书、裁定书、通知书)扫描件(PDF或图片),获取特定结构的数据,自动对比。抽取结构如: 执行 搭建label studio标记,标记完成后导出JSON。 Label Studio JSON转Doccano JSON 构造数据集 工具,命名为utils.py   训练  模型部

    2024年02月08日
    浏览(24)
  • java中pdfbox处理pdf常用方法(读取、写入、合并、拆分、写文字、写图片)

    方法代码: 测试用例: 2.1写文字 方法代码: 测试用例: A.pdf: A2.pdf: 2.2写图片 方法代码: 测试用例: A.pdf: pic.jpg: A2.pdf: 方法代码: 测试用例: 方法代码: 测试用例: 引用链接: (17条消息) 使用Apache PDFBox实现拆分、合并PDF_似有风中泣的博客-CSDN博客 (17条消息) Java使用P

    2024年02月11日
    浏览(81)
  • 【批量区域识别内容重命名】批量识别图片区域文字并重命名,批量图片部分识别内容重命文件,PDF区域识别提取重命名

    我们在工作和生活中经常遇到这样的需求:比如将以下的图片区域识别进行重命名,批量识别后改成以时间和工作内容重命名,便于日后检索,快速查询 首先我们拍摄照片用到的是水印相机,这里的文字呢我们需要加个背景,这样在文字识别就很容易的被识别,准确率也非常

    2024年04月25日
    浏览(21)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包