python提取pdf文件中的图片并输出到本地

1年前作者：淮北枳丶分类：Toy博客阅读(8)违法举报

这篇具有很好参考价值的文章主要介绍了python提取pdf文件中的图片并输出到本地。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

import fitz
import os
from PIL import Image

path1 = "D:/桌面/xxxxxx.pdf"
path2 = "D:/桌面/111"

def pdf2image1(path1, path2):

    pdfDoc = fitz.open(path1)
    for pg in range(pdfDoc.page_count):
        page = pdfDoc.load_page(pg)

        # 获取页面的图像对象
        # matrix = fitz.Matrix(1.0, 1.0)  # 1.0 表示原始尺寸
        # pix = page.get_pixmap(matrix=matrix,dpi=200)
        pix = page.get_pixmap(matrix=fitz.Matrix(4, 4))

        print(pix.width, pix.height)
        # 将图像转换为Pillow的Image对象
        img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)

        if not os.path.exists(path2):  # 判断存放图片的文件夹是否存在
            os.makedirs(path2)  # 若图片文件夹不存在就创建

        # 保存图像为PNG格式，不进行压缩
        # dpi = 96  # 设置所需的 DPI 值
        img.save(path2 + '/' + f'images_{pg}.jpg', )
        # img.save(f'output_{page_number}.png',)



        # pix.save(path2 + '/' + 'images_%s.png' % pg)  # 将图片写入指定的文件夹内

if __name__ == "__main__":
    pdf2image1(path1, path2)

文章来源地址https://www.toymoban.com/news/detail-681918.html

到了这里，关于python提取pdf文件中的图片并输出到本地的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Python 提取PDF文本和图片
从PDF中提取内容能帮助我们获取文件中的信息，以便进行进一步的分析和处理。此外，在遇到类似项目时，提取出来的文本或图片也能再次利用。要在Python中通过代码提取PDF文件中的文本和图片，可以使用 Spire.PDF for Python 这个第三方库。具体操作方法查阅下文。 Python 提取
2024年02月08日
浏览(10)
捕捉时刻：将PDF文件中的图像提取为个性化的瑰宝（从pdf提取图像）
应用场景：该功能的用途是从PDF文件中提取图像。这在以下情况下可能会很有用：图片提取和转换：可能需要将PDF文件中的图像提取出来，并保存为单独的图像文件，以便在其他应用程序中使用或进行进一步处理。例如，可能需要将PDF中的图像用于网页、报告、演示文稿等
2024年02月14日
浏览(8)
【批量区域识别内容重命名】批量识别图片区域文字并重命名，批量图片部分识别内容重命文件，PDF区域识别提取重命名
我们在工作和生活中经常遇到这样的需求：比如将以下的图片区域识别进行重命名，批量识别后改成以时间和工作内容重命名，便于日后检索，快速查询首先我们拍摄照片用到的是水印相机，这里的文字呢我们需要加个背景，这样在文字识别就很容易的被识别，准确率也非常
2024年04月25日
浏览(10)
通过Python的pdfplumber库提取pdf中的文字
大家好，我是空空star，本篇给大家分享一下《通过Python的pdfplumber库提取pdf中的文字》。之前给大家分享了《通过Python的PyPDF2库提取pdf中的文字》，感兴趣的同学可以阅读下。本篇演示所用python版本： Python 3.8.9 通过Python的PyPDF2库提取pdf中的文字 pdfplumber是一个用于从PDF文
2024年02月06日
浏览(10)
通过Python的PyPDF2库提取pdf中的文字
PyPDF2是一个用于处理PDF文件的Python库，它提供了许多用于读取和操作PDF文件的功能。它可以对PDF文件进行合并、分割、旋转、提取页面、加密和解密等操作，也可以添加文本、图像和水印等元素到PDF文件中。 PyPDF2库允许开发人员通过Python代码轻松地处理PDF文件，因为它提供了
2024年02月11日
浏览(11)
Python实操 PDF自动识别并提取Excel文件
最近几天，paddleOCR开发了新的功能，通过将图片中的表格提取出来，效果还不错，今天，作者按照步骤测试了一波。首先，讲下这个工具是干什么用的：它的功能主要是针对一张完整的PDF图片，可以对文档图片中的文本、表格、图片、标题与列表区域进行分类。同时还可以
2024年02月09日
浏览(9)
【办公自动化】使用Python一键提取PDF中的表格到Excel
🤵‍♂️ 个人主页：@艾派森的个人主页 ✍🏻作者简介：Python学习者 🐋 希望大家多多支持，我们一起进步！😄 如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录一、Python处理Excel 二、提取PDF表格到excel 三、往期推荐文末推荐文末福利 Pyth
2024年02月13日
浏览(11)
Python中的PDF文本提取：使用fitz和wxPython库（带进度条）
引言：处理大量PDF文档的文本提取任务可能是一项繁琐的工作。本文将介绍一个使用Python编写的工具，可通过简单的操作一键提取大量PDF文档中的文本内容，极大地提高工作效率。在这个示例中，我们创建了一个 wx.ProgressDialog 对象，用于显示提取进度。在提取每一页的文本
2024年02月14日
浏览(17)
【Python • 图片识别】pytesseract快速识别提取图片中的文字
提示：本文多图，请手机端注意流量。利用python做图片识别，识别提取图片中的文字会有很多方法，但是想要简单一点怎么办，那就可以使用tesseract识别引擎来实现，一行代码就可以做到提取图片文本。本程序用到了两个python库，pytesseract和PIL，所以先来安装。运行以下命
2024年02月02日
浏览(9)
用python实现提取word中的所有图片
你可以使用python-docx库来处理word文件，然后遍历文件中的所有形状，找到图片。首先，你需要安装python-docx库。在命令行中输入以下命令进行安装：复制代码 pip install python-docx 然后，你可以使用以下代码提取word文件中的所有图片： python复制代码 from docx import Document from doc
2024年01月21日
浏览(10)