通过Python的PyPDF2库提取pdf中的图片

这篇具有很好参考价值的文章主要介绍了通过Python的PyPDF2库提取pdf中的图片。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

大家好,我是空空star,本篇给大家分享一下通过Python的PyPDF2库提取pdf中的图片
上一篇已经给大家分享了提取pdf中的文字,感兴趣的同学可以阅读下。
本篇演示所用python版本:Python 3.8.9

通过Python的PyPDF2库提取pdf中的文字

一、PyPDF2库是什么?

PyPDF2库是一个用于处理PDF文件的Python库。它提供了一系列的工具来读取、编辑、合并、拆分和加密PDF文件,使得我们可以在Python环境下轻松地对PDF文件进行操作。
使用PyPDF2库,我们可以轻松地读取PDF文件中的文本和元数据信息,如标题、作者、主题和关键字等。同时,我们可以将多个PDF文件合并成一个文件,或者将一个PDF文件拆分成多个文件。此外,还可以对PDF文件进行加密,以保护其内容不被未授权的访问者所查看。
除此之外,PyPDF2库还支持对PDF文件进行旋转和裁剪操作,使得我们可以调整PDF文件中的页面排版和大小。同时,它还提供了一些高级功能,如添加水印、添加书签、添加注释等,使得我们可以为PDF文件添加更多的信息和内容。
总的来说,PyPDF2库提供了一系列功能强大的工具,可以帮助我们轻松地处理PDF文件。它可以应用于很多场景,如文档管理、电子出版、数据分析等领域,是Python开发者们不可或缺的工具。

二、安装PyPDF2库

pip install PyPDF2

三、查看PyPDF2库版本

pip show PyPDF2

Name: PyPDF2
Version: 3.0.1
Summary: A pure-python PDF library capable of splitting, merging, cropping, and transforming PDF files
Home-page:
Author:
Author-email: Mathieu Fenniak biziqe@mathieu.fenniak.net
License:
Requires: typing_extensions
Required-by:文章来源地址https://www.toymoban.com/news/detail-456125.html

四、使用方法

待提取的pdf截图

通过Python的PyPDF2库提取pdf中的图片

1.引入库

import PyPDF2

2.定义pdf路径

local = '/Users/kkstar/Downloads/'

3.打开PDF文件

pdf_file = open(local+'demo_pic.pdf', 'rb')

4.创建PDF阅读器对象

pdf_reader = PyPDF2.PdfReader(pdf_file)

5.获取PDF文件中的页数

num_pages = len(pdf_reader.pages)

6.遍历每一页进行处理

# 遍历每一页
for page_num in range(num_pages):
    # 获取当前页对象
    page_obj = pdf_reader.pages[page_num]
    # 获取当前页中的所有对象
    page_objs = page_obj['/Resources']['/XObject'].get_object()
    # 遍历每个对象
    for obj_name in page_objs:
        # 判断对象是否为图片
        if page_objs[obj_name]['/Subtype'] == '/Image':
            # 获取图片对象
            img_obj = page_objs[obj_name]
            # 获取图片数据
            img_data = img_obj.get_data()
            # 将图片数据保存为文件
            with open(local+obj_name + '.jpg', 'wb') as img_file:
                img_file.write(img_data)

7.提取出来的图片

通过Python的PyPDF2库提取pdf中的图片

总结

到了这里,关于通过Python的PyPDF2库提取pdf中的图片的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python—遇到的问题,使用PyPDF2转化pdf时候遇到的各种问题。

    PDF 转化时候出现异常问题,直接出现报错,提示删除了该方法。 上传字体

    2024年02月13日
    浏览(49)
  • 通过Python的fitz库提取pdf中的图片

    大家好,我是空空star,本篇给大家分享一下 《通过Python的fitz库提取pdf中的图片》 。 Fitz库是一个Python图像处理库,主要用于打开、编辑和保存PDF、TIFF和JPEG格式的图像。它可以帮助用户读取和写入PDF文件,提取PDF页面以及在页面上进行标记和注释。此外,Fitz库还提供了一些

    2024年02月07日
    浏览(40)
  • python使用第三方库PyPDF2、PDFMiner或pdfplumber来解析PDF文件

    使用第三方库PyPDF2、PDFMiner或pdfplumber来解析PDF文件可以实现PDF文件的内容提取、搜索和修改等功能。下面是使用PDFMiner来解析PDF文件的安装说明和代码示例: PDFMiner 下面是一些PDFMiner的常见操作: 1.安装PDFMiner库:在Python环境中,可以使用pip命令安装PDFMiner库。 2.导入PDFMiner库

    2024年02月09日
    浏览(43)
  • PyPDF2库对PDF实现读取的应用

    目录 一、PyPDF2 库的使用 1. 文档打开和页面读取 2. 文本提取功能 3. 示例代码

    2024年02月04日
    浏览(37)
  • python提取图片型pdf中的文字(提取pdf扫描件文字)

    前言 文字型pdf提取,python的库一大堆,但是图片型pdf和pdf扫描件提取,还是有些难度的,我们需要用到OCR(光学字符识别)功能。 一、准备 1、安装OCR(光学字符识别)支持库 首先要安装 pytesseract 和 Tesserac OCR ,Tesseract OCR是一种广泛使用的OCR工具,它可以用于从图像中提取

    2024年03月23日
    浏览(54)
  • 通过Python pypdf库轻松拆分大型PDF文件

    pypdf最早可以追溯到2005年开源发布,最早名称是\\\"pyPdf\\\",中间的P是大写的,是一个纯python库,这个库一直持续到2010年的pyPdf1.13最后一个版本! 开源其实是一件非常吃力不讨好的事情,在没有商业化的手段,以及没有额外费用的支持下,很难一直靠爱发电。 2011到2016年之间,在

    2024年03月16日
    浏览(52)
  • 通过Python的pdfplumber库提取pdf中的文字

    大家好,我是空空star,本篇给大家分享一下 《通过Python的pdfplumber库提取pdf中的文字》 。 之前给大家分享了 《通过Python的PyPDF2库提取pdf中的文字》 ,感兴趣的同学可以阅读下。 本篇演示所用python版本: Python 3.8.9 通过Python的PyPDF2库提取pdf中的文字 pdfplumber是一个用于从PDF文

    2024年02月06日
    浏览(32)
  • 求助Claude GPT | PyPDF2 亲测可用

    直接Copy网上流传最广的代码完成提取PDF转文本,十有八九报错! 流传的是旧版本用法,造成的问题是命令规则用法变化。 常见的报错: 1、读取PDF文档命令的变化: 去除 PdfFileReader 不可用, 改为 PyPDF2.PdfReader(read_pdf) 2、获取PDF文档页数的命令变化: 去除 reader.getPage(page_nu

    2024年02月16日
    浏览(37)
  • python提取pdf图片

    2024年02月13日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包