Springboot使用pdfbox提取PDF图片

这篇具有很好参考价值的文章主要介绍了Springboot使用pdfbox提取PDF图片。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

PDFBox的介绍

PDFBox是一个用于创建和处理PDF文档的Java库。它可以使用Java代码创建、读取、修改和提取PDF文档中的内容。

PDFBox的功能:

  • Extract Text - 使用PDFBox,您可以从PDF文件中提取Unicode文本。

  • Split & Merge - 使用PDFBox,您可以将单个PDF文件分成多个文件,并将它们合并为一个文件。

  • Fill Forms - 使用PDFBox,您可以在文档中填写表单数据。

  • Print - 使用PDFBox,您可以使用标准Java打印API打印PDF文件。

  • Save as Image - 使用PDFBox,您可以将PDF保存为图像文件,如PNG或JPEG。

  • Create PDFs - 使用PDFBox,您可以通过创建Java程序创建新的PDF文件,还可以包含图像和字体。

  • Signing - 使用PDFBox,您可以将数字签名添加到PDF文件。

Springboot集成PDFBox

本项目除了引入pdfbox的依赖之外,还引入了解决图像问题的其他依赖。
例如:jai-imageio-jpeg2000jai-imageio-core是为了解决在转换图像时报错:Cannot read JPEG2000 image: Java Advanced Imaging (JAI) Image I/O Tools are not installed

jbig2-imageio依赖引入是为了解决使用pdfbox2.0将PDF转换为图片时后台报Cannot read JBIG2 image: jbig2-imageio is not installed错误

<!-- pdf提取封面依赖-->
<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.22</version>
</dependency>
<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox-tools</artifactId>
    <version>2.0.22</version>
</dependency>
<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>jbig2-imageio</artifactId>
    <version>3.0.2</version>
</dependency>
<!-- 解決提取pdf "Cannot read JPEG2000 image"封面失败问题 -->
<dependency>
    <groupId>com.github.jai-imageio</groupId>
    <artifactId>jai-imageio-core</artifactId>
    <version>1.3.1</version>
</dependency>
<dependency>
    <groupId>com.github.jai-imageio</groupId>
    <artifactId>jai-imageio-jpeg2000</artifactId>
    <version>1.3.0</version>
</dependency>

一、提取pdf首页为图像

1. 实现需求

单个或者批量提取pdf的首页作为封面,或者可以实现提取指定pdf页为图像

2. 项目代码

核心工具类方法:PdfUtils.getPdfFirstImage

package com.zhouquan.utils;

import lombok.extern.slf4j.Slf4j;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.ImageType;
import org.apache.pdfbox.rendering.PDFRenderer;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.IOException;

/**
 * @author ZhouQuan
 * @desciption pdf工具类
 * @date 2023/6/17 9:52
 */
@Slf4j
public class PdfUtils {

    /**
     * 提取pdf首页作为封面
     *
     * @param pdfFile
     * @param dpi     the DPI (dots per inch) to render at
     * @return
     */
    public static BufferedImage getPdfFirstImage(File pdfFile, float dpi) {
        long startTime = System.currentTimeMillis();
        if (!pdfFile.isFile() || !pdfFile.exists()) {
            return null;
        }

        try (PDDocument document = PDDocument.load(pdfFile)) {
            PDFRenderer pdfRenderer = new PDFRenderer(document);

            // 设置页数(首页从0开始)、每英寸点数、图片类型
            BufferedImage bufferedImage = pdfRenderer.renderImageWithDPI(0, dpi, ImageType.RGB);

            log.info("提取耗时:{}ms", System.currentTimeMillis() - startTime);
            return bufferedImage;
        } catch (Exception e) {
            log.error(e.getMessage());
            e.printStackTrace();
            return null;
        }
    }
}

service方法类,负责将读取的pdf的bufferedImage对象写入指定的图片对象中

package com.zhouquan.service.impl;

import com.zhouquan.service.PdfService;
import com.zhouquan.utils.PdfUtils;
import lombok.extern.slf4j.Slf4j;
import org.apache.commons.io.FileUtils;
import org.apache.commons.io.FilenameUtils;
import org.apache.pdfbox.tools.imageio.ImageIOUtil;
import org.springframework.stereotype.Service;

import java.awt.image.BufferedImage;
import java.io.File;

/**
 * @author ZhouQuan
 * @desciption pdf提取相关类
 * @date 2023/6/17 9:40
 */
@Slf4j
@Service
public class PdfServiceImpl implements PdfService {

    /**
     * 提取封面的存放路径
     */
    private static String coverPath = "D:/pdf_test/cover";

    /**
     * 提取封面的文件后缀
     */
    private static final String coverExt = "png";

    /**
     * pdf 提取封面
     *
     * @param pdfFile pdf文件
     */
    @Override
    public void pickupCover(File pdfFile) {

        //要渲染的DPI(每英寸点数),可以理解为生成图片的清晰度,值越高生成质量越高
        int dpi = 300;
        try {
            //提取封面工具类
            BufferedImage bufferedImage = PdfUtils.getPdfFirstImage(pdfFile, dpi);

            //获取pdf文件名
            String fileName = FilenameUtils.getBaseName(pdfFile.getName());
            String currentCoverPath = coverPath + "/" + fileName + "." + coverExt;

            // 创建图片文件对象
            FileUtils.createParentDirectories(new File(currentCoverPath));

            // 将图片写入到图片对象中
            ImageIOUtil.writeImage(bufferedImage, currentCoverPath, dpi);

            byte[] coverByte = PdfUtils.bufferedImageToByteArray(bufferedImage);
            log.info("提取封面大小为: {}MB", String.format("%.2f", coverByte.length / 1024 / 1024.0));


        } catch (Exception e) {
            log.error(e.getMessage());
        }
    }
}

测试类

package com.zhouquan;

import com.zhouquan.service.PdfService;
import org.junit.jupiter.api.Test;
import org.springframework.boot.test.context.SpringBootTest;

import javax.annotation.Resource;
import java.io.File;

@SpringBootTest
public class PdfTests {

    @Resource
    public PdfService pdfService;

    /**
     * 提取单个文件封面
     */
    @Test
    public void pickupCover() {
        String pdfFilePath = "D:/pdf_test/pdf/三体三部曲-刘慈欣.pdf";
        pdfService.pickupCover(new File(pdfFilePath), 0);
    }

    /**
     * 批量单个文件封面
     */
    @Test
    public void batchPickupCover() {

        String pdfFilePath = "E:/开发项目/h化工出版社/opt";

        File[] files = new File(pdfFilePath).listFiles();
        if (files != null && files.length > 0) {
            for (File file : files) {
                pdfService.pickupCover(file, 0);
            }
        }
    }
}

3. 执行结果

1.单本pdf提取封面
Springboot使用pdfbox提取PDF图片2.批量提取pdf封面
Springboot使用pdfbox提取PDF图片

二、将pdf内容全部转换为图像

1. 实现需求

将pdf中所有的页转换为图片

2. 项目代码

核心工具类方法:PdfUtils.getPdfAllImage

  /**
     * 加载读取pdf并返回所有的BufferedImage对象
     *
     * @param pdfFile pdf文件对象
     * @param dpi     the DPI (dots per inch) to render at
     * @return
     */
    public static List<BufferedImage> getPdfAllImage(File pdfFile, float dpi) {
        if (!pdfFile.isFile() || !pdfFile.exists()) {
            return null;
        }

        //创建PDFDocument对象并加载PDF文件
        try (PDDocument document = PDDocument.load(pdfFile)) {

            //创建一个PDFRenderer对象并将PDDocument对象传递给它
            PDFRenderer pdfRenderer = new PDFRenderer(document);


            List<BufferedImage> bufferedImages = new ArrayList<>();
            BufferedImage bufferedImage;
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                System.out.println("pageIndex:" + pageIndex);
                // 设置页数(首页从0开始)、每英寸点数、图片类型
                bufferedImage = pdfRenderer.renderImageWithDPI(pageIndex, dpi, ImageType.RGB);
                bufferedImages.add(bufferedImage);
            }

            return bufferedImages;
        } catch (Exception e) {
            log.error(e.getMessage());
            e.printStackTrace();
            return null;
        }
    }

service方法类,负责将读取的pdf的bufferedImage列表对象按顺序写入指定目录的图片文件中

 @Override
    public void pickupPdfToImage(File pdfFile) {

        //要渲染的DPI(每英寸点数),可以理解为生成图片的清晰度,值越高生成质量越高
        int dpi = 100;
        try {
            //提取封面工具类
            List<BufferedImage> pdfAllImage = PdfUtils.getPdfAllImage(pdfFile, dpi);

            log.info("共提取到{}页",pdfAllImage.size());

            String fileName = FilenameUtils.getBaseName(pdfFile.getName());

            String currentCoverPath;
            for (int i = 0; i < pdfAllImage.size(); i++) {
                currentCoverPath = coverPath + "/" + fileName + " 第" + i + "页" + "." + coverExt;

                // 创建图片文件对象
                FileUtils.createParentDirectories(new File(currentCoverPath));

                // 将图片写入到图片对象中
                ImageIOUtil.writeImage(pdfAllImage.get(i), currentCoverPath, dpi);
            }

        } catch (Exception e) {
            log.error(e.getMessage());
        }
    }

测试类

/**
  * 批量提取文件封面
  */
 @Test
 public void pickupPdfToImage() {

     String pdfFilePath = "D:/pdf_test/pdf/三体三部曲-刘慈欣.pdf";
     pdfService.pickupPdfToImage(new File(pdfFilePath));

 }

3. 执行结果

Springboot使用pdfbox提取PDF图片

4.注意事项

由于pdf的提取是将pdf文件加载到堆内存中进行操作,因此在提取过程中容易导致堆内存溢出Java heap space,简单来说就是在创建新的对象时, 堆内存中的空间不足以存放新创建的对象,导致此种问题的发生。
解决方案如下:

1.优化项目代码

根据报错信息定位到内存消耗较大的代码,然后对其进行重构或者优化算法。如果是在生产环境,务必要在内存消耗过大的代码出增加日志信息输出,否则容易像我定位一晚上才找到问题所在

2.提升Java heap size

增加堆内存空间设置,此种方式容易操作。可以较快解决当前问题,但是总体来说还是需要找到项目代码中的问题才是最优解,毕竟内存总是有限的

根据自己的硬件配置进行分配对空间,例如8G内存配置的内存参数:

-Xms4096m 
-Xmx4096m

关于pdfbox比较好的学习文档:
https://iowiki.com/pdfbox/pdfbox_overview.html文章来源地址https://www.toymoban.com/news/detail-498284.html

到了这里,关于Springboot使用pdfbox提取PDF图片的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Java 利用pdfbox将图片和成到pdf指定位置

    业务背景:用户在手机APP上进行签名,前端将签完名字的图片传入后端,后端合成新的pdf. 废话不多说,上代码: 注意:前端传过来的图片必须是透明的,否则合成的时候签名处会有边框        

    2024年02月09日
    浏览(52)
  • java中pdfbox处理pdf常用方法(读取、写入、合并、拆分、写文字、写图片)

    方法代码: 测试用例: 2.1写文字 方法代码: 测试用例: A.pdf: A2.pdf: 2.2写图片 方法代码: 测试用例: A.pdf: pic.jpg: A2.pdf: 方法代码: 测试用例: 方法代码: 测试用例: 引用链接: (17条消息) 使用Apache PDFBox实现拆分、合并PDF_似有风中泣的博客-CSDN博客 (17条消息) Java使用P

    2024年02月11日
    浏览(114)
  • 使用pdfbox 为 PDF 增加水印

    使用pdfbox 为 PDF增加水印 https://www.jylt.cc/#/detail?activityIndex=2id=bd410851b0a72dad3105f9d50787f914 引入依赖 具体代码实现

    2024年01月19日
    浏览(30)
  • 如何通过Java的Apache PDFBox库制作一个PDF表格模板并填充数据

    要使用Java的Apache PDFBox库制作一个PDF表格模板并填充数据,你需要遵循以下步骤: 添加依赖 :首先,确保你的项目中包含了Apache PDFBox的依赖。如果你使用Maven,可以在你的 pom.xml 文件中添加以下依赖: 创建PDF模板 :你可以使用PDFBox创建一个简单的PDF模板,或者使用其他工具

    2024年02月22日
    浏览(46)
  • 开源PDF工具 Apache PDFBox 认识及使用(知识点+案例)

    博主介绍:✌目前全网粉丝2W+,csdn博客专家、Java领域优质创作者,博客之星、阿里云平台优质作者、专注于Java后端技术领域。 涵盖技术内容:Java后端、算法、分布式微服务、中间件、前端、运维、ROS等。 博主所有博客文件目录索引:博客目录索引(持续更新) 视频平台:

    2024年02月20日
    浏览(30)
  • 【PDFBox】PDFBox操作PDF文档之读取指定页面文本内容、读取所有页面文本内容、根据模板文件生成PDF文档

    这篇文章,主要介绍PDFBox操作PDF文档之读取指定页面文本内容、读取所有页面文本内容、根据模板文件生成PDF文档。 目录 一、PDFBox操作文本 1.1、读取所有页面文本内容 1.2、读取指定页面文本内容 1.3、写入文本内容 1.4、替换文本内容 (1)自定义PDTextStripper类 (2)创建Key

    2024年02月16日
    浏览(49)
  • Java实现自动化pdf打水印小项目 使用技术pdfbox、Documents4j

    博主介绍:✌目前全网粉丝2W+,csdn博客专家、Java领域优质创作者,博客之星、阿里云平台优质作者、专注于Java后端技术领域。 涵盖技术内容:Java后端、算法、分布式微服务、中间件、前端、运维、ROS等。 博主所有博客文件目录索引:博客目录索引(持续更新) 视频平台:

    2024年02月20日
    浏览(57)
  • java利用pdfbox动态生成PDF

    Apache PDFBox 是一个用于处理 PDF 文档的 Java 库。它提供了许多功能和方法来读取、创建、操作和提取 PDF 文档的内容。 PDDocument 类 引用源码中对PDDocument 类的描述 This is the in-memory representation of the PDF document 这是PDF文档的内存表示,在 java 程序中,你可以简单理解

    2024年02月06日
    浏览(47)
  • 基于pdfbox实现的pdf添加文字水印工具

    最近有个需求需要给pdf加文字水印,于是开始搜索大法,但是发现网络上的代码基本都是将字体文件直接放在jar包里面。个人强迫症发作(手动狗头),想要像poi一样直接加载系统字体,于是研究了一下午pdfbox的源代码,发现 FontFileFinder 类可以实现这个功能。废话不多说,直

    2023年04月11日
    浏览(33)
  • 【Java】OpenPDF、iText、PDFBox 是三种常用的 PDF 处理库

    OpenPDF、iText、PDFBox 是三种常用的 PDF 处理库,它们各自具有独特的优势和特点,同时也存在一些局限性和差异。本文将对这四种库进行详细的比较,并通过代码示例来展示它们的使用。 1、OpenPDF OpenPDF 是一个用于创建和编辑 PDF 文档的 Java 库,它基于 iText 库的一个分支,提供

    2024年02月09日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包