JAVA解析pdf文件

这篇具有很好参考价值的文章主要介绍了JAVA解析pdf文件。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

自己记录一下,方便下次用,判断文件是否为pdf类型,并且解析文件内容
1.需要依赖的包

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.19</version>
</dependency>

2.Util类文章来源地址https://www.toymoban.com/news/detail-656830.html

import lombok.extern.slf4j.Slf4j;
import org.apache.pdfbox.cos.COSName;
import org.apache.pdfbox.io.RandomAccessFile;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDResources;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.PDFTextStripperByArea;
import sun.misc.BASE64Decoder;

import javax.imageio.ImageIO;
import java.awt.*;
import java.awt.geom.Rectangle2D;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.util.Iterator;

/**
 * 解析PDF文件內容
 * @author: Tang qiqi
 * @create: 2023-02-21 15:11
 * @Description:
 */
@Slf4j
public class PDFParserUtils {
	public static final String PDF = "PDF";

    /**
     * base64文件字符串
     * @param base64Content
     * @return
     */
    public static String parserFileContent(String base64Content, String fileName){
        // 判斷base64字符串內容是否為空
        if(base64Content == null || base64Content.trim().length() == 0) {
            return "";
        }
        
        FileOutputStream fos = null;
        try {
            File tempFile = File.createTempFile(fileName, ".PDF");
            fos = new FileOutputStream(tempFile);
            BASE64Decoder decoder = new BASE64Decoder();
            // Base64解码,对字节数组字符串进行Base64解码并生成文件
            byte[] byt = decoder.decodeBuffer(base64Content);
            for (int i = 0, len = byt.length; i < len; ++i) {
                // 调整异常数据
                if (byt[i] < 0) {
                    byt[i] += 256;
                }
            }
            // 判断文件是否PDF类型,如果不是,直接返回
            String fileType = getFileType(byt);
            if(!PDF.equals(fileType)) {
                log.info("文件格式不是PDF");
                return "";
            }
            fos.write(byt);
            fos.flush();
            fos.close();
            String text = readFile(tempFile);
            tempFile.deleteOnExit();
            return text;
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            if(fos != null) {
                try {
                    fos.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
        return "";
    }

    /**
     * 一次獲取整個文件內容
     * @param file 文件
     * @return
     */
    public static String readFile(File file) {
        if(file == null) {
            return "";
        }
        PDDocument doc = null;
        try {
            RandomAccessFile  is = new RandomAccessFile(file, "r");
            PDFParser parser = null;
            parser = new PDFParser(is);
            parser.parse();
            doc = parser.getPDDocument();
            PDFTextStripper textStripper = new PDFTextStripper();
            String content = textStripper.getText(doc);
            doc.close();
            return content;
        } catch (IOException e) {
            e.printStackTrace();
            log.info("解析PDF文件內容異常[{}]", e.getMessage());
        } finally {
            if(doc != null) {
                try {
                    doc.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
        return "";
    }

    /**
     * 分頁獲取文字內容,並將多頁內容拼接返回
     * @param file 文件
     * @return
     * @throws Exception
     */
    public static String readPage(File file) {
        if(file == null) {
            return "";
        }
        StringBuilder sb = new StringBuilder("");
        PDDocument doc = null;
        try {
            RandomAccessFile is = new RandomAccessFile(file, "r");
            PDFParser parser = new PDFParser(is);
            parser.parse();
            doc = parser.getPDDocument();
            PDFTextStripper textStripper = new PDFTextStripper();
            for (int i = 1; i <= doc.getNumberOfPages(); i++) {
                textStripper.setStartPage(i);
                textStripper.setEndPage(i);
                // 一次输出多个页时,按顺序输出
                textStripper.setSortByPosition(true);
                String s = textStripper.getText(doc);
                sb.append(s);
            }
            doc.close();
        } catch (Exception e) {
            e.printStackTrace();
            log.info("解析PDF文件內容異常[{}]", e.getMessage());
        } finally {
            if(doc != null) {
                try {
                    doc.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
        return sb.toString();
    }

    /**
     * 读取文本内容和图片
     * @param file 文件路徑
     */
    public static void readTextImage(File file) {
        if(file == null) {
            return;
        }
        PDDocument doc = null;
        try {
            doc = PDDocument.load(file);
            PDFTextStripper textStripper = new PDFTextStripper();
            for (int i = 1; i <= doc.getNumberOfPages(); i++) {
                textStripper.setStartPage(i);
                textStripper.setEndPage(i);
//                String s = textStripper.getText(doc);
                // 读取图片
                PDPage page = doc.getPage(i - 1);
                PDResources resources = page.getResources();
                // 获取页中的对象
                Iterable<COSName> xobjects = resources.getXObjectNames();
                if (xobjects != null) {
                    Iterator<COSName> imageIter = xobjects.iterator();
                    while (imageIter.hasNext()) {
                        COSName cosName = imageIter.next();
                        boolean isImageXObject = resources.isImageXObject(cosName);
                        if (isImageXObject) {
                            // 获取每页资源的图片
                            PDImageXObject ixt = (PDImageXObject) resources.getXObject(cosName);
                            File outputfile = new File("第 " + (i) + " 页" + cosName.getName() + ".jpg");
                            ImageIO.write(ixt.getImage(), "jpg", outputfile);
                        }
                    }
                }
            }
            doc.close();
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            if(doc != null) {
                try {
                    doc.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }

    }

    /**
     *
     * @param file
     * @param x 指定的x坐标
     * @param y 指定的y坐标
     * @param width 矩形的宽度
     * @param height 矩形的高度
     * @return
     */
    public static String readRectangle(File file, int x, int y, int width, int height){
        if(file == null) {
            return "";
        }
        PDDocument doc = null;
        try {
            doc = PDDocument.load(file);
            // y轴向下为正,x轴向右为正。
            PDFTextStripperByArea stripperByArea = new PDFTextStripperByArea();
            stripperByArea.setSortByPosition(true);
            // 划定区域
            Rectangle2D rect = new Rectangle(x, y, width, height);
            stripperByArea.addRegion("area", rect);
            PDPage page = doc.getPage(1);
            stripperByArea.extractRegions(page);
            // 获取区域的text
            String text = stripperByArea.getTextForRegion("area");
            text = text.trim();
            doc.close();
            return text;
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            if(doc != null) {
                try {
                    doc.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
        return "";
    }
	
	/**
     * 根據io流前4個字節,判斷文件類型
     * @param ioBytes
     * @return
     */
    private static String getFileType(byte []ioBytes){
        if(ioBytes == null || ioBytes.length < 4){
            log.error("非正常文件");
            throw new ErrorException("Abnormal image file.");
        }
        byte[] b = new byte[4];
        for(int i = 0; i < 4; i ++){
            b[i] = ioBytes[i];
        }
        String type = bytesToHexString(b).toUpperCase();
        if (type.contains("25504446")){
            return "PDF";
        }else if(type.contains("504B0304")) {
            return "ZIP";
        } else if(type.contains("52617221")){
            return "RAR";
        }
        return "";
    }

    /**
     * byte数组转换成16进制字符串
     * @param src
     * @return
     */
    private static String bytesToHexString(byte[] src){
        StringBuilder stringBuilder = new StringBuilder();
        if (src == null || src.length <= 0) {
            return null;
        }
        for (int i = 0; i < src.length; i++) {
            int v = src[i] & 0xFF;
            String hv = Integer.toHexString(v);
            if (hv.length() < 2) {
                stringBuilder.append(0);
            }
            stringBuilder.append(hv);
        }
        return stringBuilder.toString();
    }
/** 常用文件的文件头如下:
JPEG (jpg),文件头:FFD8FF
PNG (png),文件头:89504E47
GIF (gif),文件头:47494638
TIFF (tif),文件头:49492A00
Windows Bitmap (bmp),文件头:424D
CAD (dwg),文件头:41433130
Adobe Photoshop (psd),文件头:38425053
Rich Text Format (rtf),文件头:7B5C727466
XML (xml),文件头:3C3F786D6C
HTML (html),文件头:68746D6C3E
Email [thorough only] (eml),文件头:44656C69766572792D646174653A
Outlook Express (dbx),文件头:CFAD12FEC5FD746F
Outlook (pst),文件头:2142444E
MS Word/Excel (xls.or.doc),文件头:D0CF11E0
MS Access (mdb),文件头:5374616E64617264204A
WordPerfect (wpd),文件头:FF575043
Postscript. (eps.or.ps),文件头:252150532D41646F6265
Adobe Acrobat (pdf),文件头:255044462D312E
Quicken (qdf),文件头:AC9EBD8F
Windows Password (pwl),文件头:E3828596
ZIP Archive (zip),文件头:504B0304
RAR Archive (rar),文件头:52617221
Wave (wav),文件头:57415645
AVI (avi),文件头:41564920
Real Audio (ram),文件头:2E7261FD
Real Media (rm),文件头:2E524D46
MPEG (mpg),文件头:000001BA
MPEG (mpg),文件头:000001B3
Quicktime (mov),文件头:6D6F6F76
Windows Media (asf),文件头:3026B2758E66CF11
MIDI (mid),文件头:4D546864
*/	
}

到了这里,关于JAVA解析pdf文件的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 使用Java分割PDF文件

    在Java中,我们可以使用iText库来处理PDF文件。iText是一个流行的Java库,用于创建和处理PDF文件。在本篇博客中,我们将介绍如何使用Java分割一个PDF文件为多个小的PDF文件。 首先,我们需要在项目中引入iText库的依赖。我们可以通过Maven来管理项目依赖。在 pom.xml 文件中添加以

    2024年01月21日
    浏览(36)
  • Java将OFD文件转PDF文件

    OFDRW 提供了将 OFD 文档导出为其他格式文档的能力,如导出为 PDF、图片、SVG、TXT、HTML 等。 OFDRW 转换模块在 2.0.0 之后抽象了多种文档导出接口,使用统一的 API 实现 OFD 文档导出功能。 如果你使用的是 2.0.0 以前版本,可参考 OFD 文件转换工具类(2.0.0版本之前) 注意: java

    2024年02月11日
    浏览(31)
  • Java doc等文件生成PDF、多个PDF合并

    之前写过一遍文章是 图片生成PDF。 今天继续来对 doc等文件进行pdf合并以及多个pdf合并为一个pdf。 兄弟们,还是开箱即用。 依赖 示例代码 依赖 示例代码

    2024年02月10日
    浏览(37)
  • 如何在 Java 中将多个 PDF 文件合并为一个 PDF

    如果您正在开发涉及处理 PDF 文件的 Java 项目,则可能需要将多个 PDF 文件合并到一个文档中。在本文中,我们将演示如何使用 Java 编程语言来实现这一目标。我们将从以下两个方面向您展示如何将多个PDF文件合并为一个PDF: 将文件中的多个 PDF 合并为单个 PDF 将流中的多个

    2024年02月13日
    浏览(44)
  • Java使用itextpdf生成PDF文件

    iText是用于生成PDF文档的一个java类库。通过iText不仅可以生成PDF文档,而且可以将Html文件转化为PDF文件。 构造方法: 指定PDF的页面大小,页边距。 默认 Document()为:A4,36,36,36,36 属性信息: 添加文字段落: 添加空页面: 是否显示空白页: 设置页面边距 构造方法: ll

    2024年01月19日
    浏览(40)
  • 【Java】使用iText生成PDF文件

    iText介绍 iText是著名的开放源码的站点sourceforge一个项目,是用于生成PDF文档的一个java类库。通过iText不仅可以生成PDF或rtf的文档,而且可以将XML、Html文件转化为PDF文件。 项目要使用iText,必须引入jar包。才能使用,maven依赖如下: 输出中文,还要引入下面itext-asian.jar包:  

    2024年02月10日
    浏览(39)
  • 【Java】多pdf文件合并为一个.docx文件

    当将多个 PDF 文件合并成单个 DOCX 文档时,利用 Java 中的 Apache PDFBox 和 Apache POI 库可以实现这一目标。这个过程可以分为几个步骤: 使用 Apache PDFBox 和 Apache POI 库来处理 PDF 和 DOCX 文件。你需要导入相关库,并确保在项目中使用了正确的依赖。 2. 获取PDF文件列表 通过指定文件

    2024年02月03日
    浏览(33)
  • Java将PDF文件转为Word文档

    一、创建Springboot Maven项目 二、导入依赖信息 三、创建Main类 代码如下: 效果展示:

    2024年02月11日
    浏览(51)
  • Java 将 Excel 转换为 PDF 文件

    持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第11天,点击查看活动详情 今天这是篇粗糙的文章,文字也较少,整理了个Java将Excel 转换为 PDF 文件的工具类。(还比较粗糙粗糙~) 用的是  aspose  和 pdfbox 实现的。 aspose 是没办法在公开的 Maven 仓库下

    2024年02月09日
    浏览(50)
  • Java中如何生成PDF文件的缩略图

    在Java中生成PDF文件的缩略图可以使用Apache PDFBox库。以下是一个简单的示例代码来实现这个功能: 在上面的代码中,首先加载PDF文件并创建一个PDFRenderer对象。然后使用 renderImage 方法来渲染指定页面的PDF文档为一个BufferedImage对象。最后使用 writeImage 方法将BufferedImage对象保存

    2024年04月14日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包