Java poi之word文本图片内容提取

这篇具有很好参考价值的文章主要介绍了Java poi之word文本图片内容提取。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

Java poi之word文本图片内容提取

应公司需求,需实现以下功能

  1. word文本内容的替换;
  2. word文本内容的提取;
  3. word文档中图片的提取存放

此文章将使用Apache POI实现Word文档中文本内容及图片的提取;

Apache POI 是基于 Office Open XML 标准(OOXML)和 Microsoft 的 OLE 2 复合文档格式(OLE2)处理各种文件格式的开源项目。 简而言之,您可以使用 Java 读写 MS Excel 文件,可以使用 Java 读写 MS Word 和 MS PowerPoint 文件。

  • HSSF - 提供读写 Microsoft Excel XLS 格式 (Microsoft Excel 97 (-2003)) 档案的功能。
  • XSSF - 提供读写 Microsoft Excel OOXML XLSX 格式 (Microsoft Excel XML (2007+)) 档案的功能。
  • SXSSF - 提供低内存占用量读写 Microsoft Excel OOXML XLSX 格式档案的功能。
  • HWPF - 提供读写 Microsoft Word DOC97 格式 (Microsoft Word 97 (-2003)) 档案的功能。
  • XWPF - 提供读写 Microsoft Word DOC2003 格式 (WordprocessingML (2007+)) 档案的功能。
  • HSLF/XSLF - 提供读写 Microsoft PowerPoint 格式档案的功能。
  • HDGF/XDGF - 提供读 Microsoft Visio 格式档案的功能。
  • HPBF - 提供读 Microsoft Publisher 格式档案的功能。
  • HSMF - 提供读 Microsoft Outlook 格式档案的功能。

文档准备

小编准备了以下两个文档:《孤勇者.doc》《青鸟.docx》,分别代表不同版本的文档,里边分别记录了各自的歌词及宣传画,以便提取测试,如下图
Java poi之word文本图片内容提取

引入Maven依赖

<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi</artifactId>
    <version>4.1.2</version>
</dependency>

<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>4.1.2</version>
</dependency>
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-scratchpad</artifactId>
    <version>4.1.2</version>
</dependency>

代码块

package com.bjzaxk.utils;

import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.hwpf.model.PicturesTable;
import org.apache.poi.hwpf.usermodel.CharacterRun;
import org.apache.poi.hwpf.usermodel.Picture;
import org.apache.poi.hwpf.usermodel.Range;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.apache.poi.xwpf.usermodel.XWPFPictureData;

import java.io.*;
import java.util.List;

public class Demo {
    public static void main(String[] args) {
        String filePath = "C:\\Users\\Administrator\\Desktop\\java_poi\\demo_file\\孤勇者.doc";
        String formart = "DOC";
//        String filePath = "C:\\Users\\Administrator\\Desktop\\java_poi\\demo_file\\青鸟.docx";
//        String formart = "DOCX";
        // 文本提取后存放路径及文件名
        String extractFilePath = "C:\\Users\\Administrator\\Desktop\\java_poi\\demo_file\\孤勇者.txt";
//        String extractFilePath = "C:\\Users\\Administrator\\Desktop\\java_poi\\demo_file\\青鸟.docx";
        // 图片提取后存放路径
        String imageFilePath = "C:\\Users\\Administrator\\Desktop\\java_poi\\demo_file\\";

        // 提取word中的文字
        wordTextExtract(filePath, formart, extractFilePath);
        // 提取word中的图片
        imageExtract(filePath, formart, imageFilePath);
    }

    /**
     * @description: 提取word中的文字
     * @author: Mr.Jkx
     * @time: 2023/1/10 14:17
     */
    public static void wordTextExtract(String filePath, String formart, String extractFilePath) {
        try {// 创建存放提取数据的文件
            FileWriter fw = new FileWriter(extractFilePath);
            BufferedWriter bw = new BufferedWriter(fw);

            if ("DOCX".equals(formart)) {
                // 读取docx文件
                InputStream in = new FileInputStream(filePath);
                XWPFDocument document = new XWPFDocument(in);
                XWPFWordExtractor re = new XWPFWordExtractor(document);
                re.close();

                // 将内容写入新文件中
                bw.write(re.getText());
                bw.close();

            } else if ("DOC".equals(formart)) {
                InputStream in = new FileInputStream(filePath);
                WordExtractor wordExtractor = new WordExtractor(in);
                // 将内容写入新文件中
                bw.write(wordExtractor.getText());
                bw.close();
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    /**
     * @description: 提取word中的图片
     * @author: Mr.Jkx
     * @time: 2023/1/10 14:26
     */
    public static void imageExtract(String filePath, String formart, String imageFilePath) {
        FileInputStream fileInputStream = null;
        try {
            fileInputStream = new FileInputStream(new File(filePath));
            if ("DOCX".equals(formart)) {
                XWPFDocument document = new XWPFDocument(fileInputStream);
                List<XWPFPictureData> picList = document.getAllPictures();
                for (XWPFPictureData pic : picList) {
                    byte[] bytev = pic.getData();
                    FileOutputStream fos = new FileOutputStream(imageFilePath + pic.getFileName());
                    fos.write(bytev);
                }
                fileInputStream.close();
            } else if ("DOC".equals(formart)) {
                HWPFDocument doc = new HWPFDocument(fileInputStream);
                int length = doc.characterLength();
                PicturesTable pTable = doc.getPicturesTable();
                for (int i = 0; i < length; i++) {
                    Range range = new Range(i, i + 1, doc);
                    CharacterRun cr = range.getCharacterRun(0);
                    if (pTable.hasPicture(cr)) {
                        Picture pic = pTable.extractPicture(cr, false);

                        String afileName = pic.suggestFullFileName();
                        OutputStream out = new FileOutputStream(new File(imageFilePath + System.currentTimeMillis() + afileName));
                        pic.writeImageContent(out);
                    }
                }
            }
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            if (fileInputStream != null) {
                try {
                    // 关闭资源
                    fileInputStream.close();
                } catch (IOException e) {
                    e.printStackTrace();
                    LoggerSetting.Instance().setWorkInfo("读取Word文件失败...");
                }
            }
        }
    }
}

提取结果验证

  • 提取文本会存放于一个txt文件中(小编工作需求,其他类型文件未尝试!);
  • 提取的图片会存放于“imageFilePath ”路径中,准备的文档中只有一张图片,多张图片的情况下,提取完成会在存放路径中有多张图片(在此不再展示);
  • 提取过程中不会改变原本word内容;
孤勇者提取结果

Java poi之word文本图片内容提取

青鸟提取结果对比
  • DOCX类型的文档使用XWPF提取文字,存储后用电脑自带的“文本文档”打开是没有格式的,小编这里用的是“Notepad++”打开截图的,如默认软件打开无格式无须担心,换个软件即可;

XWPF - 提供读写 Microsoft Word DOC2003 格式 (WordprocessingML (2007+)) 档案的功能。

Java poi之word文本图片内容提取文章来源地址https://www.toymoban.com/news/detail-499969.html

到了这里,关于Java poi之word文本图片内容提取的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包