Java实现读取转码写入ES构建检索PDF等文档全栈流程

这篇具有很好参考价值的文章主要介绍了Java实现读取转码写入ES构建检索PDF等文档全栈流程。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

背景

之前已简单使用ES及Kibana和在线转Base64工具实现了检索文档的demo,并已实现WebHook的搭建和触发流程接口。
传送门:
基于GitBucket的Hook构建ES检索PDF等文档全栈方案

使用ES检索PDF、word等文档快速开始

实现读取本地文件入库ES

总体思路:基于前面已经搭建的WebHook触发流程,接收到push更新消息之后,使用本地的git工具拉取最新变动。这些文件与我们的ES应用在同一台机器上,然后Java可以读取这些文件转码并交给ES处理。

我们先处理核心部分,也就是使用Java读取各种文档,如PDF、Word、txt等格式的文件解析并在ES中创建索引。

文件属性类

根据自己的需要,文件属性应至少包括文件名、文件类型、作者等字段,由于目标是可以通过浏览器页面直接打开文件,则需要包含文件的网络url(注意不是本地url地址)。

import lombok.Data;  
@Data  
public class FileSource {  
    private String title;  
    private String summary;  
    private String fileType;  
    private String fileUrl;  
    private String content;  
    private String author;  
    private String fileVersion;  
    private String createDate;  
}

使用Data注解可以自动生成Get、Set方法,不用自己复制粘贴了。

写入流程的实现

  • 使用tika库自动获取文件类型
public static String getFileTypeByDefaultTika(String filePathUrl) throws IOException, URISyntaxException {  
    // 从 URL 创建一个 File 对象  
    File file = new File(new URL("file:///" + filePathUrl).toURI());  
    // 使用 Tika 来检测文件的 MIME 类型  
    Tika tika = new Tika();  
    MediaType mediaType = MediaType.parse(tika.detect(file));  
  
    // 从 MIME 类型中提取文件的基本类型(如 pdf、image、video 等)  
    String fileType = mediaType.getSubtype();  
    return fileType;  
}
  • 根据文件类型判断排除音视频类文件
String fileType = getFileTypeByDefaultTika(pathUrl);  
  
if (!fileType.contains("video")  
        && !fileType.contains("image")  
        && !"application/zip".equals(fileType)) {
        ……
        }
  • 解析文件内容为Base64
public static String FileToBase64(String filePath) throws IOException {  
    byte[] fileContent = Files.readAllBytes(Paths.get(filePath));  
    return Base64.getEncoder().encodeToString(fileContent);  
}
  • 调用ES客户端进行写入,包括管道预处理文档
source.setFileType(fileType);  
String base64 = FileToBase64(pathUrl);  
source.setContent(base64);  
  
String body = JSON.toJSONString(source);  
IndexRequest indexRequest = new IndexRequest().index("docwrite")  
        .source(body, XContentType.JSON)  
        .setPipeline("attachment") //上传时使用attachment pipline进行提取文件  
        .timeout(TimeValue.timeValueMinutes(10));  
  
client.index(indexRequest, RequestOptions.DEFAULT);

这段代码是关于Elasticsearch的操作,具体是将一个文件转换为Base64格式,然后将其内容索引到Elasticsearch的指定索引中。

以下是对这段代码的详细解释:

  1. source.setFileType(fileType);
    • 这行代码为source对象设置一个文件的MIME类型或扩展名。
  2. String base64 = FileToBase64(pathUrl);
    • 调用FileToBase64函数,它接受一个文件路径,然后返回该文件的Base64编码内容。
    • pathUrl是一个文件的本地路径或URL。
    • 结果的Base64编码字符串存储在base64变量中。
  3. source.setContent(base64);
    • 将上述得到的Base64编码字符串设置为source对象的内容。
  4. String body = JSON.toJSONString(source);
    • 使用Fastjson将source对象转换为JSON格式的字符串。
    • 这个JSON字符串存储在body变量中。
  5. IndexRequest indexRequest = new IndexRequest().index("docwrite")
    • 创建一个新的IndexRequest对象,这是Elasticsearch Java客户端用于索引文档的请求对象。
    • 指定索引的名称为"docwrite"。
  6. .source(body, XContentType.JSON)
    • 设置请求体的内容为上面创建的body JSON字符串。
    • XContentType.JSON表示请求体的内容类型是JSON。
  7. setPipeline("attachment")
  • 为此索引请求设置一个pipeline,名为"attachment"。在Elasticsearch中,pipeline通常用于在索引文档之前对其进行某种处理或转换。在这里,它可能是为了处理或提取附件的内容。
  1. .timeout(TimeValue.timeValueMinutes(10));
  • 为此索引请求设置一个10分钟的超时时间。如果在这10分钟内请求未完成,它可能会超时。
  1. client.index(indexRequest, RequestOptions.DEFAULT);
  • 使用Elasticsearch客户端的index方法发送上面创建的indexRequest

调试过程出现SpringBoot启动报错实例化es客户端相关的错误:
Error creating bean with name 'elasticsearchRestHighLevelClient' defined in class

Java实现读取转码写入ES构建检索PDF等文档全栈流程,java,elasticsearch,pdf,spring boot

解决办法是添加如下的maven依赖吗,并将es客户端版本提高到7.15:

<!-- Spring Boot Elasticsearch Starter -->  
<dependency>  
    <groupId>org.springframework.boot</groupId>  
    <artifactId>spring-boot-starter-data-elasticsearch</artifactId>  
</dependency>

测试索引流程运行

curl -XPOST -H "Content-Type: application/json" -d '{"key1":"value1", "key2":"value2"}' http://localhost:8080/gitbucket/webhook

服务端打印收到的消息,没有报错,证明流程正常:

Java实现读取转码写入ES构建检索PDF等文档全栈流程,java,elasticsearch,pdf,spring boot

返回:我收到推送消息啦!

在Kibana查询ES中是否存在包含“License”的文件内容:

GET /docwrite/_search
{
  "query": {
    "match": {
      "attachment.content": {
        "query": "License",
        "analyzer": "ik_smart"
      }
    }
  }
}

结果可以正确返回:

Java实现读取转码写入ES构建检索PDF等文档全栈流程,java,elasticsearch,pdf,spring boot

至此,后端ES索引流程基本完成了。

后续思考

后续需要实现的是从webhook消息中识别有效信息,使用git工作流获取更新,对新增文件进行上述索引流程。需要优化的是索引文件的属性尚不完整,文件的版本如何区分,以免重复录入文件,文件删除时是否从ES索引中删除等等这些流程。文章来源地址https://www.toymoban.com/news/detail-838042.html

到了这里,关于Java实现读取转码写入ES构建检索PDF等文档全栈流程的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Java 实现ES批量写入

     先学会用,再去研究原理,代码如下  业务代码实现

    2024年02月16日
    浏览(23)
  • ES检索结果高亮显示JAVA以及Kibana实现

    对比做了高亮前后的结果返回: 高亮前: 高亮后: 可以看到加入高亮的代码之后返回的json串命中的被套了一层em style=‘color: red’xxx/em标签,也就是我们前置设置的preTags与postTags; 当然hightlight本身支持多个字段高亮,java代码实现只要设置多个     后续查询出结果之

    2024年02月11日
    浏览(29)
  • python读取、写入以及删除es数据

    最近这段时间被es所困扰,庆幸最终学会了python操作es,怕以后忘记了,把代码放出来: 1.python读取es数据 2.python删除es数据: 3.python读取txt文档,再写入数据:

    2024年02月12日
    浏览(31)
  • Elasticsearch(五)--ES文档的操作(上)---写入文档

    使用ES构建搜索引擎时需要经常对文档进行操作,除了简单的单条文档操作,有时还需要进行批量操作。我们这章主要学习ES文档的增删改的操作,由于涉及到的代码量会比较多,所以分为3篇文章分别说明文档的这个三个操作。那么我们对文档操作的学习除了在kibana客户端之

    2024年01月16日
    浏览(27)
  • 【2023】JAVA和PLC实现通讯读取写入数据,以三菱PLC举例

    进行PLC连接需要了解两个概念: 长连接和短连接 。为了更好的说明当前的通信情况,我把所有的通信拆分为四个部分,连接,发,收,断开。 短连接:连接,发,收,断开,连接,发,收,断开,连接,发,收,断开,连接,发,收,断开…无限循环 长连接:连接,发,收

    2024年02月12日
    浏览(25)
  • 23个最有用的ES检索技巧(Java API实现)

    前言 本文是对 23个最有用的Elasticseaerch检索技巧 一文提到的ES检索技巧进行 Java API 的简单实现,但仅限于简单实现,并不考虑包括参数校验,异常处理,日志处理,安全等问题,仅供参考 代码见 UsefullESSearchSkill , 原查询语句请对照原文 运行环境 JDK version : 10.0.2gradle version

    2024年02月16日
    浏览(37)
  • ES+微服务对文档进行全文检索

    打开ES服务 进入es安装目录下F:elasticsearch-7.17.1bin,双击elasticsearch.bat,如图 成功后,如图 2. 打开ES可视化服务 进入安装F:elasticsearch-head-master路径下,执行npm run start 3. 打开浏览器 参考文献:https://blog.csdn.net/mjl1125/article/details/121975950

    2024年02月11日
    浏览(33)
  • ES全文检索pdf、word、txt等文本文件内容

    需求: 用ES对上传文件内容的检索和高亮显示。 之前从事于物联网行业,从多年前了解ES以后没有使用过,本篇文章就是为了记录小白用ES完成工作的过程。 Elasticsearch的介绍、安装和环境这里不过多介绍,网上有很多。 思考: 文本搜索,文本需要上传elasticsearch。支持

    2024年04月11日
    浏览(50)
  • SpringBoot 项目使用 Elasticsearch 对 Word、Pdf 等文档内容的检索

    本文参考自:https://blog.csdn.net/Q54665642ljf/article/details/127701719 本文适用于 elasticsearch 入门小白,还请大佬能指出我的不足(本人其实也是刚学 elasticsearch 没多久) (1)为什么要有文本抽取插件? 对于 word 、 pdf 等文档类型的文件而言,它们文件底层的内容除了纯文本之外,还

    2024年02月16日
    浏览(48)
  • Python操作XML教程:读取、写入、修改和保存XML文档

    XML是一种常见的数据交换格式,在许多应用中都被广泛使用。通过掌握Python操作XML的基础知识,您将能够轻松地处理XML数据,从而实现数据的提取、修改和存储。 内容包括以下主要部分: 解析XML文档:学习如何使用Python解析XML文档,获取根元素和遍历子元素。 访问元素的内

    2024年02月13日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包