ES解析word内容为空的问题和直接使用Tika解析文档的方案

这篇具有很好参考价值的文章主要介绍了ES解析word内容为空的问题和直接使用Tika解析文档的方案。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

导言

在上一篇文章最后,我们虽然跑通了ES文件搜索的全部流程,但是仍然出现了1个大的问题:ES7.3实测无法索引docx和doc文档,content有值但是无法解析到附件成为可读的可搜索的内容,附件内容为空(附件中根本没有content这个字段,并非内容为空)。解决的思路是可以直接使用tika解析它的内容直接传递给ES,而不用通过pipline的黑盒。

系列文章传送门:

1. 实现ES检索pdf等文件内容的插件

2. 基于GitBucket的Hook构建ES检索PDF等文档全栈方案

3. Java实现读取转码写入ES

4. ES文件搜索的细节优化与实现

排查过程

base64码是否存在?

答案是存在的!
首先是在Java应用程序添加打印入ES库前转码的base64对象的内容长度,均为十几万字符数,看不出与pdf文件有什么本质的区别。

排除转码问题!

数据流传输失败?

其次,我修改了pipline,取消自动删除content的源字段,结果content中具有正常的大段base64内容但无法阅读,ES的attachment中还是没有解析后的内容!
注意,入库是成功的,ES有这一次提交的结果,比如作者、文件名、标签等其他信息,只是看不了文件正文内容!

word文档存在问题?

那么有可能是我的word文档有问题吗?
于是我新建了一个测试文件,类型为docx,同时增加了一个测试文件类型为docx,结果表明docx文件还是无法正常解析!

doc文件则直接在运行时报错找不到某个临时文件。

ES在处理时报错?

在复测docx类型文件入库时,我也检查了Java应用程序的日志,ES的master服务以及data节点的日志,全都没有任何相关的错误与警告。

Excel解析有问题吗?

实际上,我加测了xlsx的表格文件,也是无法解析内容的,一部分word文件被解析为zip压缩文件,还有一部分被解析为xml文件格式,说明即便都是docx类型文件,ES的管道附件的识别也不一样,这与用户的直观感受不相符!

至此,这个问题陷入了泥潭!

在查询问题的过程中,GPT总是提示我该pipline已经被废弃,不推荐使用。

最终方案

既然官方指出该插件基于tika库实现,我们何不直接使用tika解析word等文件呢?这虽然失去了分布式的效果,但是一来更加可靠和可控,二来针对pdf类文件的业务场景体量都很小,犯不上使用分布式架构。

tika测试找不到office解析类
import org.apache.tika.parser.microsoft.OfficeParser;

尝试了tika库1.7/1.27和1.28版本均找不到该类!

在引用最新的2.9.0版本运行时报错:
es解析word内容为空的问题和直接使用tika解析文档的方案,elasticsearch,word,大数据,tika

从报错看,这个方法与文件版本有依赖关系,适应性太差!

排除路径字符问题

尝试了修改文件名为全英文,路径也不包含中文字符或空格,但是都不打印内容!

使用最新的Tika库

最后查阅Tika官网的示例,修改成功的代码如下:

    public static String getConteByTika(String filePath) throws IOException, TikaException, SAXException {
        // 创建一个输入流
        InputStream inputStream = Files.newInputStream(new File(filePath).toPath());

        AutoDetectParser parser = new AutoDetectParser();
        BodyContentHandler handler = new BodyContentHandler(-1);
        Metadata metadata = new Metadata();

        // 解析文件以提取元数据和内容
        parser.parse(inputStream, handler, metadata);
        inputStream.close();
        return handler.toString();
    }

这个方法的返回值当做es的一个普通文本字段内容即可,ES侧不需要额外配置任何插件pipline。

经过验证已经可以解析pdf、docx/excel/ppt和markdown、txt等6种格式的文件内容,实际上可支持的类型要远超这六种。

小结

综上,我们完全可以基于Tika库来设计可控的文档解析,并写入ES,弃用ES的插件。在这种方案里我们可以拥有更高的自由度,并随时可以进行任何的调试,不再是pipline的黑盒方案。文章来源地址https://www.toymoban.com/news/detail-846996.html

到了这里,关于ES解析word内容为空的问题和直接使用Tika解析文档的方案的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 解决Pycharm的available packages为空的问题

    看了很多方法,添加镜像源什么的都不行,最后终于在外网一个论坛找到了解决方法: (1)退出pycharm; (2)删除project里的.idea文件夹; (3)重新打开pycharm; 问题解决: 不知道什么原因,反正问题是解决了。

    2024年02月16日
    浏览(33)
  • 在dockerfile,文件和文件夹打包到镜像中,解决文件夹文件为空的问题

    一般来说直接copy就行了,但是不知道为什么看起来是复制过去了,但实际结果总为空。 最后想了一个办法,那就是把要复制的文件夹在外面压缩成压缩包,然后复制进去即可。 以复制模型缓存为例: base.pt是whisper的模型文件 modelscope.tar.gz文件是压缩后的模型的缓存文件夹,

    2024年03月11日
    浏览(37)
  • 【Java-Util】Hutool工具类判断字符串、对象为空的使用

    判断字符串、包装类、集合、对象是否为空。 字符串工具-StrUtil (hutool.cn) str1为null,str2是字符串,str3为空字符串,str4是包含不可见字符(空格等)的字符串。 使用 StrUtil.isEmpty(str) 和 StrUtil.isBlank(str) 总结: isBlank与 isEmpty(CharSequence) 的区别是: isBlank方法会校验空白字符,且

    2024年02月02日
    浏览(100)
  • 前端response为空的排查思路

    前端response为空的排查思路 首先发现登录的时候,点击了登录没有反应 然后发现post 发出的消息的response为空 观察后端控制台,发现有相应的错误日志,证明请求是打到了后端的。 因此考虑后端的链路出现了问题 首先去看posturl对应的controller的return 发现return中存在对应,那

    2024年02月16日
    浏览(22)
  • 蚁剑返回数据为空的几种原因

    中国蚁剑返回数据为空, 1,可能是post没有大小写, 2,看防火墙有没有关, 3,代理是不是手动。 一句话木马?php @eval($_POST[\\\"password\\\"]);? 今天连接蚁剑死活连不上到头来发现post没有大写 然后就连接成功了 4.格式要换成base64,上下格式都要换成base64

    2024年02月11日
    浏览(31)
  • Java 判断字符串为空的方法

    一.判断方法 if(s == null || s.equals(\\\"\\\")); if(s == null || s.length() == 0); if(s == null || s.isEmpty()); if (s == null || s == \\\"\\\"); 二.哪些情况会抛出空指针异常 s == null 是有必要存在的 String 类型为null, 而去进行 equals(String) 或 length() 等操作会抛出java.lang.NullPointerException. s==null 的顺序必须出现在前面

    2024年02月16日
    浏览(48)
  • loadrunner录制脚本为空Action为空的解决办法(loadrunner12+win10)

    前言:网上搜索过很多解决loadrunner录制脚本为空的解决办法,包括设置默认浏览器为IE、设置Recording Options -Network-Mapping and Filtering中的Capture leve为Socket level and WinlNet level data、下载fiddler、更改端口映射捕捉级别、关闭杀毒软件等等、尝试各种浏览器等等方法都不奏效,Actio

    2024年02月11日
    浏览(32)
  • java中使用BeanUtils.copyProperties方法对象复制同名字段类型不同赋值为空问题解析

    对象之间的复制,dto对象中字段类型为String,model中字段类型为BigDecimal。使用BeanUtils.copyProperties方法进行对象批量复制。 提示:这里描述项目中遇到的问题: 使用Spring 的 BeanUtils.copyProperties 方法发现dto中的String类型字段无法转换为model中的BigDecimal类型同名字段。 使用Spring

    2024年02月13日
    浏览(28)
  • 判断List、Map集合是否为空的方法

    1.判断List集合是否为空 1.1List集合已经完成初始化  这里的List集合已经完成了初始化操作,相当于是一个瓶子可以装水了,但是此时还没有水。  控制台输出:List is empty.  1.2List集合未完成初始化  这里的List集合,还没有进行初始化,相当于瓶子还不存在,用list.isEmpty()会产

    2024年02月15日
    浏览(46)
  • Java中判断对象是否为空的方法详解

    在Java编程中,经常会遇到判断对象是否为空的情况。空指针异常是常见的程序错误之一,因此在编码过程中,判断对象是否为空是一个重要的防御措施。本篇博客将深入探讨Java中判断对象是否为空的不同方法,包括使用条件判断、使用Java 8的Optional类、使用Apache Commons Lang库

    2024年02月13日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包