Elasticsearch 外部词库文件更新

这篇具有很好参考价值的文章主要介绍了Elasticsearch 外部词库文件更新。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文所使用的ES集群环境可在历史文章中获取,采用docker部署的方式。

Elasticsearch 是一个功能强大的搜索引擎,广泛用于构建复杂的全文搜索应用程序。在许多情况下,为了提高搜索引擎的性能和精度,我们可以使用外部词库来定制和扩展 Elasticsearch 的文本处理和搜索功能。本文将介绍外部词库的用途、优势以及如何在 Elasticsearch 中使用它们。

为什么需要外部词库?

Elasticsearch 默认提供了一套强大的文本处理工具,包括分词、标记过滤、同义词处理等。然而,在某些情况下,我们需要更多的控制权来适应特定的用例和需求。外部词库允许我们:

  1. 自定义分词器:通过使用外部词库,您可以创建自定义分词器,以根据特定需求定义文本分割规则。这对于处理不同语言或行业的文本非常有用。

  2. 扩展停用词列表:停用词(如andthe等)通常被排除在搜索索引之外。外部词库允许您将领域特定的停用词添加到索引中,以便更好地适应我们行业内的数据。

  3. 同义词处理:创建同义词词库可确保相关词汇在搜索时被正确映射,提高搜索结果的准确性。

  4. 专业术语:对于特定领域或行业,我们可以通过创建外部词库,以包含特定领域的专业术语,确保搜索引擎能够理解和处理这些术语。

使用外部词库的优势

使用外部词库有以下优势:

  1. 提高搜索质量:通过自定义分词和停用词,可以确保搜索引擎更好地理解和处理文本,提高搜索质量。

  2. 适应特定需求:外部词库允许根据特定用例和领域需求对搜索引擎进行定制,以满足工作要求。

  3. 更好的用户体验:通过包含专业术语和扩展的同义词映射,用户能够更轻松地找到他们需要的内容。

如何在 Elasticsearch 中使用外部词库

在 Elasticsearch 中使用外部词库通常涉及以下步骤:

  1. 创建外部词库文件:首先,我们需要准备一个外部词库文件,其中包含自定义的词汇、同义词或停用词列表。

  2. 将词库上传到 Elasticsearch:上传词库文件到 Elasticsearch

  3. 配置索引:将外部词库与索引相关联,以确保 Elasticsearch 在索引文档时使用这些词汇。

  4. 搜索优化:根据需要在搜索查询中应用外部词库,以扩展或定制搜索行为。

示例:使用自定义词库分词

本文在 IK 分词器的基础上增加自定义分词,并配置本地词库文件,远程热更新词库文件。

本地词库

  • 首先在启动的ES中对醉鱼两个字进行分词,IK 默认分为两个汉字

    GET _analyze
    {
      "analyzer": "ik_max_word",
      "text": ["醉鱼"]
    }
    

    结果如下

    {
      "tokens" : [
        {
          "token" : "醉",
          "start_offset" : 0,
          "end_offset" : 1,
          "type" : "CN_CHAR",
          "position" : 0
        },
        {
          "token" : "鱼",
          "start_offset" : 1,
          "end_offset" : 2,
          "type" : "CN_CHAR",
          "position" : 1
        }
      ]
    }
    
    

    而我们的需求是让其能分为一次词语,而不是两个汉字,那么下面引入我们的自定义分词文件

  • ESplugins/ik/config 目录下创建自定义词库文件 zuiyu.dic,文件内容如下,格式为一个词语为一行。

    醉鱼
    
  • 修改 IK 的配置,支持自定义分词文件 ,修改plugins/ik/config 目录下的IKAnalyzer.cfg.xml,修改其中<entry key="ext_dict"></entry>的值,为本地文件路径,配置为相对路径,直接填写上一步创建的zuiyu.dic,结果如下

    <entry key="ext_dict">zuiyu.dic</entry>

    <?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
    <properties>
    	<comment>IK Analyzer 扩展配置</comment>
    	<!--用户可以在这里配置自己的扩展字典 -->
    	<entry key="ext_dict">zuiyu.dic</entry>
    	 <!--用户可以在这里配置自己的扩展停止词字典-->
    	<entry key="ext_stopwords"></entry>
    	<!--用户可以在这里配置远程扩展字典 -->
    	<!--<entry key="remote_ext_dict"></entry>-->
    	<!--用户可以在这里配置远程扩展停止词字典-->
    	<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
    </properties>
    
    
  • 如果是启动的ES集群,需要复制当前两个文件到所有的集群中

    1、当前集群有三个节点,其中都配置本地词库文件,但是node1node2中都没有增加醉鱼这词语,只有node3有,此时使用分词是无法达到预期效果的。

    2、node1中配置正常的<entry key="ext_dict">zuiyu.dic</entry>zuiyu.dic中也包含醉鱼这个词语。node2node3都不配置ext_dict,此时当前这个环境是可以进行正确分词,达到预期的结果的。

  • 重启 ES

  • 测试分词效果,使用同样的分词语句

    GET _analyze
    {
      "analyzer": "ik_max_word",
      "text": ["醉鱼"]
    }
    

    结果如下

    {
      "tokens" : [
        {
          "token" : "醉鱼",
          "start_offset" : 0,
          "end_offset" : 2,
          "type" : "CN_WORD",
          "position" : 0
        }
      ]
    }
    

    一般来说,词语肯定不是固定的,随着工作的长期积累,不断地发现新的专业术语,那么热更新,动态更新词库,不在每次更新词库之后重启ES就是非常有必要的了,下面来看一下热更新词库。

远程词库(热更新)

热更新词库的区别就是IKAnalyzer.cfg.xml文件中的一个配置的问题。不过核心还是需要一个词库文件,刚才是通过路径访问的,但是无法热更新,所以现在需要改为URL访问,也就是 HTTP 请求可以读取到的形式。一个词语一行返回即可。

此处使用 Nginx 来做演示。Nginx 中的配置如下

  • nginx.conf

            location /dic/zuiyu.dic {
                alias   html/dic/zuiyu.dic;   
            }
    
  • zuiyu.dic 文件内容如下

    醉鱼
    
  • IKAnalyzer.cfg.xml配置修改如下,IP为部署的 NginxIP ,端口也是根据自己 Nginx 监听的端口修改

    <entry key="remote_ext_dict">http://192.168.30.240:8088/dic/zuiyu.dic</entry>
    

    完整的配置如下

    <?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
    <properties>
    	<comment>IK Analyzer 扩展配置</comment>
    	<!--用户可以在这里配置自己的扩展字典 -->
    	<entry key="ext_dict">zuiyu.dic</entry>
    	 <!--用户可以在这里配置自己的扩展停止词字典-->
    	<entry key="ext_stopwords"></entry>
    	<!--用户可以在这里配置远程扩展字典 -->
    	<entry key="remote_ext_dict">http://192.168.30.240:8088/dic/zuiyu.dic</entry>
    	<!--用户可以在这里配置远程扩展停止词字典-->
    	<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
    </properties>
    
    
  • 验证URL访问结果,使用浏览器或者postman等工具访问 http://192.168.30.240:8088/dic/zuiyu.dic 可以返回我们的文件内容即可,也是一个词语一行的形式。

  • 复制IKAnalyzer.cfg.xml 到集群的每个节点中

  • 重启ES

  • 测试对 醉鱼 分词,可以看到与上面本地词库时是同样的效果

    {
      "tokens" : [
        {
          "token" : "醉鱼",
          "start_offset" : 0,
          "end_offset" : 2,
          "type" : "CN_WORD",
          "position" : 0
        }
      ]
    }
    
  • 测试对我爱你醉鱼进行分词

    GET _analyze
    {
      "analyzer": "ik_max_word",
      "text": ["我爱你醉鱼"]
    }
    

    结果如下

    {
      "tokens" : [
        {
          "token" : "我爱你",
          "start_offset" : 0,
          "end_offset" : 3,
          "type" : "CN_WORD",
          "position" : 0
        },
        {
          "token" : "爱你",
          "start_offset" : 1,
          "end_offset" : 3,
          "type" : "CN_WORD",
          "position" : 1
        },
        {
          "token" : "醉鱼",
          "start_offset" : 3,
          "end_offset" : 5,
          "type" : "CN_WORD",
          "position" : 2
        }
      ]
    }
    
  • zuiyu.dic中增加我爱你醉鱼,最终的文件内容如下

    醉鱼
    我爱你醉鱼
    
  • 增加完成之后,这5个字已经成为一个词语,分词结果如下

    {
      "tokens" : [
        {
          "token" : "我爱你醉鱼",
          "start_offset" : 0,
          "end_offset" : 5,
          "type" : "CN_WORD",
          "position" : 0
        },
        {
          "token" : "我爱你",
          "start_offset" : 0,
          "end_offset" : 3,
          "type" : "CN_WORD",
          "position" : 1
        },
        {
          "token" : "爱你",
          "start_offset" : 1,
          "end_offset" : 3,
          "type" : "CN_WORD",
          "position" : 2
        },
        {
          "token" : "醉鱼",
          "start_offset" : 3,
          "end_offset" : 5,
          "type" : "CN_WORD",
          "position" : 3
        }
      ]
    }
    

    仅在一个节点 node1 中配置了远程词库,node2node3 都没有配置任何的词库,此时当前环境无法达到我们的预期分词效果

总结

通过上面我们的试验,可以发现结合 IK分词器,使用自定义词库,可以满足我们专业内的词语分词,实现更好的分词效果,再加上动态词库的更新,对我们的工作还是很有必要的,配置过程是不是很简单,下面就赶紧用起来吧。文章来源地址https://www.toymoban.com/news/detail-765157.html

到了这里,关于Elasticsearch 外部词库文件更新的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Elasticsearch同义词自定义词库未生效原因

    检查文件及目录是否存在 所有节点配置完之后都要重启 检查测试脚本是否正确的,我遇到的问题就是脚本不正确但是确能执行,就是拿不到正确结果 错误脚本: 正确脚本:

    2024年02月11日
    浏览(37)
  • ElasticSearch的使用,安装ik分词器,自定义词库,SpringBoot整合ES(增、删、改、查)

    保存一个数据,保存在哪个索引的哪个类型下,指定用哪个唯一标识(相当于,保存一个数据,保存在那个数据库中的哪个表中,指定主键ID) 例:PUT customer/external/1;在customer索引下的external类型下保存1号数据name为John Doe的数据 POST和PUT都可以新增数据 注意: POST 新增。如果

    2023年04月25日
    浏览(49)
  • java后端对接外部系统(HttpClient HttpPost)

    最近遇到一个需求对接外部系统,我们自己的系统发送请求,根据请求内容的不同调用不同的外部系统。举例:我们是做互联网医院的,根据医生开处方选择药店的不同,调用各药店自己的系统,返回结果 可以学到对接外部系统的一些设计 构造需要的json java项目中HTTPPost请求

    2024年02月15日
    浏览(50)
  • KubeSphere 接入外部 Elasticsearch 最佳实践

    作者:张坚,科大讯飞开发工程师,云原生爱好者。 大家好,我是张坚。今天来聊聊如何在 KubeSphere 中集成外置的 ES 组件。 KubeSphere 在安装完成时候可以启用日志组件,这样会安装 ES 组件并可以收集所有部署组件的日志,也可以收集审计日志,然后可以很方便的在 KubeSphe

    2024年02月02日
    浏览(47)
  • 16、Flink 的table api与sql之连接外部系统: 读写外部系统的连接器和格式以及Elasticsearch示例(2)

    一、Flink 专栏 Flink 专栏系统介绍某一知识点,并辅以具体的示例进行说明。 1、Flink 部署系列 本部分介绍Flink的部署、配置相关基础内容。 2、Flink基础系列 本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。 3、

    2024年02月11日
    浏览(52)
  • Jieba分词模式详解、词库的添加与删除、自定义词库失败的处理

    Jieba(结巴)是一个中文分词第三方库,它可以帮助我们将一段中文文本分成一个个独立的词语。Jieba具有以下特点: 简单易用:Jieba提供了简洁的API接口,易于使用和扩展。可以快速地实现中文分词功能。 高效准确:Jieba采用了基于前缀词典和动态规划算法的分词方法,能够

    2024年02月05日
    浏览(33)
  • 后端常使用的中间件知识点--持续更新

    类型 难度 mysql mysql中SQL优化:多角度分析 包学包会,sql优化全过程,刨根分析 redis 多角度剖析redis数据结构及底层实现原理、应用场景 MQ 简单大体说明RabbitMQ的使用(简单版) mybatis 使用JDBC的批量插入百万数据要多少秒 一遍就会的,从0开始在springboot上使用Mybatis对数据库进

    2024年02月13日
    浏览(38)
  • 后端开发4.Elasticsearch的搭建

    使用docker安装 安装elasticsearch 拉取镜像 容器间建立通信,创建 elastic的网关 创建es容器【自启动】【虚拟机处理器数量至少两个】 安装kibana 拉取镜像

    2024年02月14日
    浏览(26)
  • java web(后端+前端) 学习路线记录---1.Java(更新中)

    资源:狂神说 1.注释、标识符、 (1) 建立空项目来建立java项目: (2) 单行注释://注释 (3) 多行注释:/* Djandjan / (4) 文档注释: / * */ 2标识符(类名,变量名,方法名) (5) (6) 标识符注意点: 2.数据类型 (1) 要求变量严格符合规范,所有变量先

    2024年02月20日
    浏览(42)
  • WebSocket实现后端数据变化,通知前端实时更新数据

    背景 ​ 项目中需要做一个消息提示功能,当有用户处理相关待办信息后,别的用户需要实时更新处理后的待办信息。 解决方案: ​ 1、使用最原始的方法,写个定时器去查询待办信息。但这种方式在大多数情况是不被允许的,它会浪费系统中的许多资源,同时也并不是完全

    2024年04月15日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包