Elasticsearch7.8.0版本进阶——IK中文分词器

这篇具有很好参考价值的文章主要介绍了Elasticsearch7.8.0版本进阶——IK中文分词器。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、ES 的默认分词器测试示例

  • 通过 Postman 发送 GET 请求查询分词效果,在消息体里,指定要分析的文本

    # GET http://localhost:9200/_analyze
    {
    	"text":"王者荣耀"
    }
    

    elasticsearch-analysis-ik-8.7.0,elasticsearch,elasticsearch

  • 输出结果如下:
    elasticsearch-analysis-ik-8.7.0,elasticsearch,elasticsearch

  • 由上图输出结果可知,ES 的默认分词器无法识别中文中测试、单词这样的词汇,而是简单的将每个字拆完分为一个词,这样的结果显然不符合我们的使用要求,所以我们需要下载 ES 对应版本的中文分词器。

二、IK 中文分词器

2.1、IK 中文分词器下载地址

  • 下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v7.8.0
    elasticsearch-analysis-ik-8.7.0,elasticsearch,elasticsearch

2.2、ES 引入IK 中文分词器

  • 将IK 中文分词器安装包解压,然后把解压后的文件夹放入 ES 根目录下的 plugins 目录下,重启 ES 即可使用。
    elasticsearch-analysis-ik-8.7.0,elasticsearch,elasticsearch

  • 注意:ES的安装目录一定不要带有中文或者空格,否则引入IK 中文分词器会报如下错误:

    java.security.AccessControlException: access denied ("java.io.FilePermission"
     "D:\Program Files\elasticsearch-7.8.0\plugins\elasticsearch-analysis-ik-7.8.0\config
     \IKAnalyzer.cfg.xml" "read")
    

2.3、IK 中文分词器测试示例

  • 通过 Postman 发送 GET 请求查询分词效果,在消息体里,指定分析器和要分析的文本

    # GET http://localhost:9200/_analyze
    {
        "analyzer":"ik_max_word",
        "text": "王者荣耀"
    }
    

    elasticsearch-analysis-ik-8.7.0,elasticsearch,elasticsearch

  • 分析器的key值解释

    分析器的key值 分析器的key值解释
    ik_max_word 会将文本做最细粒度的拆分
    ik_smart 会将文本做最粗粒度的拆分
  • 使用IK中文分词后的结果为:
    elasticsearch-analysis-ik-8.7.0,elasticsearch,elasticsearch

三、ES 扩展词汇测试示例

  • 通过 Postman 发送 GET 请求查询分词效果,在消息体里,指定分析器和要分析的文本

    # GET http://localhost:9200/_analyze
    {
    	"text":"弗雷尔卓德",
    	"analyzer":"ik_max_word"
    }
    
  • 输出结果如下:
    elasticsearch-analysis-ik-8.7.0,elasticsearch,elasticsearch

  • 由上图输出结果可知,仅仅可以得到每个字的分词结果。如何使分词器识别到弗雷尔卓德也是一个词语。

  • 首先进入 ES 根目录中的 plugins 文件夹下的 ik 文件夹,进入 config 目录,创建 custom.dic
    文件,写入弗雷尔卓德。,如下图:

    elasticsearch-analysis-ik-8.7.0,elasticsearch,elasticsearch

  • 注意:custom.dic文件内容的格式的编码为UTF-8格式编码,否则会导致扩展词汇失效。

    elasticsearch-analysis-ik-8.7.0,elasticsearch,elasticsearch

  • 同时打开 IKAnalyzer.cfg.xml 文件,将新建的 custom.dic 配置其中,如下图:

    elasticsearch-analysis-ik-8.7.0,elasticsearch,elasticsearch

  • 重启 ES 服务器。由下图可知,文件确实被加载了。
    elasticsearch-analysis-ik-8.7.0,elasticsearch,elasticsearch

  • 然后通过 Postman 发送 GET 请求查询分词效果。如下图:
    elasticsearch-analysis-ik-8.7.0,elasticsearch,elasticsearch文章来源地址https://www.toymoban.com/news/detail-789299.html

到了这里,关于Elasticsearch7.8.0版本进阶——IK中文分词器的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Elasticsearch之ik中文分词篇

    es在7.3版本已经支持中文分词,由于中文分词只能支持到单个字进行分词,不够灵活与适配我们平常使用习惯,所以有很多对应中文分词出现,最近使用的是ik分词器,就说说它吧。 安装可以百度下有很多教程,需要注意的是ik分词器的版本要跟es版本对应上,避免出现不必要

    2024年02月02日
    浏览(53)
  • 本地elasticsearch中文分词器 ik分词器安装及使用

    ElasticSearch 内置了分词器,如标准分词器、简单分词器、空白词器等。但这些分词器对我们最常使用的中文并不友好,不能按我们的语言习惯进行分词。 ik分词器就是一个标准的中文分词器。它可以根据定义的字典对域进行分词,并且支持用户配置自己的字典,所以它除了可

    2024年02月05日
    浏览(57)
  • Elasticsearch安装中文分词器IK Analyzer

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 本文介绍IK Analyzer分词器的安装配置、使用以及ES数据迁移。 克隆IK分词器项目,根据README的描述选择对应版本的分支。浏览器访问ES的ip+端口就能看到版本信息,所以我需要切到master分支。 打开pom需要

    2024年02月12日
    浏览(44)
  • Elasticsearch7.8.0版本入门——Elasticsearch指定JDK11版本

    本地安装jdk1.8版本后,安装Elasticsearch7.8.0需要jdk11及以上版本支持 下载jdk11解压即用安装包,解压到具体磁盘目录 在系统变量中增加了一个 ES_JDK, 指向了刚刚JDK11 的目录 ,如下图: 进入elasticsearch/bin目录下,找到 elasticsearch-env 这个文件,把【JAVA_HOME】换成刚刚系统变量中配

    2024年02月12日
    浏览(36)
  • es elasticsearch 十 中文分词器ik分词器 Mysql 热更新词库

    目录 中文分词器ik分词器 介绍 安装 使用分词器 Ik分词器配置文件 Mysql 热更新词库 介绍 中文分词器按照中文进行分词,中文应用最广泛的是ik分词器 安装 官网下载对应版本zip 下载  放到  plugins 目录 新建 ik文件夹 考入解析zip 重启 es //分成小单词 使用分词器 ik_max_word分成

    2024年02月07日
    浏览(51)
  • Elasticsearch教程(35) ik中文分词器+pinyin拼音分词器+同义词

    闲来无事,发现上一篇ES博客还是 去年9月份 写的中文ik分词器 pinyin 首字母 search_as_you_type 组合使用,该篇文章还挖了一个 大坑 没有填,快一年了,是时候填下坑了。 针对股票查询这个特点场景,再结合一般使用者的搜索习惯,暂时确定如下7种期望效果。 上一篇博客Elast

    2023年04月09日
    浏览(31)
  • ElasticSearch 学习9 spring-boot ,elasticsearch7.16.1实现中文拼音分词搜索

    一、elasticsearch官网下载:Elasticsearch 7.16.1 | Elastic 二、拼音、ik、繁简体转换插件安装 ik分词:GitHub - medcl/elasticsearch-analysis-ik: The IK Analysis plugin integrates Lucene IK analyzer into elasticsearch, support customized dictionary. 拼音分词:GitHub - medcl/elasticsearch-analysis-pinyin: This Pinyin Analysis plugin is

    2024年01月22日
    浏览(40)
  • Elasticsearch7.8.0版本入门—— 高亮查询文档(高级查询)

    在 Postman 中,向 ES 服务器发 POST 请求 :http://localhost:9200/user/_doc/ 1 ,请求体内容为: 在 Postman 中,向 ES 服务器发 POST 请求 :http://localhost:9200/user/_doc/ 2 ,请求体内容为: 在 Postman 中,向 ES 服务器发 POST 请求 :http://localhost:9200/user/_doc/ 3 ,请求体内容为: 在 Postman 中,向

    2024年02月01日
    浏览(48)
  • Elasticsearch07:ES中文分词插件(es-ik)安装部署

    在中文数据检索场景中,为了提供更好的检索效果,需要在ES中集成中文分词器,因为ES默认是按照英文的分词规则进行分词的,基本上可以认为是单字分词,对中文分词效果不理想。 ES之前是没有提供中文分词器的,现在官方也提供了一些,但是在中文分词领域,IK分词器是

    2024年02月03日
    浏览(70)
  • Elasticsearch7.8.0版本入门—— 完全匹配查询文档(高级查询)

    在 Postman 中,向 ES 服务器发 POST 请求 :http://localhost:9200/user/_doc/ 1 ,请求体内容为: 在 Postman 中,向 ES 服务器发 POST 请求 :http://localhost:9200/user/_doc/ 2 ,请求体内容为: 在 Postman 中,向 ES 服务器发 POST 请求 :http://localhost:9200/user/_doc/ 3 ,请求体内容为: 在 Postman 中,向

    2023年04月24日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包