ES的ik分词器ik_smart和ik_max_word区别

这篇具有很好参考价值的文章主要介绍了ES的ik分词器ik_smart和ik_max_word区别。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

IK使用
IK有两种颗粒度的拆分:

  1. ik_smart: 会做最粗粒度的拆分

  2. ik_max_word: 会将文本做最细粒度的拆分

GET /_analyze

{
  "text":"中华人民共和国国徽",
  "analyzer":"ik_smart"
}

ik_smart分词结果:

{
  "tokens" : [
    {
      "token" : "中华人民共和国",
      "start_offset" : 0,
      "end_offset" : 7,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "国徽",
      "start_offset" : 7,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 1
    }
  ]
}

GET /_analyze

{
  "text":"中华人民共和国国徽",
  "analyzer":"ik_max_word"
}

ik_max_word分词结果文章来源地址https://www.toymoban.com/news/detail-507799.html

{
  "tokens" : [
    {
      "token" : "中华人民共和国",
      "start_offset" : 0,
      "end_offset" : 7,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "中华人民",
      "start_offset" : 0,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "中华",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "华人",
      "start_offset" : 1,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "人民共和国",
      "start_offset" : 2,
      "end_offset" : 7,
      "type" : "CN_WORD",
      "position" : 4
    },
    {
      "token" : "人民",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 5
    },
    {
      "token" : "共和国",
      "start_offset" : 4,
      "end_offset" : 7,
      "type" : "CN_WORD",
      "position" : 6
    },
    {
      "token" : "共和",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 7
    },
    {
      "token" : "国",
      "start_offset" : 6,
      "end_offset" : 7,
      "type" : "CN_CHAR",
      "position" : 8
    },
    {
      "token" : "国徽",
      "start_offset" : 7,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 9
    }
  ]
}

到了这里,关于ES的ik分词器ik_smart和ik_max_word区别的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【ELK04】ES 分词计算、IK分词器安装使用手册和热词动态更新

    本小结主要了解的内容是: 了解分词器的概念 掌握IK分词器和热词配置 ES中为了方便查询,提供多维度的查询功能,对存储在索引中的文档进行分词计算,但是文本内容不同,类型不同,语言不同分词计算逻辑就不会一样. 文本分析使Elasticsearch能够执行全文搜索,其中搜索返回所有

    2024年02月04日
    浏览(37)
  • Elasticsearch使用系列-ES增删查改基本操作+ik分词

    ES是一个NoSql数据库应用。和其他数据库一样,我们为了方便操作查看它,需要安装一个可视化工具 Kibana。 官网: https://www.elastic.co/cn/downloads/kibana 和前面安装ES一样,选中对应的环境下载,这里选择windows环境,注意安装的版本一定要和ES的版本一致,不然可能会启动不起来。

    2024年02月01日
    浏览(56)
  • ElasticSearch的使用,安装ik分词器,自定义词库,SpringBoot整合ES(增、删、改、查)

    保存一个数据,保存在哪个索引的哪个类型下,指定用哪个唯一标识(相当于,保存一个数据,保存在那个数据库中的哪个表中,指定主键ID) 例:PUT customer/external/1;在customer索引下的external类型下保存1号数据name为John Doe的数据 POST和PUT都可以新增数据 注意: POST 新增。如果

    2023年04月25日
    浏览(50)
  • es安装ik分词器

    IK分词器下载地址: https://github.com/medcl/elasticsearch-analysis-ik/releases 下载ES版本对应的分词器即可 安装ik分词器 将下载好的zip包解压,生成一个ik文件夹 将ik文件夹移动到ES安装目录下的 plugins 文件夹下(每台ES节点都要执行相同的操作) 重启ES集群 自定义分词库 用 vim 在ik中的

    2023年04月10日
    浏览(42)
  • es安装中文分词器 IK

    1.下载 https://github.com/medcl/elasticsearch-analysis-ik 这个是官方的下载地址,下载跟自己es版本对应的即可 那么需要下载 7.12.0版本的分词器 2.安装 1.在es的 plugins 的文件夹下先创建一个ik目录 bash cd /home/apps/elasticsearch/plugins/ mkdir ik 2.然后将下载解压后的文件放入到ik文件夹下 3.重启

    2024年02月21日
    浏览(43)
  • ES(二)| 安装ES、Kibana、IK分词器、拼音分词器(自动补全)

    上一篇:ES(一)| ES简介、倒排索引、索引库操作语法、文档操作语法、Java使用RestClient进行ES操作 安装包下载: 链接:https://pan.baidu.com/s/1Y1O0B8aG7qzRLFFVYo9nHw 提取码:hdyc 因为我们还需要部署 kibana 容器,因此需要让 es 和 kibana 容器互联。这里先创建一个网络: 这里我采用

    2023年04月08日
    浏览(56)
  • SpringBoot整合ES,ik分词器

    \\\"reason\\\": \\\"Failed to parse mapping: analyzer [ik_max_word] has not been configured in mappings\\\"  这是因为没有安装ES的IK分词器 下载地址 Release v8.7.0 · medcl/elasticsearch-analysis-ik · GitHub ElasticSearch 内置了分词器,如标准分词器、简单分词器、空白词器等。但这些分词器对我们最常使用的 中

    2024年02月08日
    浏览(39)
  • ES搜索框架--设置IK分词器

    ES的默认中文分词效果太差了,稍微长一点的词句就完全匹配不到,于是选择使用安装IK中文分词器来实现索引的分词。 参考: https://blog.csdn.net/w1014074794/article/details/119762827 https://www.bbsmax.com/A/6pdDqDaXzw/ 一、安装 官网教程: https://github.com/medcl/elasticsearch-analysis-ik,注意版本对

    2024年02月08日
    浏览(43)
  • [ES]mac安装es、kibana、ik分词器

    1、创建一个网络,网络内的框架(es+kibana)互联 2、下载es和kibana 3、运行docker命令部署单点es+kibana(用来操作es) 说明 4、访问 5、查看日志 访问http://localhost:5601/ 点击这个,在里面写就行了 ​ 可选的有standard、english、chinese但是他们的中文都是一个字分一个词 下载这个 https:

    2024年02月11日
    浏览(38)
  • Docker安装es以及ik分词器

    https://github.com/medcl/elasticsearch-analysis-ik/releases 若出现下图则成功 分词的作用和关系型数据库中的模糊查询相似,不同的是es可以为字段中的每个分词创建索引,通过空间换时间的方式大大提高了模糊查询的效率。而关系型数据库用like模糊查询时只有like xxx%的情况下会利用索引

    2024年02月14日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包