Elasticsearch——》ngram分词器

这篇具有很好参考价值的文章主要介绍了Elasticsearch——》ngram分词器。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

推荐链接:
    总结——》【Java】
    总结——》【Mysql】
    总结——》【Redis】
    总结——》【Kafka】
    总结——》【Spring】
    总结——》【SpringBoot】
    总结——》【MyBatis、MyBatis-Plus】
    总结——》【Linux】
    总结——》【MongoDB】
    总结——》【Elasticsearch】

一、概念

在 Elasticsearch 中,ngram 分词器是一种基于 n-gram 算法的分词器,用于将文本转换为一组 n-gram 词项。与其他一些分词器(如 standard 分词器)不同,ngram 分词器可以生成部分单词,并且不需要完整的词汇表。

二、工作原理

ngram 分词器的工作原理是将输入文本切分成一个个较小的子字符串,然后将这些子字符串作为词项添加到索引中。这个过程涉及两个参数:min_grammax_gram,它们控制了生成的词项的长度范围

参数 描述 默认值
min_gram 拆分字符的最小阈值 1
max_gram 拆分字符的最大阈值 2

三、示例

1、默认词项的长度

# 默认生成最小长度为1且最大长度为2N-gram
GET _analyze
{
  "tokenizer": "ngram",
  "text": "elastic"
}

2、指定词项的长度(自定义ngram分词器)

DELETE my_index
PUT /my_index
{
  "settings": {
    "index": {
      "max_ngram_diff": 5
    },
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "my_tokenizer"
        }
      },
      "tokenizer": {
        "my_tokenizer": {
          "type": "ngram",
          "min_gram": 2,
          "max_gram": 4
        }
      }
    }
  }
}

GET /my_index/_analyze
{
  "tokenizer": "my_tokenizer",
  "text": "elastic"
}

Elasticsearch——》ngram分词器文章来源地址https://www.toymoban.com/news/detail-462666.html

到了这里,关于Elasticsearch——》ngram分词器的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • linux安装mysql,redis,elasticsearch,rabbitmq

    创建组和用户(通常不使用root账号来运行) 创建名为mysql的用户并将该用户添加到mysql用户组中,设置该用户无法直接登录系统 上传并解压mysql包 改变文件拥有者 修改配置文件 初始化MySQL 启动服务 检查进程和端口,确认启动情况 连接到mysql 让root账号远程可以访问 上传并解压

    2024年02月03日
    浏览(43)
  • 15.集群知识(MySQL+Redis+ElasticSearch+RabbitMQ)

    1.1.双主复制-MMM 1.2.从节点替补-MHA 1.3.InnoDB Cluster doc:https://shardingsphere.apache.org/document/current/cn/overview/what-is-ss/ 配置文档:https://blog.csdn.net/qq_44826685/article/details/106190720 官网proxy文档:https://shardingsphere.apache.org/document/current/cn/user-manual/shardingsphere-proxy/ 下载proxy:https://shardingsp

    2024年01月23日
    浏览(40)
  • Redis、Elasticsearch(ES)、RocketMQ和MYSql 持久化对比

    在现代大数据和分布式系统中,数据持久化是一个至关重要的话题。本文将针对 Redis、Elasticsearch(ES)、 RocketMQ和MYSql 这四种常见的数据存储和消息队列系统进行持久化方面的对比分析,帮助读者更好地了解它们各自的特点和适用场景。 ### Redis 1. **特点**:    - 内存数据库

    2024年04月10日
    浏览(54)
  • 从零开始搭建搜索推荐系统(五十三)QUERY从分词检索进阶

    聊的不止技术。跟着小帅写代码,还原和技术大牛一对一真实对话,剖析真实项目筑成的一砖一瓦,了解最新最及时的资讯信息,还可以学到日常撩妹小技巧哦,让我们开始探索主人公小帅的职场生涯吧! (PS:本系列文章以幽默风趣风格为主,较真侠和杠精请绕道~) 一、

    2024年02月04日
    浏览(26)
  • Linux基础+命令操作+mysql、tomcat、nginx、RabbitMQ、Redis,ElasticSearch

    配置代理 linux组成:系统内核+系统级应用程序 内核功能:CPU调度,没存调度,文件调度,网络调度,IO调度 系统级应用程序:文件管理器,软件等 linux内核下载:https://www.kernel.org linux发行版:内核开源,可修改+系统级程序完整封装为linux发行版。 不同发行版基础操作命令都

    2024年02月11日
    浏览(34)
  • 【ElasticSearch】分词器(ElasticSearchIK分词器)

    •IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包 •是一个基于Maven构建的项目 •具有60万字/秒的高速处理能力 •支持用户词典扩展定义 IK 分词器安装 IK分词器有两种分词模式:ik_max_word 和 ik_smart 模式。 1、 ik_max_word 会将文本做最细粒度的拆分,比如会

    2024年02月04日
    浏览(29)
  • ElasticSearch-使用IK分词器进行分词

    使用KIbana测试IK分词器 打开开发工具台 ik_smart 最少分词器 分词结果比较少 ik_max_word 颗粒度最细分词器 分词结果比较多,组成各种结果,穷尽词库的可能! 再看个例子,把我们的句子换成 超级喜欢魏一鹤学习Java 首先看最少分词 然后是最细颗粒度分词 问题来了 我们输入超级喜

    2024年02月13日
    浏览(30)
  • 自定义分词器:ElasticSearch自定义分词器

    自定义分词器:ElasticSearch自定义分词器 ElasticSearch是一个开源的搜索和分析引擎,它提供了实时的、可扩展的、高性能的搜索功能。ElasticSearch使用Lucene库作为底层搜索引擎,它提供了强大的文本分析和搜索功能。在ElasticSearch中,分词器是将文本拆分为单词的过程,它是搜索

    2024年02月20日
    浏览(25)
  • Elasticsearch分词器--空格分词器(whitespace analyzer)

      文本分析,是将全文本转换为一系列单词的过程,也叫分词。analysis是通过analyzer(分词器)来实现的,可以使用Elasticearch内置的分词器,也可以自己去定制一些分词器。除了在数据写入时将词条进行转换,那么在查询的时候也需要使用相同的分析器对语句进行分析。 分词器

    2024年02月04日
    浏览(30)
  • 推荐系统[一]:超详细知识介绍,一份完整的入门指南,解答推荐系统相关算法流程、衡量指标和应用,以及如何使用jieba分词库进行相似推荐,业界广告推荐技术最新进展

    搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排)、系统架构、常见问题、算法项目实战总结、技术细节以及项目实战(含码源) 专栏详细介绍:搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排)、系统架构、常见问题、算法项目

    2024年02月13日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包