Elasticsearch对数字，英文字母等的分词N-gram tokenizer

1年前作者：haixin_wu分类：Toy博客阅读(10)违法举报

这篇具有很好参考价值的文章主要介绍了Elasticsearch对数字，英文字母等的分词N-gram tokenizer。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Elasticsearch中提供了一个叫N-gram tokenizer的分词器，官方介绍如下

N-gram tokenizer

The ngram tokenizer first breaks text down into words whenever it encounters one of a list of specified characters, then it emits N-grams of each word of the specified length.

N-grams are like a sliding window that moves across the word - a continuous sequence of characters of the specified length. They are useful for querying languages that don’t use spaces or that have long compound words, like German.

Example output

With the default settings, the ngram tokenizer treats the initial text as a single token and produces N-grams with minimum length 1 and maximum length 2:

POST _analyze
{
  "tokenizer": "ngram",
  "text": "Quick Fox"
}

The above sentence 文章来源地址https://www.toymoban.com/news/detail-414980.html

到了这里，关于Elasticsearch对数字，英文字母等的分词N-gram tokenizer的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

自然语言处理: 第一章N-Gram
定义: 语言模型在wiki的定义是统计式的语言模型是一个几率分布，给定一个长度为 m 的字词所组成的字串 W1 , W2 ，··· ，Wn ，派几率的字符串P(S) = P(W1 , W2 ,··· ，Wn ， )而其中由条件概率公式我们可以得到下图2的公式，然后我们再利用马尔可夫假设(每个词的出现的概率只
2024年02月09日
浏览(6)
N-Gram语言模型工具kenlm的详细安装教程
【本配置过程基于Linux系统】下载源代码：编译：发现报错：系统中没有cmake，按照错误提示，执行以下命令：安装完成后，再次cmake：又报错：找不到boost，那么就下载它：安装完成后继续cmake，无语，还报错： boost依赖包没装全，索性全装了：对于eigen3这个包
2024年02月10日
浏览(8)
【自然语言处理】【深度学习】NLP中的N-gram理解
N-gram是自然语言处理（NLP）中的一个概念，它描述的是文本中连续的n个项（通常是单词或字符）。这个概念主要用于语言建模和文本分析中。具体来说： Unigram (1-gram): 包含一个单词的序列，例如句子中的单个单词。 Bigram (2-gram): 包含两个相邻单词的序列。例如，在句子 “
2024年01月25日
浏览(9)
es自定义分词器支持数字字母分词，中文分词器jieba支持添加禁用词和扩展词典
自定义分析器，分词器所有字段检索高亮搜索分词测试 GET /test_index/_analyze jieba中文分词支持添加禁用词和扩展词库功能创建索引：PUT http://xxxx:9200/test_index 分词测试： GET http://xxxxxx:9200/test_index/_analyze
2024年02月11日
浏览(8)
Elasticsearch实战（四）---中英文分词及拼音搜索
Elasticsearch实战-中英文分词及拼音搜素 1.ElasticSearch 中英文分词插件基于文章 Elasticsearch实战（一）—安装及基本语法使用前面的文章，我们已经基本使用了ES，而且也讲了 match 和 match_phrase的区别，今天讲一下如何分词 1.1 分词插件在官网上都可以下载 IK分词地址如果GitHu
2024年02月14日
浏览(15)
深度学习 - 40. N-Gram 采样与 Session 数据获取 For EGES
目录一.引言二.订单数据预处理 1.数据样例 2.订单数据处理 3.用户 Session 构建三.构造 sku_id 游走序列 1.获取完整 Session List 2.统计 sku_id 转移词频 3.构建 sku_id 图 4.游走构造 sku 序列四.商品侧信息预处理 1.读取商品信息 2.Left Join 匹配侧信息 3.Id2Index 构建五.基于 Ngram 与 Negat
2023年04月23日
浏览(10)
【如何用大语言模型快速深度学习系列】从n-gram到TFIDF
感谢上一期能够进入csdn“每日推荐看”，那必然带着热情写下第二期《从n-gram到TFIDF》，这里引入一本《Speach and Language Processing》第三版翻译版本（语音与语言处理(SLP)），前半部分写的很好！里面连编辑距离（海明距离）都讲了，所以算很详细的了。那本期末尾留一个坑，
2024年02月12日
浏览(5)
Python----统计字符串中的英文字母、空格、数字和其它字符的个数。
1、输入一行字符，分别统计出其中英文字母、空格、数字和其它字符的个数。方法一：使用正则表达式方式二：方式三：使用列表[]
2024年02月06日
浏览(56)
人工智能自然语言处理：N-gram和TF-IDF模型详解
N-Gram 是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为 N 的滑动窗口操作，形成了长度是 N 的字节片段序列。每一个字节片段称为 gram，对所有 gram 的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键 gram 列表，也就是
2024年02月16日
浏览(17)
【Chatgpt4 教学】 NLP（自然语言处理）第十一课 n-gram模型原理
我起/点更新NLP（自然语言处理）——《王老师带我成为救世主》（1）--------------------------------------------------------------------------------------- 我：简要介绍n-gram模型及其优缺点； AI： n-gram模型是一种用于语言建模和文本生成的基本模型，它基于一个简单的假设：一个单词在出现
2023年04月19日
浏览(9)