Elasticsearch 的 NGram 分词器使用技巧-Toy模板网

这篇具有很好参考价值的文章主要介绍了Elasticsearch 的 NGram 分词器使用技巧。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、什么是NGram 分词器？

NGram分词器是ES自带的具有前缀匹配搜索功能的一个文本分词器。它能根据文本的步长逐步对写入的文本内容进行约束切割;

二、NGram和index-time搜索推荐原理

搜索的时候，不用再根据一个前缀，然后扫描整个倒排索引了，而是简单的拿前缀去倒排索引中匹配即可，如果匹配上了，那么就好了，就和match query全文检索一样。

官方文档：NGram Tokenizer | Elasticsearch Guide [6.8] | Elastic

官方介绍如下：

es ngram,elasticsearch,大数据,搜索引擎

在默认设置下，ngram标记器将初始文本视为单个标记，并生成最小长度为1、最大长度为2的N个字符串，这个最大最小长度我们是可以配置的。

例如：

POST _analyze
{
  "tokenizer": "ngram",
  "text": "Quick Fox"
}

上述句子将产生以下术语：

空格也会进行分词

[ Q, Qu, u, ui, i, ic, c, ck, k, "k ", " ", " F", F, Fo, o, ox, x ]

三配置参数

The ngram tokenizer accepts the following parameters:

min_gram

Minimum length of characters in a gram. Defaults to 1.

max_gram

Maximum length of characters in a gram. Defaults to 2.

token_chars

Character classes that should be included in a token. Elasticsearch will split on characters that don’t belong to the classes specified. Defaults to [] (keep all characters).

应包含在令牌中的字符类。Elasticsearch将对不属于指定类的字符进行拆分。默认值为[]（保留所有字符）。也就是遇到这些字符会进行分词。

Character classes may be any of the following:

letter — for example a, b, ï or 京
digit — for example 3 or 7
whitespace — for example " " or "\n"
punctuation — for example ! or "
symbol — for example $ or √

TIP：将min_gram和max_gram设置为相同的值通常是有意义的。长度越小，匹配的文档越多，但匹配的质量越低。长度越长，匹配的内容就越具体。三克（长度3）是一个很好的起点。

例子：

PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "my_tokenizer"
        }
      },
      "tokenizer": {
        "my_tokenizer": {
          "type": "ngram",
          "min_gram": 3,
          "max_gram": 3,
          "token_chars": [
            "letter",
            "digit"
          ]
        }
      }
    }
  }
}

POST my_index/_analyze
{
  "analyzer": "my_analyzer",
  "text": "2 Quick Foxes."
}

分词：文章来源地址https://www.toymoban.com/news/detail-596749.html