elasticsearch分词器详解

这篇具有很好参考价值的文章主要介绍了elasticsearch分词器详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

分词器

简介

ES文档的数据拆分成一个个有完整含义的关键词,并将关键词与文档对应,这样就可以通过关键词查询文档

要想正确的分词,需要选择合适的分词器

默认分词器

简介

根据空格和标点符号对英文进行分词,会进行单词的大小写转换
默认分词器是英文分词器,对中文的分词是一字一词

基本使用
GET /_analyze

{
  "text": "月木天上",
  "analyzer": "standard"
}          


           

IK分词器

简介

IK分词器提供了两种分词算法:
ik_smart:最少切分
ik_max_word:最细粒度划分

IK分词器词典

IK分词器根据词典进行分词,词典文件在IK分词器的config目录中:
main.dic:IK中内置的词典。记录了IK统计的所有中文单词
IKAnalyzer.cfg.xml:用于配置自定义词库

基本使用
GET /_analyze
{
  "text":"月木天上",
  "analyzer":"ik_smart"
}


 

GET /_analyze
{
  "text":"月木天上",
  "analyzer":"ik_max_word"
}  

拼音分词器

简介

拼音分词器可以将中文分成对应的全拼,全拼首字母等

基本使用
GET /_analyze
{
  "text":"月木天上",
  "analyzer":"pinyin"
}

自定义分词器

简介

真实开发中我们往往需要对一段内容既进行文字分词,又进行拼音分词,此时我们需要自定义ik+pinyin分词器文章来源地址https://www.toymoban.com/news/detail-595772.html

在创建索引时自定义分词器
PUT /索引名
{
  "settings" : {
    "analysis" : {
      "analyzer" : {
        "ik_pinyin" : { //自定义分词器名
          "tokenizer":"ik_max_word", // 基本分词器
          "filter":"pinyin_filter" // 配置分词器过滤
        }
      },
      "filter" : { // 分词器过滤时配置另一个分词器,相当于同时使用两个分词器
        "pinyin_filter" : {
          "type" : "pinyin", // 另一个分词器
          // 拼音分词器的配置
          "keep_separate_first_letter" : false, // 是否分词每个字的首字母
          "keep_full_pinyin" : true, // 是否分词全拼
          "keep_original" : true, // 是否保留原始输入
          "remove_duplicated_term" : true // 是否删除重复项
        }
      }
    }
  },
  "mappings":{
    "properties":{
      "域名1":{
        "type":域的类型,
        "store":是否单独存储,
        "index":是否创建索引,
        "analyzer":分词器
      },
      "域名2":{
        ...
      }
    }
  }
}

到了这里,关于elasticsearch分词器详解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Elasticsearch的数据库与数据仓库整合

    Elasticsearch是一个开源的搜索和分析引擎,基于Lucene库,具有实时搜索、文本分析、数据聚合等功能。在大数据时代,Elasticsearch在数据库和数据仓库领域得到了广泛的应用。本文将从以下几个方面进行讨论: 背景介绍 核心概念与联系 核心算法原理和具体操作步骤以及数学模

    2024年02月21日
    浏览(44)
  • ElasticSearch与数据库集成

    Elasticsearch 是一个开源的搜索和分析引擎,基于 Lucene 库,用于实时搜索和分析大规模文本数据。它可以将数据存储在内存中,以提供快速、实时的搜索和分析功能。Elasticsearch 通常与数据库集成,以提供更高效的搜索和分析功能。 在现代应用程序中,数据量越来越大,传统的

    2024年02月20日
    浏览(40)
  • Elasticsearch的图数据库&图数据处理

    Elasticsearch是一个开源的搜索和分析引擎,它基于Lucene库构建,具有高性能、可扩展性和实时性。Elasticsearch的核心功能包括文本搜索、数据聚合、实时分析等。 图数据库是一种特殊类型的数据库,它用于存储和管理网络结构的数据。图数据库使用图形结构来表示数据,其中数

    2024年02月21日
    浏览(50)
  • Elasticsearch:什么是向量数据库?

    向量数据库是将信息存储为向量的数据库,向量是数据对象的数值表示,也称为向量嵌入。 它利用这些向量嵌入的强大功能来对非结构化数据和半结构化数据(例如图像、文本或传感器数据)的海量数据集进行索引和搜索。 向量数据库是为了管理向量嵌入而构建的,因此为

    2024年01月21日
    浏览(41)
  • Elasticsearch:向量数据库的真相

    通过工作示例了解什么是向量数据库、它们如何实现 “相似性” 搜索以及它们可以在明显的 LLM 空间之外的哪些地方使用。除非你一直生活在岩石下,否则你可能听说过诸如生成式人工智能和大型语言模型(LLM)之类的术语。 除此之外,你很有可能听说过向量数据库,它为

    2024年02月04日
    浏览(44)
  • Elasticsearch 对比传统数据库:深入挖掘 Elasticsearch 的优势

    当你为项目选择数据库或搜索引擎时,了解每个选项的细微差别至关重要。 今天,我们将深入探讨 Elasticsearch 的优势,并探讨它与传统 SQL 和 NoSQL 数据库的比较。 Elasticsearch 以强大的 Apache Lucene 库为基础,是一个分布式搜索和分析引擎。 它以其速度、可扩展性以及快速索引

    2024年02月10日
    浏览(48)
  • ElasticSearch数据库导出数据——(以6.8.2为例)

    我现在是有两套ES环境,一套在内网(有数据),一套在外网(没数据)。 由于开发测试需要,要将内网的数据导出到外边来进行测试。 一、预先准备 1.安装node和npm 2.安装elasticdump 外网机器在线安装 内网机器离线安装 外网准备 验证成功之后,由于内网不能在线安装,需要

    2024年02月16日
    浏览(192)
  • 【ES数据库】Elasticsearch安装使用

    Elasticsearch 和 MongoDB/Redis 类似,是非关系型数据库,从索引文档到文档能被搜索到只有一个轻微的延迟,是采用Restful API标准的可扩展和高可用的实时数据分析的全文搜索工具 Elastic Search 的实现原理是,利用内置分词器(Analyzer)对数据库文本进行分词,将解析出的和数据

    2024年02月04日
    浏览(42)
  • 如何使用 Elasticsearch 作为向量数据库

    在今天的文章中,我们将很快地通过 Docker 来快速地设置 Elasticsearch 及 Kibana,并设置 Elasticsearch 为向量搜索。 在上面,我们指定了 elasic 超级用户的密码为 password。这在下面将要使用到。 验证容器是否已启动并正在运行: 从上面我们可以看到 Elasticsarch 及 Kibana 已经完全运行

    2024年04月17日
    浏览(81)
  • 向量数据库:使用Elasticsearch实现向量数据存储与搜索

    Here’s the table of contents:   Elasticsearch在7.x的版本中支持 向量检索 。在向量函数的计算过程中,会对所有匹配的文档进行线性扫描。因此,查询预计时间会随着匹配文档的数量线性增长。出于这个原因,建议使用查询参数来限制匹配文档的数量(类似二次查找的逻辑,先使

    2024年02月07日
    浏览(62)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包