使用es必须要知道的一些知识点:索引篇

这篇具有很好参考价值的文章主要介绍了使用es必须要知道的一些知识点:索引篇。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在当今数据驱动的世界中,Elasticsearch(简称ES)成为了一个强大而广泛应用的搜索和分析引擎。ES提供了快速、可扩展且高度可靠的数据存储和检索解决方案。然而,要真正掌握ES的各种功能和最佳实践,需要通过实践才能获得真正的知识。

一、索引创建

在Elasticsearch(ES)中,index操作和create操作是用于创建新文档的两种不同方式。下面是它们的区别:

  1. Index操作:

    • Index操作用于在指定的索引中创建新的文档。如果指定的索引不存在,Elasticsearch将自动创建该索引。
    • 如果执行index操作时指定的文档ID已经存在,则会更新该文档。
    • 如果没有指定文档ID,Elasticsearch会自动生成一个唯一的ID,并将其分配给新创建的文档。
    • Index操作是幂等的,即多次执行相同的index操作不会创建重复的文档,而是更新现有的文档。
  2. Create操作:

    • Create操作也用于在指定的索引中创建新的文档。但是,与index操作不同,如果指定的文档ID已经存在,则会引发一个错误。
    • 如果没有指定文档ID,Elasticsearch会自动生成一个唯一的ID,并将其分配给新创建的文档。
    • Create操作是非幂等的,即多次执行相同的create操作会导致错误。

总结:
Index操作用于创建或更新文档,如果文档ID已存在,则更新该文档;而Create操作只能用于创建新文档,如果文档ID已存在,则会引发错误。

二、经验篇

使用动态模板(Dynamic Template)优化索引

在业务系统中,字符串类型的数据,一般被用作精确查询模糊查询

当Elasticsearch被用作大数据量存储中心时,尤其是从Mysql迁移数据进来的情况下,我们很多场景下其实无需对字符串分词,也就是说字符串存储不使用es中的text,我们可以设置属性的类型为keyword

但是,如果数据结构中的字符串非常多,有没有一种方式,可以使字符串属性自动用keyword方式存储呢?这时候我们可以使用索引动态模板(Dynamic Template)来实现。

动态模板(Dynamic Template)

无需分词的情况下,可以在Elasticsearch动态模板中,设置所有字符串数据都用"type": "keyword"来存储。举个例子,我们可以创建一个适当的动态模板规则。

以下是一个示例:

{
  "mappings": {
    "dynamic_templates": [
      {
        "strings_as_keyword": {
          "match_mapping_type": "string",
          "mapping": {
            "type": "keyword"
          }
        }
      }
    ]
  }
}

这个动态模板规则将会把所有字符串字段映射为keyword类型。

动态模板常见设置:https://blog.csdn.net/liuwenqiang1314/article/details/125861920

使用动态模板时,如何防止子属性溢出

使用动态模板时,class属性要i禁用Map结构。原因:es索引key数量默认不能超过1000。
es数据底层存储的时候是按照json结构的,Map结构的数据存储到es,key是不固定的,随着数据量的扩张,key的数量可能超过1000,此时es会抛出异常。

illegal_argument_exception, reason=Limit of total fields [1000] in index [fcs_biz_bill_body_dev] has been exceeded

这个错误是由于Elasticsearch索引中的字段数超过了默认限制(1000个字段)所导致的。当我们尝试在一个索引中创建太多字段时,Elasticsearch会抛出这个异常。
解决此问题有两种方法:

  1. 增加索引的index.mapping.total_fields.limit设置值。我们可以通过更新索引设置来增加允许的最大字段数。例如,将其更改为2000:
PUT /fcs_biz_bill_body_dev/_settings
{
  "index": {
    "mapping": {
      "total_fields": {
        "limit": 2000
      }
    }
  }
}

请注意,在生产环境中谨慎使用这种方法,因为大量字段可能会影响性能和资源利用率。

检查并优化数据模型:如果不需要那么多字段,请考虑重新设计或优化数据模型以减少不必要的字段。这可能包括删除未使用或重复的属性、合并相关属性等。
2. 对不需要索引的object属性禁用动态模板
在Elasticsearch中,动态模板可以用来控制新字段的映射。要实现遇到Map结构时不创建属性,你可以使用以下设置:

  • 通过正则匹配相应的属性
  • 设置mapping.enabled: false

这是一个示例配置:

{
  "mappings": {
    "_doc": {
      "dynamic_templates": [
        {
          "not_analyzed_map": {
            "match_pattern": "regex",
            "path_match": "^map_.*$",
            "mapping": {
              "enabled": false
            }
          }
        }
      ]
    }
  }
}

批量处理器(Bulk Processor)不建议处理多个索引模板的请求

一个批量处理器(Bulk Processor)不建议处理多个索引模板的请求,尤其是当这些索引模板的分区规则不一致时,主要是因为以下原因:

  1. 分区规则不一致:不同的索引模板可能具有不同的分区规则,例如按时间分区、按地理位置分区等。当批量处理器处理多个索引模板的请求时,如果分区规则不一致,会导致数据在不同的分区之间不均匀分布,影响查询性能和数据的存储效率。

  2. 索引设置不同:每个索引模板可能具有不同的索引设置,如副本数量、刷新间隔、分片数量等。当批量处理器处理多个索引模板时,这些不同的设置可能会导致性能差异或资源的不均衡分配。

  3. 管理复杂性:处理多个索引模板的请求会增加管理的复杂性,包括索引模板的创建、更新和删除等操作。同时维护多个不同设置和规则的索引模板也会增加配置和维护的工作量。

为了确保良好的性能和简化管理,建议将具有相同分区规则和设置的索引请求分组处理。这样可以确保数据在相同的分区规则下均匀分布,并且能够更有效地管理索引的创建、更新和删除等操作。

三、性能调优

涉及性能的时候,批量的大小很关键。如果你的批量太大,它们会占用过多的内存。如果它们太小,网络开销又会很大。最佳的平衡点,取决于文档的大小——如果文档很大,每个批量中就少放几篇;如果文档很小,就多放几篇——以及集群的能力。

多条搜索(Multi Search)和多条获取(Multi Get)

多条搜索(Multi Search)和多条获取(Multi Get)是两种在Elasticsearch中进行批量操作的功能,但它们的用途和操作对象存在一些区别:

  1. 多条搜索(Multi Search):

    • 多条搜索是同时执行多个搜索请求的功能。可以在单个请求中发送多个搜索请求,并一次性获取它们的结果。
    • 多条搜索适用于在不同的索引、类型或查询条件上执行多个搜索操作。
    • 多条搜索请求的结果将按照请求的顺序返回,每个搜索请求的结果都是独立的。
  2. 多条获取(Multi Get):

    • 多条获取是同时从多个索引中获取多个文档的功能。它允许在单个请求中指定多个文档的ID,并一次性获取它们的内容。
    • 多条获取适用于根据文档的ID获取多个文档的情况,可以跨越不同的索引和类型。
    • 多条获取请求的结果将按照请求的顺序返回,每个获取请求的结果都是对应的文档内容。

总结:
多条搜索适用于执行多个搜索请求,获取符合条件的文档结果;而多条获取适用于根据文档的ID获取多个文档的内容。

刷新(Refresh)和冲刷(Flush)

在Elasticsearch中,刷新(Refresh)和冲刷(Flush)是两个不同的操作,它们具有以下区别:

  1. 刷新(Refresh):

    • 刷新是指将索引中的最新更改从内存刷新到磁盘的持久化存储结构(translog)中,以使这些更改对搜索可见,并不会直接刷新到磁盘。
    • 当进行索引操作(如文档的创建、更新、删除)时,数据会首先写入内存中的事务日志(translog),而不是直接写入磁盘。刷新操作将事务日志中的数据写入磁盘,以确保最新的更改对搜索可见。
    • 刷新操作通常由Elasticsearch自动触发,但也可以通过执行手动刷新操作来强制将最新更改刷新到磁盘。
    • 刷新操作会导致短暂的性能开销,因为它需要将数据从内存写入磁盘。但它确保了数据的持久性和一致性。
  2. 冲刷(Flush):

    • 冲刷是指将索引的所有未决更改写入磁盘,以确保数据的持久性。
    • 当进行索引操作时,数据首先写入内存中的事务日志和缓冲区。但它们不会立即写入磁盘,而是留存在内存中,直到触发冲刷操作。
    • 冲刷操作将内存中的事务日志和缓冲区的数据写入磁盘,确保了数据的持久性和一致性。
    • 冲刷操作通常由Elasticsearch自动触发,但也可以通过执行手动冲刷操作来强制将未决更改写入磁盘。
    • 冲刷操作可能会导致短暂的性能开销,因为它需要将数据从内存写入磁盘。

总结:
刷新操作将最新的更改从内存刷新到磁盘的持久化存储结构(translog)中,以使其对搜索可见;而冲刷操作将所有未决更改从内存写入磁盘,确保数据的持久性。刷新操作通常是自动触发的,而冲刷操作可以手动触发。

冲刷流程如下图:
es索引,ElasticSearch实战应用与思考,elasticsearch

合并分段

  • 更新文档不能修改实际的文档,只是索引一篇新的文档。
  • 删除也不能从分段中移除文档(这需要重建倒排索引),只是在单独的.del文件中将其标记为“已被删除”。文档只会在分段合并的时候真正地被移除。

那么合并分段的两个目的:

  1. 第一个是将分段的总数量保持在受控的范围内(这用来保障查询的性能)。
  2. 第二个是真正地删除文档。

合并分段策略:默认为分层合并策略。
es索引,ElasticSearch实战应用与思考,elasticsearch
以上就是我对es使用的一些经验总结,以后也会继续补充和完善。文章来源地址https://www.toymoban.com/news/detail-716534.html

到了这里,关于使用es必须要知道的一些知识点:索引篇的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • mysql innodb一些知识点

    1、事务和锁的关系; 在MySQL事务中,只要开始了一次事务,就会自动加上一个共享锁(Shared Lock)。这个锁会在事务结束时自动释放。如果在事务中需要更新某个数据对象,那么MySQL会将该数据对象的共享锁升级为排他锁(Exclusive Lock),这可以确保在其他事务中对该数据对象

    2024年02月14日
    浏览(40)
  • PLSQL一些常用的知识点

    此处简单的记录一下在 oracle中如何使用plsql语法,记录一些简单的例子,防止以后忘记。 统计总共有多少个学生,并进行if判断。 输出1到100 需要放到 execute immediate 中执行,否则会报错。 存在更新,不存在插入。 包头 可以简单的理解 java 中的接口。 包体 可以简单的理解

    2024年02月04日
    浏览(41)
  • 一些关于c++的琐碎知识点

    目录 bool强转 const构成重载:const修饰*p  移动构造 new int (10)所做的四件事 this指针---为什么函数里面需要this指针? .和-的区别 new创建对象 仿函数 new和malloc的区别 c++系统自动给出的函数有 delete和delete[ ]区别何在 检查有没有析构函数 explict外部 内存泄漏的本质:丢失了内存地

    2024年02月07日
    浏览(50)
  • 关于BGP的一些知识点;(1)

    BGP路由属性中:     公认必遵属性有:Origin, AS_PATH,Next_hop      公认任意有:Local_Pref, Atomic_aggregate,        其中MED为可选非过渡不属于公认属性  Local-Preference是公认任意属性,且只能在一个AS内传播,默认值为100 BGP的Cluster_List 属性用来标识路由器反射组,是可选非过

    2024年02月07日
    浏览(51)
  • 数学建模 | 关于随机森林你必须知道的20个知识点

    1. 什么是随机森林?  随机森林是一种集成学习方法,通过构建多棵决策树,并让它们进行投票来提高预测准确性。 2. 随机森林如何避免过拟合?  随机森林通过从训练数据集中随机抽取样本构建决策树来避免过拟合。 3. 构建随机森林需要多少棵决策树?  通常100-500棵决策树就可

    2024年01月22日
    浏览(48)
  • 关于set变更通知涉及的一些知识点

    在这个示例中,我们声明了一个私有字段  _name  作为存储名称的后端字段,并将其封装在公共属性  Name  中。在 setter 方法中,我们首先检查新值是否与旧值相同。如果不同,我们才更新存储字段,并调用  OnNameChanged()  方法来引发  NameChanged  事件。 注意, OnNameChanged  方

    2024年02月08日
    浏览(50)
  • 数学建模 | 关于ARMA模型你必须知道的20个知识点

    1. ARMA模型的含义是什么? ARMA模型综合考虑自回归模型和移动平均模型,使用过去的观测值和误差项的移动平均来预测未来值。 2. ARMA模型的表示方法是什么? ARMA(p,q)模型,p表示自回归模型的阶数,q表示移动平均模型的阶数。 3. ARMA模型的公式是什么? Y_t = c + φ_1Y_{t-1} + ... + φ_pY_{

    2024年02月09日
    浏览(39)
  • es知识点 一

    kibana工具是查询es数据的工具 用es去搜索 dsl语言 使用post不需要指定ip 但是put需要指定ip 1、文档的新增 post /_index/_type post /user/_doc {“name”:“lmm”} 2、文档的更新 post /user/_update/id {“name”:“nana”} 3、文档的删除 post /user/_delete_by_query {“query”: “term”:{“_id”:dsadsad}} 4、索引

    2024年02月12日
    浏览(30)
  • es相关的知识点

    海量数据下如何提升es的操作性能 os cache操作系统缓存 es中的数据,实际上写入磁盘,磁盘文件的操作系统,实际上会将数据写入到oscache中 es的搜索引擎严重依赖于底层的filesystemcache 如果filesystemcache的内存足够大,可以容纳所有的index segmentfile索引数据文件,那么搜索的时候,基本上

    2024年02月09日
    浏览(38)
  • 分享刷题的一些小知识点--4.9日

    1.string库提供了 、、==、=、=、!= 等比较运算符,比如两个字符串s和t,直接(s==t)是正确的。 2.unordered_map 容器,直译过来就是\\\"无序 map 容器\\\"的意思。所谓“无序”,指的是 unordered_map 容器不会像 map 容器那样对存储的数据进行排序。换句话说,unordered_map 容器和 map 容器仅有

    2023年04月11日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包