ES慢查询分析——性能提升6 倍

这篇具有很好参考价值的文章主要介绍了ES慢查询分析——性能提升6 倍。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

问题

        生产环境频繁报警。查询跨度91天的数据,请求耗时已经来到了30+s。报警的阈值为5s。我们期望值是5s内,大于该阈值的请求,我们认为是慢查询。这些慢查询,最终排查,是因为走到了历史集群上。受到了数据迁移的一定影响,也做了一些优化,最终从30s提升到5s。

ES慢查询分析——性能提升6 倍,ES搜索优化,Elasticsearch,es慢查询分析,es检索性能提升,请求截断,动态截断策略

背景

查询关键词简单,为‘北京’

单次仅检索两个字段

查询时间跨度为91天,覆盖数据为450亿数据

问题分析

使用profle分析,复现监控报警的语句,确实慢。集群分片太多,这里放一个分片的内容。

 {
        "id" : "[YWAxM5F9Q0G1PXfTtYZKkzQ][_20230921-000001][3]",
        "searches" : [
          {
            "query" : [
              {
                "type" : "FunctionScoreQuery",
                "description" : "function score (+((title:北京)^2.0 | content:北京) +publish_time:[1687431307000 TO 1695254417999] +es_insert_time:[-9223372036854775808 TO 1703084327999], functions: [{scriptScript{type=stored, lang='null', idOrCode='search-score', options=null, params={}}}])",
                "time" : "10s",
                "time_in_nanos" : 10079315883,
                "breakdown" : {
                  "set_min_competitive_score_count" : 0,
                  "match_count" : 150,
                  "shallow_advance_count" : 0,
                  "set_min_competitive_score" : 0,
                  "next_doc" : 2646164,
                  "match" : 996954485,
                  "next_doc_count" : 154,
                  "score_count" : 31,
                  "compute_max_score_count" : 0,
                  "compute_max_score" : 0,
                  "advance" : 1035917137,
                  "advance_count" : 16,
                  "score" : 3532211704,
                  "build_scorer_count" : 40,
                  "create_weight" : 3965124112,
                  "shallow_advance" : 0,
                  "create_weight_count" : 1,
                  "build_scorer" : 546462281
                },

在Elasticsearch Profile API结果中,主要关注查询的timebreakdown字段,这提供了查询执行的总时间和各个步骤的时间分解。在这个例子中,查询的总时间为10秒。

具体来看,主要的时间花费在FunctionScoreQuerycreate_weight步骤上,该步骤耗时为3,965,124,112纳秒(大约3.97秒)。create_weight是在查询执行之前创建用于评分的权重的阶段。

以下是一些步骤的关键信息:

  • create_weight步骤耗时最长,可能是性能瓶颈。
  • build_scorer步骤也占用了大量时间,这通常是评分过程中的一个重要步骤。
  • next_doc步骤的时间比较大,这可能涉及到遍历文档的过程。

疑问?为什么 create_weight 过程耗时会这么长

从我的查询条件来看,请求是很简单的,没有复杂的条件,为什么 create_weight 过程耗时会这么长?

create_weight阶段的耗时主要取决于查询中使用的权重计算方式以及索引的结构和数据量。在你提供的Profile API结果中,create_weight的耗时非常大,说明这个步骤在整个查询过程中占用了大量的时间。

有几个潜在的原因可能导致create_weight步骤的性能下降:

  1. 脚本复杂性: 如果你在Function Score Query中使用了复杂的脚本,脚本的执行可能会消耗大量的时间。检查你的脚本逻辑,尽量确保它是高效的。
  2. 文档数和大小: 如果你的索引中包含大量的文档或者文档非常大,创建权重可能会变得更加耗时。在这种情况下,考虑优化索引结构、调整分片数量等。
  3. Function Score Query的配置: 如果在Function Score Query中使用了复杂的函数或者过多的函数,计算每个文档的权重可能会更加耗时。检查你的Function Score Query配置,确保它符合你的需求。

create_weight 究竟在干什么,源码?

这里主要是lucene去IO底层文件。这里比较明显的是性能问题。

第一个尝试,去掉脚本排序

脚本排序的时间会算在create_weight过程中(猜想,待验证)

测试把我的搜索条件,去掉脚本排序。原来是15s,现在是10s,脚本排序的耗时在我请求中,占据了30%多。

ES慢查询分析——性能提升6 倍,ES搜索优化,Elasticsearch,es慢查询分析,es检索性能提升,请求截断,动态截断策略

继续分析慢查询的分片

其中,耗时最长的分片还是,create_weight 过程耗时最严重。

ES慢查询分析——性能提升6 倍,ES搜索优化,Elasticsearch,es慢查询分析,es检索性能提升,请求截断,动态截断策略

耗时发生在我的title字段上的这个子查询上。

ES慢查询分析——性能提升6 倍,ES搜索优化,Elasticsearch,es慢查询分析,es检索性能提升,请求截断,动态截断策略

调整terminate_after  从200->10

检索耗时进一步降低。

ES慢查询分析——性能提升6 倍,ES搜索优化,Elasticsearch,es慢查询分析,es检索性能提升,请求截断,动态截断策略

其中还是有耗时长的个别分片

整个请求6.2s,在这个分片上的请求就花了6s,并且时间还是花在了create_weight上。

ES慢查询分析——性能提升6 倍,ES搜索优化,Elasticsearch,es慢查询分析,es检索性能提升,请求截断,动态截断策略

如何才能降低create_weight的耗时?

降低terminate_after的值可以降低,代价是影响整体的排序效果。

减少段的个数,可以减少耗时。通过段合并。因为可以减少段的遍历。

疑问?是不是在查询的时候负载高?

GET _cat/nodes?v

ES慢查询分析——性能提升6 倍,ES搜索优化,Elasticsearch,es慢查询分析,es检索性能提升,请求截断,动态截断策略

问题解决方案

动态调整terminate_after

  并非所有的请求,都需要每个分片都200条数据。特别在大的时间跨度下,分片可能会非常多,动辄几千个,以2000个分片算,最多会匹配2000*200=400000数据。加上脚本排序,这40W数据,都需要参与分数的计算,最终才能角逐出top20的数据。最终的结果是请求耗时长。

  实际上,terminate_after的取值,是可以动态调整的。检索分为乐观和悲观情况,乐观情况下,数据分布是均匀的,在分片上分配是均匀的,且检索条件命中的数据较多。在悲观情况下,检索的数据分布不均匀,且搜索的条件比较特殊,命中的数据很少,或者命中的数据在分片上分布不均匀。

  大多数情况下,数据分布是均匀的,检索的数据量越大,分布可能越均匀。例如检索3个月,总数据大约450亿数据,随便一个搜索条件,搜索的数据大概率是大于10000条的。所以可以设计一个动态调整方案,来调整terminate_after的取值,能够获取更好的性能,提升200%-300%。另外需要一个悲观情况下的担保机制,避免在悲观情况下检索丢失数据。

  terminate_after的值是限定在分片上的,假如一个索引有10个分片,如果设置terminate_after为200,则最后返回的数据总量为 10*200=2000条。考虑到分页为500页,每页20条数据,共计可以翻页10000条数据。如何设置terminate_after的值呢?要考虑到翻页的情况。

  请求的入参,一般包含了翻页和每页的条数。 期望数据总量= 页码* 每页的数量。  es的召回总量为= 分片数*terminate_after数量*偏差。偏差可以算0.1,预期10倍可以弥补数据分布不均匀带来的影响。分片数暂时可以按每天15个来算。 页码* 每页的数量 = 分片数*terminate_after数量*偏差 。可以得出  terminate_after数量 = 页码* 每页的数量 / (分片数*偏差)。terminate_after数量不足10则向上取正为10。 当查询的天数小于7天,则可以直接取值为200。

  担保机制,需要解决悲观情况下的问题。根据es返回的数据总量。 如果返回的数据总量小于期望的数据总量,则触发担保机制。需要调大terminate_after的值(暂定为500),再去搜索一次。

索引段合并

  段合并可以提升减速效果。

调大在请求在单个节点上的最大并发度

默认情况下,一个请求在单个节点上最大并发度为5,超过5以后则需要排队,串行执行。这里先避免排队的时间。我这里给了30。 注意此参数,在负载不高,且线程池充足和堆空间充足的情况下可以这样用。其它情况不适合,在聚合请求中不建议使用!

ES慢查询分析——性能提升6 倍,ES搜索优化,Elasticsearch,es慢查询分析,es检索性能提升,请求截断,动态截断策略

最终的检索效果

检索条件

ES慢查询分析——性能提升6 倍,ES搜索优化,Elasticsearch,es慢查询分析,es检索性能提升,请求截断,动态截断策略

检索耗时情况

ES慢查询分析——性能提升6 倍,ES搜索优化,Elasticsearch,es慢查询分析,es检索性能提升,请求截断,动态截断策略

最后 

搜索优化不是一朝一夕的事情。需要长时间的知识储备。我已经做了四年优化es搜索优化。我把一些高质量的优化提升的案例放在了我的专栏里。(目前还是免费的,未来可能会收费把...)想要做更多的搜索提升,可以看看这些文章,或许会能起到抛砖引玉的作用。

https://blog.csdn.net/star1210644725/category_12341074.html文章来源地址https://www.toymoban.com/news/detail-762014.html

到了这里,关于ES慢查询分析——性能提升6 倍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Elasticsearch专栏-8.es读写性能及优化

    服务器资源 资源 数值 服务器 华为 系统 centos7.9 cpu Intel® Core™ i5-10500 CPU @ 3.10GHz、6核12线程 mem 62G disk 机械硬盘、3.6T 单机写入性能 将es堆内存增大到20G,其余配置不做任何修改,数据单条写入。测试结果如下 线程 线程延迟时间(ms) 数据量(W) 平均响应时间(ms) QPS 300 0 5.9 338

    2023年04月12日
    浏览(32)
  • Elasticsearch 优化查询中获取字段内容的方式,性能提升5倍!

    集群配置为:8 个 node 节点,16 核 32G,索引 4 分片 1 副本。应用程序的查询逻辑是按经纬度排序后找前 200 条文档。 1、应用对查询要求比较高,search 没有慢查询的状态。 2、集群压测性能不能上去,cpu 使用未打满,查询的 qps 上不去,且有队列堆积。 通过云厂商内核组的同

    2024年02月04日
    浏览(36)
  • ES优化实战-通过开启copy_to提升一倍的检索性能

      在对text字段进行搜索的时候,假如你需要对多个text类型的字段搜索,例如 文章的标题和文章的内容,这两个字段。   在这种情况下,是可以开启copy_to来提速的。我测试的提速效果在百分之五十左右。   它是将这两个字段copy到一个字段上,然后进行分词处理。之所以会快

    2023年04月19日
    浏览(45)
  • ElasticSearch系列 - SpringBoot整合ES之全文搜索匹配查询 match

    官方文档地址:https://www.elastic.co/guide/en/elasticsearch/reference/index.html 权威指南:https://www.elastic.co/guide/cn/elasticsearch/guide/current/structured-search.html 1. 数据准备 官方测试数据下载地址:https://download.elastic.co/demos/kibana/gettingstarted/accounts.zip ,数据量很大,我们自己构造数据吧。 2. m

    2023年04月08日
    浏览(40)
  • Elasticsearch实战(十七)---ES搜索如何使用In操作查询及如何Distinct去除重复数据

    Elasticsearch实战-ES搜索如何使用In操作查询filter过滤及如何Distinct去除重复数据 场景: ES搜索, 获取手机号是 19000001111 或者 19000003333 后者 19000004444 的人, 并且 性别是男, 且 年龄是[20-30]的人,这种查询用mysql 如何实现 ? 在mysql中会用in查询, 但是在ES中 我们实现就是 term

    2023年04月09日
    浏览(33)
  • 搜索引擎ElasticSearch分布式搜索和分析引擎学习,SpringBoot整合ES个人心得

    Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。Elasticsearch用于云计算中,能够达到实时搜索,稳定,可靠,

    2024年02月04日
    浏览(57)
  • Elasticsearch (ES) 搜索引擎: 文本搜索:分析器/分词器、同义词/停用词、拼音搜索、高亮显示、拼写纠错

    原文链接:https://xiets.blog.csdn.net/article/details/132349032 版权声明:原创文章禁止转载 专栏目录:Elasticsearch 专栏(总目录) 文本搜索主要指的就是全文搜索,全文搜索是搜索引擎的核心功能,与精确匹配的结构化数据不同,文本(text)数据在构建索引和搜索时都需要进行额外的处

    2024年02月03日
    浏览(44)
  • ES实战--性能提升

    触发冲刷的条件: 1.内存缓冲区已满 2.自上次冲刷后超过了一定时间 3.事务日志达到了一定阀值 对名为get-together的Elasticsearch索引执行优化操作,将索引中的数据段(segments)合并到指定的数量1

    2024年02月19日
    浏览(28)
  • ES-搜索和查询

    Query DSL(Domain Specific Language) 1 查询上下文 ​ 使用query进行检索,倾向于相关度搜索,故需要计算评分。搜索是Elasticsearch最关键和重要的部分。 2 相关度评分:_score ​ 概念:相关度评分用于对搜索结果排序,评分越高则认为其结果和搜索的预期值相关度越高,即越符合

    2024年02月04日
    浏览(29)
  • ES通过抽样agg聚合性能提升3-5倍

            一直以来,es的agg聚合分析性能都比较差(对应sql的 group by)。特别是在超多数据中做聚合,在搜索的条件命中特别多结果的情况下,聚合分析会非常非常的慢。         一个聚合条件:聚合分析请求的时间 = search time + agg time         N个聚合条件:聚合分析请求

    2024年02月04日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包