Elasticsearch bucket_script、bucket_selector、bucket_sort 区别和应用场景?

这篇具有很好参考价值的文章主要介绍了Elasticsearch bucket_script、bucket_selector、bucket_sort 区别和应用场景?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、实战问题

POST test-002/_bulk
{"index":{"_id":1}}
{"name": "张三","city": "beijing"}
{"index":{"_id":2}}
{"name": "李四","city": "beijing"}
{"index":{"_id":3}}
{"name": "王五","city": "shanghai"}
{"index":{"_id":4}}
{"name": "赵六","city": "shanghai"}

请教老师, 上面的是我在es保存的数据, 想写一个dsl, 求出来 beijing 占比 50%, shanghai 占比 50%。

死磕Elasticsearch知识星球 https://t.zsxq.com/0bqpcJiLL

2、问题分析

类似问题,样例数据单看计算不复杂,“beijing” 2 个,“上海” 2 个,“beijing”占比: 2/(2+2) = 50%; "shanghai"同样计算,占比 50%。

业务层面,建议获取到分桶聚合结果后,直接代码求解百分比效率更高。

仅就上面数据解释如下,两个步骤搞定。

  • 第一步:基于city 字段分桶聚合。

POST test-002/_search
{
  "size": 0,
  "aggs": {
    "city_aggs": {
      "terms": {
        "field": "city",
        "size": 10
      }
    }
  }
}

获取结果如下截图所示。

Elasticsearch bucket_script、bucket_selector、bucket_sort 区别和应用场景?

第二步:业务代码层面(python或Java或其他),直接来个除法搞定。

如上,才是效率最高的方案,尤其数据量巨大的业务场景。

问题来了,我就想让 Elasticsearch 搞定计算,怎么办?

我们需要在刚才分桶聚合的基础上,获取桶内“beijing”、“shanghai”的值,然后做除法。

这里的除法本质会用到 Elasticsearch Pipeline 子聚合 bucket_script 的概念。

讲到这里,有必要再把聚合梳理一遍。

3、聚合详解

3.1 聚合全局认知

Elasticsearch bucket_script、bucket_selector、bucket_sort 区别和应用场景?

聚合分类

核心分为三大类:

(1)Bucket 分桶聚合

通俗举例:开篇示例,按照“city”分桶,“beijing”一桶、“shanghai”一桶。

Elasticsearch bucket_script、bucket_selector、bucket_sort 区别和应用场景?

协议分桶聚合饼图

Elasticsearch bucket_script、bucket_selector、bucket_sort 区别和应用场景?

时间走势聚合示意图

(2)Metrics 指标聚合

通俗举例:求一组数据中的最大值;求一组数的平均值。

(3)Pipeline子聚合(基于聚合的聚合)

通俗举例:以B站视频为例,首先按年度统计每年最大观看量视频,然后再统计观看量最大视频所在的年份(基于聚合再聚合)。

如果基础概念还有点模糊,推荐阅读:基于儿童积木玩具图解 Elasticsearch 聚合。

3.2 Pipeline子聚合全局认知

子聚合核心又可以分为两类:

  • parent 子聚合

  • sibling 子聚合

Elasticsearch bucket_script、bucket_selector、bucket_sort 区别和应用场景? 子聚合分类

分类的依据更通俗讲是语法规则的不同。

4、Pipeline子聚合详解

为了更清楚的说明两者的不同,重构了样例数据如下。

####重构后的样例数据
DELETE test-002
PUT test-002
{
  "mappings": {
    "properties": {
      "sale_data": {
        "type": "date",
        "format": "yyyy-MM-dd"
      },
      "sale_count": {
        "type": "long"
      },
      "name": {
        "type": "keyword"
      },
      "city": {
        "type": "keyword"
      }
    }
  }
}

POST test-002/_bulk
{"index":{"_id":1}}
{"name":"张三","city":"beijing","sale_date":"2023-01-08","sale_count":100}
{"index":{"_id":2}}
{"name":"李四","city":"beijing","sale_date":"2023-01-18","sale_count":5000}
{"index":{"_id":3}}
{"name":"王五","city":"shanghai","sale_date":"2022-11-08","sale_count":300}
{"index":{"_id":4}}
{"name":"赵六","city":"shanghai","sale_date":"2022-12-28","sale_count":1000}

4.1 sibling 子聚合举例

  • 需求描述:按照月份统计每个月的总销量,并获取月总销量最大的月份?

  • 需求拆解:

(1)按照月份统计:使用 bucket 分桶聚合的date_histogram时间走势直方图聚合实现。 

(2)每个月的总销量:在按照月份统计的基础上进行嵌套聚合,借助Metric指标聚合的sum实现。 

(3)获取月总销量最大的月份:使用 Pipeline 子聚合的 Max_bucket 实现。

最终实现:

POST test-002/_search
{
  "size": 0,
  "aggs": {
    "sales_per_month": {
      "date_histogram": {
        "field": "sale_date",
        "calendar_interval": "month"
      },
      "aggs": {
        "sales": {
          "sum": {
            "field": "sale_count"
          }
        }
      }
    },
    "max_monthly_sales": {
      "max_bucket": {
        "buckets_path": "sales_per_month > sales"
      }
    }
  }
}
Elasticsearch bucket_script、bucket_selector、bucket_sort 区别和应用场景?

4.2 parent 子聚合举例

  • 需求描述:文章开头,求“beijing”、“shanghai”的各占百分比 ?

  • 需求拆解:

(1)按照 city 分桶:获取“beijing”、“shanghai”的 bucket 分桶聚合结果。

(2)计算百分比:借助 “bucket_script” 脚本子聚合实现。

这里实现层面不简单是上面的两步就可以完成。

核心原因在于:bucket_script 是 “parent”类型的子聚合,进一步说,它需要嵌套在外层聚合的里面,外层聚合就相当于它的“parent”,新加的子聚合相当于“child”。

外层怎么加,这个类似咱们之前的实现:图解:Elasticsearch 8.X 如何求解环比上升比例?

需要借助 filters 过滤聚合整出一个全量数据集,然后在此基础上统计分桶、桶内数据量,并借助 bucket_script 实现百分比。

具体实现如下:

POST test-002/_search
{
  "size": 0,
  "aggs": {
    "all_datas": {
      "filters": {
        "filters": {
          "all_dates_no_process": {
            "match_all": {}
          }
        }
      },
      "aggs": {
        "bucket_by_city": {
          "terms": {
            "field": "city",
            "size": 10
          }
        },
        "counts_of_city": {
          "value_count": {
            "field": "city"
          }
        },
        "bj_percents": {
          "bucket_script": {
            "buckets_path": {
              "bj_count": "bucket_by_city['beijing']>_count",
              "all_counts": "counts_of_city"
            },
            "script": "params.bj_count / params.all_counts"
          }
        },
        "sh_percents": {
          "bucket_script": {
            "buckets_path": {
              "sh_count": "bucket_by_city['shanghai']>_count",
              "all_counts": "counts_of_city"
            },
            "script": "params.sh_count / params.all_counts"
          }
        }
      }
    }
  }
}

不常用参数:bucket_by_city['beijing']>_count 含义如下:

获取“beijing”桶下的count计数结果。

Elasticsearch bucket_script、bucket_selector、bucket_sort 区别和应用场景?

折叠图如下图所示,parent 类别的含义由此而来。

Elasticsearch bucket_script、bucket_selector、bucket_sort 区别和应用场景?

最终百分比结果如下:

Elasticsearch bucket_script、bucket_selector、bucket_sort 区别和应用场景?

至此,开篇问题求解完毕。

5、bucket_script、bucket_selector、bucket_sort 的定义和应用场景?

  • Bucket selector选择子聚合:对聚合的结果执行进一步的筛选和运算。

  • Bucket script 脚本子聚合:在聚合的结果上执行脚本运算,以生成新的聚合结果。

  • Bucket sort 排序子聚合:用聚合结果的任意字段进行排序,并返回一个排序后的桶列表。

这三类都属于 parent 类型的子聚合。子聚合的核心是对前置聚合结果的二次聚合,所以,只有业务需求有对聚合结果再聚合的场景才考虑子聚合。

bucket_script 是一种特殊的子聚合功能,它允许我们在聚合的桶中执行脚本。

应用举例:可以使用脚本来计算每个桶的平均值、百分比(如本文示例)、环比及标准差等。

bucket_selector 是一种特殊的子聚合功能,它允许我们选择某些桶并对其进行子聚合。

应用举例:可以使用选择器选择某些桶并统计它们的总和。

bucket_sort 是一种排序功能,它允许我们按指定顺序对桶进行排序。

应用举例:可以按照每个桶的计数进行排序,以便查看最频繁的项目。

在实际应用场景中,可以根据需要选择使用上述功能中的一个或多个。

应用举例:可以对某个字段的值进行分组,然后使用 bucket_sort 对分组后的桶进行排序,并使用bucket_script在桶中执行脚本,最后使用bucket_selector选择某些桶并对其进行聚合。

这样,我们可以对业务数据进行多层次的分析和统计功能。

6、小结

由百分比的问题引申出聚合分类,由聚合分类引申出Pipeline 子聚合的两个子类型:parent、sibling(兄弟)的区别,更进一步引申出bucket_script、bucket_selector、bucket_sort的定义和应用场景。为后续类似问题提供参考。

Elasticsearch bucket_script、bucket_selector、bucket_sort 区别和应用场景?

推荐视频解读:

参考

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations.html

推荐阅读

  1. 全网首发!从 0 到 1 Elasticsearch 8.X 通关视频

  2. 重磅 | 死磕 Elasticsearch 8.X 方法论认知清单(2022年国庆更新版)

  3. 如何系统的学习 Elasticsearch ?

  4. 2023,做点事

  5. 图解:Elasticsearch 8.X 如何求解环比上升比例?

更短时间更快习得更多干货!

和全球 1800+ Elastic 爱好者一起精进!

Elasticsearch bucket_script、bucket_selector、bucket_sort 区别和应用场景?

比同事抢先一步学习进阶干货!文章来源地址https://www.toymoban.com/news/detail-407945.html

到了这里,关于Elasticsearch bucket_script、bucket_selector、bucket_sort 区别和应用场景?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • ElasticSearch script查询报错Variable [field] is not defined

    ES版本7.6.0 想筛选某两个字段之和大于10的文档,需要用到脚本,简化的请求如下 报错提示field未定义,报错详情 解决方法:改用双引号包裹包裹字段名

    2024年02月07日
    浏览(33)
  • ElasticSearch_dsl实现多字段查询去重过滤详解(script)

    ElasticSearch单字段去重详见博文:ElasticSearch单字段查询去重详解_IT之一小佬的博客-CSDN博客 ElasticSearch多字段去重详见博文:ElasticSearch多字段查询去重过滤详解_IT之一小佬的博客-CSDN博客 本博文将详细介绍使用elasticsearch_dsl进行多字段进行去重。本文示例数据详见上文单字段博

    2023年04月22日
    浏览(29)
  • 使用 Elasticsearch 作为向量数据库:深入研究 dense_vector 和 script_score

    Elasticsearch 是一个非常强大且灵活的搜索和分析引擎。 虽然其主要用例围绕全文搜索,但它的用途广泛,足以用于各种其他功能。 其中一项引起许多开发人员和数据科学家关注的功能是使用 Elasticsearch 作为向量数据库。 随着 dense_vector 数据类型的出现以及利用 script_score 函数

    2024年02月07日
    浏览(41)
  • 安装 elasticsearch-head 环境时报错:Failed at the phantomjs-prebuilt@2.1.16 install script.

    执行 npm install 报错: –ignore-scripts参数用于npm install在安装插件时忽略package.json中设置的脚本,意思就是避免package.json中的脚本影响插件的正常安装 安装成功!  此时显示elasticsearch未连接,需要修改一下elasticsearch的配置并重新启动 修改elasticsearch.yml文件,新增如下配置:

    2024年02月13日
    浏览(33)
  • MongoDB聚合:$bucket

    $bucket 将输入文档按照指定的表达式和边界进行分组,每个分组为一个文档,称为“桶”,每个桶都有一个唯一的 _id ,其值为文件桶的下线。每个桶中至少要包含一个输入文档,也就是没有空桶。 语法 groupBy 对文档进行分组的表达式。若指定字段路径,需要在字段名前加上

    2024年01月23日
    浏览(34)
  • 【算法】桶排序(Bucket Sort)详解

    桶排序(Bucket Sort)又称箱排序,是一种比较常用的排序算法。其算法原理是将数组分到有限数量的桶里,再对每个桶分别排好序(可以是递归使用桶排序,也可以是使用其他排序算法将每个桶分别排好序),最后一次将每个桶中排好序的数输出。 桶排序的思想就是把待排序

    2024年01月24日
    浏览(33)
  • hudi的bucket.index相关配置

    hudi的bucket.index相关配置的源码文件为 HoodieIndexConfig.java 。 通用配置 配置项名 默认值 说明 引入版本 hoodie.index.type 默认值和引擎有关,Flink上默认值为FLINK_STATE,Spark上默认值为SIMPLE,Java应用的默认值为INMEMORY 索引类型,可取值:HBASE、INMEMORY、BLOOM、GLOBAL_BLOOM、SIMPLE、GLOBAL_

    2024年02月03日
    浏览(22)
  • 4EVER-Bucket 优于市场的优势

    分散存储 用户可以将数据存储在去中心化存储系统中,而无需考虑数据的中央孤岛。此外,与集中式存储解决方案相比,分散化有助于提高隐私和安全性。此外,它利用运营商和用户的对等网络来管理数据。 因此,它有助于在存储和传输过程中确保数据安全。它还使用了基

    2024年02月02日
    浏览(38)
  • AWS S3 bucket 的 ACL 控制

    在新的 AWS S3 控制中,启用了一个默认的配置。 这个默认的配置能够阻止用户的访问。 首先需要对 Object 所有者进行修改。 在打开的界面中,选择 ACLs 启用。 然后选择选项。   然后单击保存。 随后,就可以对 ACL 进行编辑了。 通常可以通过这个配置来完成对参考的默认访问

    2024年02月13日
    浏览(24)
  • 解决:Some selectors are not allowed in component wxss, including tag name selectors, ID selectors

    在微信开发工具中运行文档中的代码,出现如下错误:  [渲染层错误] Some selectors are not allowed in component wxss, including tag name selectors, ID selectors, and attribute selectors.(./custom-tab-bar/index.wxss:36:15)(env: Windows,mp,1.06.2210310; lib: 2.5.0) 出现原因:随着小程序的发展,文档中原来的写法已经不

    2024年02月12日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包