ES-聚合查询

这篇具有很好参考价值的文章主要介绍了ES-聚合查询。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 概念

聚合(aggs)不同于普通查询,是目前学到的第二种大的查询分类,第一种即“query”,因此在代码中的第一层嵌套由“query”变为了“aggs”。用于进行聚合的字段必须是exact value,分词字段不可进行聚合,对于text字段如果需要使用聚合,需要开启fielddata,但是通常不建议,因为fielddata是将聚合使用的数据结构由磁盘(docvalues)变为了堆内存(fielddata),大数据的聚合操作很容易导致OOM,详细原理会在进阶篇中阐述。

聚合分类
分桶聚合(Bucket agregations):类比SQL中的group by的作用,主要用于统计不同类型数据的数量
指标聚合(Metrics agregations):主要用于最大值、最小值、平均值、字段之和等指标的统计
管道聚合(Pipeline agregations):用于对聚合的结果进行二次聚合,如要统计绑定数量最多的标签bucket,就是要先按照标签进行分桶,再在分桶的结果上计算最大值。
语法

json GET product/_search 
{
    "aggs": {
        "<aggs_name>": {
            "<agg_type>": {
                "field": "<field_name>"
            }
        }
    }
}

aggs_name:聚合函数的名称

agg_type:聚合种类,比如是桶聚合(terms)或者是指标聚合(avg、sum、min、max等)

field_name:字段名称或者叫域名。

2. 桶聚合:

场景:用于统计不同种类的文档的数量,可进行嵌套统计。

函数:terms

注意:聚合字段必须是exact value,如keyword

3. 指标聚合

场景:用于统计某个指标,如最大值、最小值、平均值,可以结合桶聚合一起使用,如按照商品类型分桶,统计每个桶的平均价格。

函数:平均值:Avg、最大值:Max、最小值:Min、求和:Sum、详细信息:Stats、数量:Value count

4. 管道聚合

场景:用于对聚合查询的二次聚合,如统计平均价格最低的商品分类,即先按照商品分类进行桶聚合,并计算其平均价格,然后对其平均价格计算最小值聚合

函数:Min bucket:最小桶、Max bucket:最大桶、Avg bucket:桶平均值、Sum bucket:桶求和、Stats bucket:桶信息

注意:bucketspath为管道聚合的关键字,其值从当前聚合统计的聚合函数开始计算为第一级。比如下面例子中,myaggs和myminbucket同级, myaggs就是bucketspath值的起始值。

json GET product/_search 
{
    "size": 0,
    "aggs": {
        "my_aggs": {
            "terms": {
                ...
            },
            "aggs": {
                "my_price_bucket": {
                    ...
                }
            }
        },
        "my_min_bucket": {
            "min_bucket": {
                "buckets_path": "my_aggs>price_bucket"
            }
        }
    }
}

5. 嵌套聚合

语法:

json GET product/_search 
{
    "size": 0,
    "aggs": {
        "<agg_name>": {
            "<agg_type>": {
                "field": "<field_name>"
            },
            "aggs": {
                "<agg_name_child>": {
                    "<agg_type>": {
                        "field": "<field_name>"
                    }
                }
            }
        }
    }
}

用途:用于在某种聚合的计算结果之上再次聚合,如统计不同类型商品的平均价格,就是在按照商品类型桶聚合之后,在其结果之上计算平均价格

聚合和查询的相互关系

6. 基于query或filter的聚合

语法:

json GET product/_search 
{
    "query": {
        ...
    },
    "aggs": {
        ...
    }
}

注意:以上语法,执行顺序为先query后aggs,顺序和谁在上谁在下没有关系。query中可以是查询、也可以是filter、或者bool query

7. 基于聚合结果的查询、
GET product/_search 
{
    "aggs": {
        ...
    },
    "post_filter": {
        ...
    }
}

注意:以上语法,执行顺序为先aggs后post_filter,顺序和谁在上谁在下没有关系。

8. 查询条件的作用域
json GET product/_search 
{
    "size": 10,
    "query": {
        ...
    },
    "aggs": {
        "avg_price": {
            ...
        },
        "all_avg_price": {
            "global": {
                
            },
            "aggs": {
                ...
            }
        }
    }
}

上面例子中,avgprice的计算结果是基于query的查询结果的,而allavg_price的聚合是基于all data的

聚合排序

9. 排序规则:

ordertype:count(数量) _key(聚合结果的key值) _term(废弃但是仍然可用,使用_key代替)

json GET product/_search 
{
    "aggs": {
        "type_agg": {
            "terms": {
                "field": "tags",
                "order": {
                    "<order_type>": "desc"
                },
                "size": 10
            }
        }
    }
}
10. 多级排序:即排序的优先级,按照外层优先的顺序
json GET product/_search?size=0 
{
    "aggs": {
        "first_sort": {
            ..."aggs": {
                "second_sort": {
                    ...
                }
            }
        }
    }
}

上例中,先按照firstsort排序,再按照secondsort排序

11. 多层排序:即按照多层聚合中的里层某个聚合的结果进行排序
json GET product/_search 
{
    "size": 0,
    "aggs": {
        "tag_avg_price": {
            "terms": {
                "field": "type.keyword",
                "order": {
                    "agg_stats>my_stats.sum": "desc"
                }
            },
            "aggs": {
                "agg_stats": {
                    ..."aggs": {
                        "my_stats": {
                            "extended_stats": {
                                ...
                            }
                        }
                    }
                }
            }
        }
    }
}

上例中,按照里层聚合“my_stats”进行排序

常用的查询函数

12. histogram:直方图或柱状图统计

用途:用于区间统计,如不同价格商品区间的销售情况

语法:

json GET product/_search?size=0 
{
    "aggs": {
        "<histogram_name>": {
            "histogram": {
                "field": "price",
                #字段名称"interval": 1000,
                #区间间隔"keyed": true,
                #返回数据的结构化类型"min_doc_count": <num>,
                #返回桶的最小文档数阈值,即文档数小于num的桶不会被输出"missing": 1999#空值的替换值,即如果文档对应字段的值为空,则默认输出1999(参数值)
            }
        }
    }
}
date-histogram:基于日期的直方图,比如统计一年每个月的销售额

语法:

json GET product/_search?size=0 
{
    "aggs": {
        "my_date_histogram": {
            "date_histogram": {
                "field": "createtime",
                #字段需为date类型"<interval_type>": "month",
                #时间间隔的参数可选项"format": "yyyy-MM",
                #日期的格式化输出"extended_bounds": {
                    #输出空桶"min": "2020-01",
                    "max": "2020-12"
                }
            }
        }
    }
}

interval_type:时间间隔的参数可选项

​ fixed_interval:ms(毫秒)、s(秒)、 m(分钟)、h(小时)、d(天),注意单位需要带上具体的数值,如2d为两天。需要当心当单位过小,会 导致输出桶过多而导致服务崩溃。

​ calendar_interval:month、year

​ interval:(废弃,但是仍然可用)

13. percentile 百分位统计 或者 饼状图

计算结果为何为近似值。

percentiles:用于评估当前数值分布情况,比如99 percentile 是 1000 , 是指 99%的数值都在1000以内。常见的一个场景就是我们制定 SLA 的时候常说 99% 的请求延迟都在100ms 以内,这个时候你就可以用 99 percentile 来查一下,看一下 99 percenttile 的值如果在 100ms 以内,就代表SLA达标了。

语法:

json GET product/_search?size=0 
{
    "aggs": {
        "<percentiles_name>": {
            "percentiles": {
                "field": "price",
                "percents": [
                    percent1,#区间的数值,如5、10、30、50、99即代表5%、10%、30%、50%、99%的数值分布	     percent2,...
                ]
            }
        }
    }
}

percentile_ranks: percentile rank 其实就是percentiles的反向查询,比如我想看一下 1000、3000 在当前数值中处于哪一个范围内,你查一下它的 rank,发现是95,99,那么说明有95%的数值都在1000以内,99%的数值都在3000以内。文章来源地址https://www.toymoban.com/news/detail-424635.html

json GET product/_search?size=0 
{
    "aggs": {
        "<percentiles_name>": {
            "percentile_ranks": {
                "field": "<field_value>",
                "values": [
                    rank1,
                    rank2,
                    ...
                ]
            }
        }
    }
}

到了这里,关于ES-聚合查询的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 一个通用的es聚合查询方法

    调整方法如下: getSearchCondition为数据库中配置的条件: {\\\"query\\\":{\\\"bool\\\":{\\\"must\\\":[{\\\"exists\\\":{\\\"field\\\":\\\"db_type\\\",\\\"boost\\\":1}},{\\\"exists\\\":{\\\"field\\\":\\\"dst_ip\\\",\\\"boost\\\":1}},{\\\"exists\\\":{\\\"field\\\":\\\"dst_port\\\",\\\"boost\\\":1}},{\\\"exists\\\":{\\\"field\\\":\\\"dst_db_name\\\",\\\"boost\\\":1}},{\\\"exists\\\":{\\\"field\\\":\\\"dst_db_table\\\",\\\"boost\\\":1}},{\\\"exists\\\":{\\\"field\\\":\\\"dst_asset_name\\\",\\\"boost\\\":1}

    2024年02月08日
    浏览(40)
  • es使用和常用查询(包含多字段聚合查询,实体类方式保存es)

    1.导入es相关jar包 2.增加es配置 3.读取es相关配置   4.创建es实体类,与es mapping设计一致  5.创建es结构  6.创建类继承 ElasticsearchRepository 实现通过api保存实体类ESData到es  7.保存实体类ESData到es  8.es查询 多字段匹配查询,分组查询,分组后聚合

    2024年02月03日
    浏览(49)
  • Elasticsearch专栏-6.es基本用法-聚合查询

    在es中,所有的聚合查询都是放在aggs中进行的。平均值、总和、最大、最小、数量对应的分别是:avg、sum、max、min、value_count 分组用到的是terms 上面语句中的size:3,指的是分组后,只展示前三个分组内容。size:0,指的是所有query查询结果,也就是原始数据,不需

    2024年02月09日
    浏览(39)
  • 商城项目-es的海量查询/聚合/数据同步

    1.sql表 用户数据库: tb_user:用户表,其中包含用户的详细信息 tb_address:用户地址表 商品数据库 tb_item:商品表 订单数据库 tb_order:用户订单表 tb_order_detail:订单详情表,主要是订单中包含的商品信息 tb_order_logistics:订单物流表,订单的收货人信息 2.模块搭建 feign-api:是

    2024年01月21日
    浏览(43)
  • ES聚合查询 基于RestHighLevelClient依赖 Java操作

    一、介绍 (偏自我理解)         1.ES聚合查询通用流程                 1.分组 ( 好比Mysql --- group by )                 2.组内聚合 也叫 组内指标( 好比Mysql --- SUM()、COUNT()、AVG()、MAX()、MIN() )         2.桶(我要是es开发者,我起名叫啥都行)                 1.满足特

    2024年02月06日
    浏览(48)
  • kibana es创建模板,索引,导入数据,简单聚合查询

    1.创建模板 2.获取模板

    2024年02月13日
    浏览(54)
  • ES设置最大查询条数限制,打破限制,聚合分组数量限制打破

    ​ 今天在做 ElasticSearch 进行查询的时候发现,在进行分页的时候,数据超出10000以后得页数,查询的时候会报错。后查询了 es 官方文档发现,查询数量的默认值是 10000 ; 官网链接:https://www.elastic.co/guide/en/elasticsearch/reference/7.8/index-modules.html#dynamic-index-settings 报错内容: 在

    2024年02月03日
    浏览(39)
  • 当es使用script脚本查询聚合等操作遇到空字段报错问题解决方案

            在使用ES的脚本时,如果脚本中引用了不存在或者空的字段,则会导致脚本执行失败并抛出错误。这是因为ES会在脚本执行之前尝试检索引用的字段,如果该字段不存在则会抛出异常。         因此,在使用ES脚本时,需要确保所引用的字段都存在且不为空。可

    2024年02月11日
    浏览(54)
  • ES中使用 Top Hits 查询分桶聚合结果的每个桶的详细数据

    Top hits(顶部命中)是一个聚合功能,用于在查询结果中返回每个桶(bucket)中的顶部 N 个文档。这对于需要在聚合结果中查看每个桶中的最相关或最高评分文档的情况非常有用。 简单来说,Top Hits 就是对聚合结果中相关文档的详细展示,它不同于 Post Filter,Post Filter 是基于

    2024年02月07日
    浏览(35)
  • 原生语言操作和spring data中RestHighLevelClient操作Elasticsearch,索引,文档的基本操作,es的高级查询.查询结果处理. 数据聚合.相关性系数打分

    ​ Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性,能使数据在生产环境变得更有价值。Elasticsearch 的实现原理主要分为以下几个步骤,首先用户将数据提交到Elasti

    2024年02月05日
    浏览(87)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包