Es直方图聚合--date_histogram

这篇具有很好参考价值的文章主要介绍了Es直方图聚合--date_histogram。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、背景

此处来简单学习一下 elasticsearchdate_histogram直方图聚合。它和普通的直方图histogram聚合差不多,但是date_histogram只可于 日期或日期范围 类型的值一起使用。

2、bucket_key如何计算

  1. 假设我们存在如下时间 2022-11-29 23:59:59
  2. es中时间为 2022-11-29 23:59:59 +0000,因为上方的时间没有时区,所以会自动加上0时区,对应的时间戳为 1669766399000
  3. 此处假设以 1d 为单位来聚合
  4. 聚合统计中 time_zone的值为+0800
  5. bucket_key计算公式为 bucket_key = localToUtc(Math.floor(utcToLocal(value) / interval) * interval))

计算步骤如下:(此处是我自己的理解,如果不对欢迎指出)

  • utcToLocal(value) = 1669766399000(utc的值) + 8*60*60*1000(time_zone +8的值) = 1669795199000
  • Math.floor(utcToLocal(value) / interval) * interval) = Math.floor(1669795199000 / (24*60*60*1000)) * (24*60*60*1000) = 1669766400000
  • localToUtc(...)=1669766400000-86060*1000=1669737600000
  • key_as_string=utc时间1669737600000转换成东八区时间展示为=2022/11/30 00:00:00

Es直方图聚合--date_histogram,elasticsearch,python,大数据

3、前置知识

  1. 日期(date)类型的字段在 es中是以 long类型的值保存的。
  2. es中默认 默认的时区是 0时区
  3. 如果我们有一个东八区的时间,那么在es中是如何存储的呢?
  • 假设存在如下mapping
"invoked_time": {
  "type": "date",
  "format": ["yyyy-MM-dd HH:mm:ss"]
}

   
   
  • 1
  • 2
  • 3
  • 4
  • 如果我们此时存在 如下 东八区时间 2022-11-29 12:12:12,那么在 es 会存储为 2022-11-29 12:12:12 +0000 对应的时间戳,为什么会加上+0000,因为我们自己的时间字符串中没有时区,就会加上默认的0时区。

4、日历和固定时间间隔

既然我们是根据时间来进行聚合,那么必然就会涉及到这么一个问题。假设以天为单位来聚合,那么1天到底是固定24小时呢,还是可变的呢? 因为存在时区的关系,在有的国家,在某些时区下,一天就不一定是24个小时。因此在es中提供了calendar-aware time intervals, 和 fixed time intervals. 两种类型。

4.1 Calendar intervals 日历间隔

日历感知间隔使用calendar_interval参数配置。 它可以自动感应到日历中的时区变化。它的单位只能是单数,不可是复数,比如2d就是错误的。

日历间隔 可用的单位为:分钟 (1m)、小时 (1h)、天 (1d)、星期 (1w)、月 (1M)、季度 (1q)、年 (1y)

举个例子:1m 是从何时开始的,何时结束的?.
所有的分钟都从00秒开始。一分钟是指定时区中第一分钟的00秒和下一分钟的00秒之间的时间间隔,用于补偿任何介于其间的闰秒,因此整点后的分钟数和秒数在开始和结束时是相同的。

4.2 Fixed intervals 固定间隔

固定间隔使用fixed_interval参数进行配置。

与日历感知间隔相比,固定间隔是固定数量的SI单位,无论它们落在日历的哪个位置,都不会偏离。一秒总是由1000ms组成。这允许以支持的单位的任意倍数指定固定间隔。但是,这意味着固定间隔不能表示其他单位,例如月,因为一个月的持续时间不是固定的数量。尝试指定月或季度等日历间隔将引发异常。

固定间隔 可用的单位为:
毫秒 (ms)
秒 (s)
          定义为每个1000毫秒
分钟 (m)
          所有分钟都从00秒开始。 定义为每个60秒(60,000毫秒)
小时 (h)
          所有小时都从00分00秒开始。 定义为每60分钟(3,600,000毫秒)
天 (d)
          所有天都在尽可能早的时间开始,通常是00:00:00(午夜)。 定义为24小时(86,400,000毫秒)

5、数据准备

5.1 准备mapping

PUT /index_api_invoked_time
{
  "settings": {
    "number_of_shards": 1
  },
  "mappings": {
    "properties": {
      "id": {
        "type": "long"
      },
      "api": {
        "type": "keyword"
      },
      "invoked_time": {
        "type": "date",
        "format": ["yyyy-MM-dd HH:mm:ss"]
      }
    }
  }
}

   
   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20

5.2 准备数据

PUT /index_api_invoked_time/_bulk
{"index":{"_id":1}}
{"api":"/user/infos","invoked_time": "2022-11-26 00:00:00"}
{"index":{"_id":2}}
{"api":"/user/add"}
{"index":{"_id":3}}
{"api":"/user/update","invoked_time": "2022-11-26 23:59:59"}
{"index":{"_id":4}}
{"api":"/user/list","invoked_time": "2022-11-27 00:00:00"}
{"index":{"_id":5}}
{"api":"/user/export","invoked_time": "2022-11-29 23:59:59"}
{"index":{"_id":6}}
{"api":"/user/detail","invoked_time": "2022-12-01 01:00:00"}

   
   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

6、聚合案例

6.1 dsl

POST /index_api_invoked_time/_search 
{
  "size": 0, 
  "aggregations": {
    "agg_01": {
      "date_histogram": {
        "field": "invoked_time",
        "calendar_interval": "1d",
        "min_doc_count": 0,
        "missing": "2022-11-27 23:59:59",
        "time_zone": "+08:00",
        "offset":"+10h",
        "extended_bounds": {
          "min": "2022-11-26 10:00:00",
          "max": "2022-12-03 10:00:00"
        }
      }
    }
  }
}

   
   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20

6.2 java代码

@Test
@DisplayName("日期直方图聚合")
public void test01() throws IOException {
    SearchRequest request = SearchRequest.of(searchRequest ->
            searchRequest.index("index_api_invoked_time")
                    .size(0)
                    .aggregations("agg_01", agg ->
                            agg.dateHistogram(dateAgg ->
                                    // 聚合的字段
                                    dateAgg.field("invoked_time")
                                            // 聚合的单位,日历感知 单位为天,此时的一天不一定为24小时,因为夏令时时,有些国家一天可能只有23个小时
                                            .calendarInterval(CalendarInterval.Day)
                                            // 固定间隔, 此处可以指定 1天就是24小时
                                            // .fixedInterval()
                                            // 如果聚合的桶中,没有文档也返回
                                            .minDocCount(0)
                                            // 对于文档中,聚合字段缺失,此处给一个默认值,默认情况是此文档不参与聚合
                                            .missing(DateTime.of("2022-11-27 23:59:59", DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss")))
                                            // 时区
                                            .timeZone("+08:00")
                                            // 偏移,偏移是在时间在对应的时区调整之后,再去偏移
                                            .offset(time -> time.time("+10h"))
                                            // 如果返回的桶数据不在这个边界中,则给默认值,不会对数据进行过滤。
                                            .extendedBounds(bounds ->
                                                    bounds.min(FieldDateMath.of(f -> f.expr("2022-11-26 10:00:00")))
                                                            .max(FieldDateMath.of(f -> f.expr("2022-12-03 10:00:00")))
                                            )
                            )
                    )
    );
    System.out.println("request: " + request);
    SearchResponse<String> response = client.search(request, String.class);
    System.out.println("response: " + response);
}

   
   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34

6.3 聚合结果

Es直方图聚合--date_histogram,elasticsearch,python,大数据

7、完整代码

https://gitee.com/huan1993/spring-cloud-parent/blob/master/es/es8-api/src/main/java/com/huan/es8/aggregations/bucket/DateHistogramAggs.java文章来源地址https://www.toymoban.com/news/detail-625958.html

8、参考文档

  1. https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-datehistogram-aggregation.html#date-histogram-missing-value
  2. https://www.pipiho.com/es/7.7/cn/search-aggregations-bucket-datehistogram-aggregation.html

1、背景

此处来简单学习一下 elasticsearchdate_histogram直方图聚合。它和普通的直方图histogram聚合差不多,但是date_histogram只可于 日期或日期范围 类型的值一起使用。

2、bucket_key如何计算

  1. 假设我们存在如下时间 2022-11-29 23:59:59
  2. es中时间为 2022-11-29 23:59:59 +0000,因为上方的时间没有时区,所以会自动加上0时区,对应的时间戳为 1669766399000
  3. 此处假设以 1d 为单位来聚合
  4. 聚合统计中 time_zone的值为+0800
  5. bucket_key计算公式为 bucket_key = localToUtc(Math.floor(utcToLocal(value) / interval) * interval))

计算步骤如下:(此处是我自己的理解,如果不对欢迎指出)

  • utcToLocal(value) = 1669766399000(utc的值) + 8*60*60*1000(time_zone +8的值) = 1669795199000
  • Math.floor(utcToLocal(value) / interval) * interval) = Math.floor(1669795199000 / (24*60*60*1000)) * (24*60*60*1000) = 1669766400000
  • localToUtc(...)=1669766400000-86060*1000=1669737600000
  • key_as_string=utc时间1669737600000转换成东八区时间展示为=2022/11/30 00:00:00

Es直方图聚合--date_histogram,elasticsearch,python,大数据

3、前置知识

  1. 日期(date)类型的字段在 es中是以 long类型的值保存的。
  2. es中默认 默认的时区是 0时区
  3. 如果我们有一个东八区的时间,那么在es中是如何存储的呢?
  • 假设存在如下mapping
"invoked_time": {
  "type": "date",
  "format": ["yyyy-MM-dd HH:mm:ss"]
}

   
   
  • 1
  • 2
  • 3
  • 4
  • 如果我们此时存在 如下 东八区时间 2022-11-29 12:12:12,那么在 es 会存储为 2022-11-29 12:12:12 +0000 对应的时间戳,为什么会加上+0000,因为我们自己的时间字符串中没有时区,就会加上默认的0时区。

4、日历和固定时间间隔

既然我们是根据时间来进行聚合,那么必然就会涉及到这么一个问题。假设以天为单位来聚合,那么1天到底是固定24小时呢,还是可变的呢? 因为存在时区的关系,在有的国家,在某些时区下,一天就不一定是24个小时。因此在es中提供了calendar-aware time intervals, 和 fixed time intervals. 两种类型。

4.1 Calendar intervals 日历间隔

日历感知间隔使用calendar_interval参数配置。 它可以自动感应到日历中的时区变化。它的单位只能是单数,不可是复数,比如2d就是错误的。

日历间隔 可用的单位为:分钟 (1m)、小时 (1h)、天 (1d)、星期 (1w)、月 (1M)、季度 (1q)、年 (1y)

举个例子:1m 是从何时开始的,何时结束的?.
所有的分钟都从00秒开始。一分钟是指定时区中第一分钟的00秒和下一分钟的00秒之间的时间间隔,用于补偿任何介于其间的闰秒,因此整点后的分钟数和秒数在开始和结束时是相同的。

4.2 Fixed intervals 固定间隔

固定间隔使用fixed_interval参数进行配置。

与日历感知间隔相比,固定间隔是固定数量的SI单位,无论它们落在日历的哪个位置,都不会偏离。一秒总是由1000ms组成。这允许以支持的单位的任意倍数指定固定间隔。但是,这意味着固定间隔不能表示其他单位,例如月,因为一个月的持续时间不是固定的数量。尝试指定月或季度等日历间隔将引发异常。

固定间隔 可用的单位为:
毫秒 (ms)
秒 (s)
          定义为每个1000毫秒
分钟 (m)
          所有分钟都从00秒开始。 定义为每个60秒(60,000毫秒)
小时 (h)
          所有小时都从00分00秒开始。 定义为每60分钟(3,600,000毫秒)
天 (d)
          所有天都在尽可能早的时间开始,通常是00:00:00(午夜)。 定义为24小时(86,400,000毫秒)

5、数据准备

5.1 准备mapping

PUT /index_api_invoked_time
{
  "settings": {
    "number_of_shards": 1
  },
  "mappings": {
    "properties": {
      "id": {
        "type": "long"
      },
      "api": {
        "type": "keyword"
      },
      "invoked_time": {
        "type": "date",
        "format": ["yyyy-MM-dd HH:mm:ss"]
      }
    }
  }
}

   
   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20

5.2 准备数据

PUT /index_api_invoked_time/_bulk
{"index":{"_id":1}}
{"api":"/user/infos","invoked_time": "2022-11-26 00:00:00"}
{"index":{"_id":2}}
{"api":"/user/add"}
{"index":{"_id":3}}
{"api":"/user/update","invoked_time": "2022-11-26 23:59:59"}
{"index":{"_id":4}}
{"api":"/user/list","invoked_time": "2022-11-27 00:00:00"}
{"index":{"_id":5}}
{"api":"/user/export","invoked_time": "2022-11-29 23:59:59"}
{"index":{"_id":6}}
{"api":"/user/detail","invoked_time": "2022-12-01 01:00:00"}

   
   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

6、聚合案例

6.1 dsl

POST /index_api_invoked_time/_search 
{
  "size": 0, 
  "aggregations": {
    "agg_01": {
      "date_histogram": {
        "field": "invoked_time",
        "calendar_interval": "1d",
        "min_doc_count": 0,
        "missing": "2022-11-27 23:59:59",
        "time_zone": "+08:00",
        "offset":"+10h",
        "extended_bounds": {
          "min": "2022-11-26 10:00:00",
          "max": "2022-12-03 10:00:00"
        }
      }
    }
  }
}

   
   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20

6.2 java代码

@Test
@DisplayName("日期直方图聚合")
public void test01() throws IOException {
    SearchRequest request = SearchRequest.of(searchRequest ->
            searchRequest.index("index_api_invoked_time")
                    .size(0)
                    .aggregations("agg_01", agg ->
                            agg.dateHistogram(dateAgg ->
                                    // 聚合的字段
                                    dateAgg.field("invoked_time")
                                            // 聚合的单位,日历感知 单位为天,此时的一天不一定为24小时,因为夏令时时,有些国家一天可能只有23个小时
                                            .calendarInterval(CalendarInterval.Day)
                                            // 固定间隔, 此处可以指定 1天就是24小时
                                            // .fixedInterval()
                                            // 如果聚合的桶中,没有文档也返回
                                            .minDocCount(0)
                                            // 对于文档中,聚合字段缺失,此处给一个默认值,默认情况是此文档不参与聚合
                                            .missing(DateTime.of("2022-11-27 23:59:59", DateTimeFormatter.ofPattern("yyyy-MM-dd HH:mm:ss")))
                                            // 时区
                                            .timeZone("+08:00")
                                            // 偏移,偏移是在时间在对应的时区调整之后,再去偏移
                                            .offset(time -> time.time("+10h"))
                                            // 如果返回的桶数据不在这个边界中,则给默认值,不会对数据进行过滤。
                                            .extendedBounds(bounds ->
                                                    bounds.min(FieldDateMath.of(f -> f.expr("2022-11-26 10:00:00")))
                                                            .max(FieldDateMath.of(f -> f.expr("2022-12-03 10:00:00")))
                                            )
                            )
                    )
    );
    System.out.println("request: " + request);
    SearchResponse<String> response = client.search(request, String.class);
    System.out.println("response: " + response);
}

   
   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34

6.3 聚合结果

Es直方图聚合--date_histogram,elasticsearch,python,大数据

7、完整代码

https://gitee.com/huan1993/spring-cloud-parent/blob/master/es/es8-api/src/main/java/com/huan/es8/aggregations/bucket/DateHistogramAggs.java

8、参考文档

  1. https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-datehistogram-aggregation.html#date-histogram-missing-value
  2. https://www.pipiho.com/es/7.7/cn/search-aggregations-bucket-datehistogram-aggregation.html

到了这里,关于Es直方图聚合--date_histogram的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 译文:我们如何使 Elasticsearch 7.11 中的 date_histogram 聚合比以往更快

    这篇文章是ES7.11版本的文章,主要学习的是思路,记录在这里留作以后参考用。 原文地址:https://www.elastic.co/cn/blog/how-we-made-date-histogram-aggregations-faster-than-ever-in-elasticsearch-7-11 Elasticsearch 的 date_histogram 聚合是 Kibana 的 Discover 和 Logs Monitoring UI 的基石。我经常使用它来调查构建

    2024年02月04日
    浏览(88)
  • Elasticsearch使用篇 - 直方图聚合、日期直方图聚合、自动日期直方图聚合

    [ˈhɪstəˌɡræm] ,直方图聚合。属于分桶聚合。 基于数值类型的字段或者数值范围类型的字段进行聚合。按照固定间隔动态构建分桶。 field:用于聚合的字段。 interval:指定每个桶之间的间隔。该值必须是一个大于 0 的双精度浮点数。 keyed:默认 false,则使用数组格式返回数

    2024年01月20日
    浏览(55)
  • Qt之基于QCustomPlot绘制直方图(Histogram),叠加正态分布曲线

    高斯分布(Gaussian distribution),又名正态分布(Normal distribution),也称\\\"常态分布\\\",也就是说,在正常的状态下,一般的事物,都会符合这样的分布规律。 比如人的身高为一个随机变量,特别高的人比较少,特别矮的也很少,大部分都集中在中等身高。 人的智商也是如此,社会精

    2024年02月06日
    浏览(57)
  • OpenCV10-图像直方图:直方图绘制、直方图归一化、直方图比较、直方图均衡化、直方图规定化、直方图反射投影

    图像直方图就是统计图像中每个灰度值的个数,之后将灰度值作为横轴,以灰度值个数或者灰度值所占比率作为纵轴的统计图。通过直方图,可以看出图像中哪些灰度值数目较多,哪些较少,可以通过一定的方法将灰度值较为集中的区域映射到较为稀疏的区域,从而使图像在

    2024年01月16日
    浏览(53)
  • 【OpenCV • c++】直方图计算 | 绘制 H-S 直方图 | 绘制一维直方图 | 绘制 RGB 三色直方图

      直方图广泛应用于很多计算机视觉处理当中。通过标记帧与帧之间显著的边缘和颜色的变化,可以检测视频中的场景变化。在每个兴趣点设置一个有相似特征的直方图所构成的“标签”,可以用来标记各种不同的事情,比如图像的色彩分布,物体边缘梯度模板等等。是计

    2024年02月09日
    浏览(55)
  • 【OpenCV • c++】自定义直方图 | 灰度直方图均衡 | 彩色直方图均衡

      直方图广泛应用于很多计算机视觉处理当中。通过标记帧与帧之间显著的边缘和颜色的变化,可以检测视频中的场景变化。在每个兴趣点设置一个有相似特征的直方图所构成的“标签”,可以用来标记各种不同的事情,比如图像的色彩分布,物体边缘梯度模板等等。是计

    2024年02月08日
    浏览(53)
  • Python图像增强之直方图均衡化(全局直方图均衡、局部直方图均衡)

    图像增强是有目的地强调图像的整体或局部特性,将原来不清晰的图像变得清晰或强调某些感兴趣的特征,扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,使之改善图像质量、丰富信息量,加强图像判读和识别效果,满足某些特殊分析的需要。 图像增强通常划分

    2024年02月13日
    浏览(38)
  • 【OpenCV学习笔记30】- OpenCV 中的直方图 - 直方图 - 4:直方图反投影

    这是对于 OpenCV 官方文档中 图像处理 的学习笔记。学习笔记中会记录官方给出的例子,也会给出自己根据官方的例子完成的更改代码,同样彩蛋的实现也会结合多个知识点一起实现一些小功能,来帮助我们对学会的知识点进行结合应用。 如果有喜欢我笔记的请麻烦帮我关注

    2024年03月26日
    浏览(55)
  • OpenCv:直方图均衡化(HE),自适应直方图均衡化(AHE),限制对比度自适应直方图均衡化(CLAHE)

    总结了使用Python OpenCv处理图像直方图均衡化(HE),自适应直方图均衡化(AHE),限制对比度自适应直方图均衡化(CLAHE)的方法。 HE直方图增强,大家都不陌生,是一种比较古老的对比度增强算法。 通过equalizeHist()可以实现图像的直方图均衡,它是一种全局直方图均衡,考量的对象

    2024年02月03日
    浏览(42)
  • 计算机视觉实战--直方图均衡化和自适应直方图均衡化

    前言: Hello大家好,我是Dream。 均衡化是数字图像处理中常用的一种技术,用于增强图像的视觉效果和对比度。 ,今天我们将实现对同一张图像的 直方图均衡化 和 自适应直方图均衡化 处理,学习一下两者的的 基本原理和实现过程 ,一起来看看吧~ 直方图均衡化(Histogram

    2024年02月13日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包