ElasticSearch 分组统计,每组取最新数据

这篇具有很好参考价值的文章主要介绍了ElasticSearch 分组统计,每组取最新数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

数据统计需求

ElasticSearch按任务id分组统计
查询方法:
任务ID一个,网站ID若干
求:
按网站ID分组,crawTotal最大,且时间为最新的一条数据。文章来源地址https://www.toymoban.com/news/detail-685790.html

实现方法


# query中限制结果数据的查询条件,提供任务ID(taskId)和网站ID(siteId)
# aggs 根据网站ID进行聚合,关键函数【top_hits】
# top_hits.size 控制分组内部每个分组数据的数量
# top_hits.sort 控制分组内数据排序规则,可使用多个排序属性


GET stat_craw_page/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "taskId": {
              "value": 227796352
            }
          }
        },
        {
          "terms": {
            "siteId": [
              "46871",
              "2810"
            ]
          }
        }
      ]
    }
  },
  "size": 0, 
  "track_total_hits": true,
  "aggs": {
    "group_by_siteid": {
      "aggs": {
        "latestRecord": {
          "top_hits": {
            "size": 1,
            "sort": [
              {
                "crawTotal": {
                  "order": "desc"
                }
              },
              {
                "statTime": {
                  "order": "desc"
                }
              },
              {
                "hour": {
                  "order": "desc"
                }
              }
            ]
          }
        }
      },
      "terms": {
        "field": "siteId",
        "size": 10000
      }
    }
  }
}

输出结果

{
  "took" : 2,
  "timed_out" : false,
  "_shards" : {
    "total" : 15,
    "successful" : 15,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : 72,
    "max_score" : 0.0,
    "hits" : [ ]
  },
  "aggregations" : {
    "group_by_siteid" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : 2810,
          "doc_count" : 48,
          "latestRecord" : {
            "hits" : {
              "total" : 48,
              "max_score" : null,
              "hits" : [
                {
                  "_index" : "sz_stat_craw_page",
                  "_type" : "json",
                  "_id" : "227796352-2810-2425",
                  "_score" : null,
                  "_source" : {
                    "insertTime" : 1655091229871,
                    "crawTotal" : 1056,
                    "crawAdd" : 44,
                    "crawNew" : 22,
                    "hour" : 24,
                    "analysisTotal" : 1056,
                    "siteId" : 2810,
                    "analysisAdd" : 44,
                    "statTime" : "2022-06-13",
                    "taskId" : 227796352
                  },
                  "sort" : [
                    1056,
                    1655078400000,
                    24
                  ]
                }
              ]
            }
          }
        },
        {
          "key" : 46871,
          "doc_count" : 24,
          "latestRecord" : {
            "hits" : {
              "total" : 24,
              "max_score" : null,
              "hits" : [
                {
                  "_index" : "sz_stat_craw_page",
                  "_type" : "json",
                  "_id" : "227796352-46871-24",
                  "_score" : null,
                  "_source" : {
                    "insertTime" : 1654848313146,
                    "crawTotal" : 768,
                    "crawAdd" : 32,
                    "crawNew" : 16,
                    "hour" : 24,
                    "analysisTotal" : 552,
                    "siteId" : 46871,
                    "analysisAdd" : 23,
                    "statTime" : 1654790400000,
                    "taskId" : 227796352
                  },
                  "sort" : [
                    768,
                    1654790400000,
                    24
                  ]
                }
              ]
            }
          }
        }
      ]
    }
  }
}

到了这里,关于ElasticSearch 分组统计,每组取最新数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【SQL】对表中的记录通过时间维度分组,统计出每组的记录条数

    场景:一般用作数据统计,比如统计一个淘宝用户在年、月、日的维度上的订单数。 业务:一个集合,以时间维度来进行分组求和。 准备一张订单表order,有一些常规属性,比如创建时间,订单号。 DDL语句如下: 测试数据准备如下,50条DML语句,其中order_date分布在2023年1月

    2024年01月16日
    浏览(34)
  • MySQL使用GROUP BY分组后,获取每组中时间记录最新的行对应的其他字段

    在编写MySQL数据库查询语句时,经常遇到使用GROUP BY分组后,需要获取每组中时间记录最新的行对应的其他字段这一情况。例如下表(t_score): id student course score examdate 1 小张 语文 89.0 2023-06-29 2 小张 数学 90.0 2023-06-29 3 小张 语文 91.0 2024-01-10 4 小张 数学 93.0 2024-01-10 5 小李 语

    2024年01月17日
    浏览(28)
  • Mysql 查询分组数据中每组某一数值最大的数据

    该表表名为customer,  park_id表示园区id,joined_at表示用户的加入时间,created_at表示用户的创建时间。 需求:查出每个园区中,最早加入园区的第一位用户 查出id为 1和9的两条数据 解题思路:       【提示】  此处使用 limit 是为了确保,group by分组的时候会按照子查询中输出的

    2024年02月08日
    浏览(36)
  • ES统计分组后的分组数量

    工作中遇到需要统计分组数量的查询,记录一下 ps: 按区域分组, 统计有几个区域 结果

    2024年02月07日
    浏览(37)
  • SQL分组后取topN

    求每门课程中成绩最好的人 使用窗口函数: 利用表链接 使用子查询 求每门课程成绩前两人 使用窗口函数: 使用自身左链接 结果: 这是对CID分组,按分数排名的表 上图中3中不同的排名方式,对应sql窗口函数的三种 row_number : 就是按1-2-3顺序排 rank:就是按 1-1-3 排列--这就是 

    2024年02月10日
    浏览(27)
  • ES时间分组统计查询

    查询结果: 以上对应的Java代码 更多内容课参考: https://www.cnblogs.com/xiaoyh/p/16264715.html

    2024年02月12日
    浏览(31)
  • ES分组查询,统计组名

    需要通过分组查询的方式,获取每个组的组名,以及每组数据的个数 可以通过聚合函数aggs去查询 记录一下。

    2024年02月11日
    浏览(34)
  • 【ES】脚本截取字段分组查询统计

    有个需求为:统计一个月内每天的降雨量,时间格式为text类型,如:2022-02-22 08:09:09 需要提取出字符2022-02-22来分组,即截取字符串的前10位 ES查询语句如下: 参考文章 Es-脚本截取分组聚合_今日全糖加冰的博客-CSDN博客_es 脚本聚合

    2024年02月11日
    浏览(47)
  • MySQL如何查询根据某一条件分组,再查询出每组数据中时间最早或最晚的数据

    最近遇到个需求,需要先根据A条件进行分组,然后查询出每组数据中时间最近的一条数据,立马就写出了sql语句 但是执行了一下,发现不对,子查询中 order by 貌似失效了,查出来的数据并不是要想要的时间最近的数据。 经过我的研究,发现,想要子查询中使用order by生效,

    2024年03月09日
    浏览(33)
  • ElasticSearch分组统计查询

    maven依赖: 构建配置类: 根据两个字段进行统计: 实体定义: 创建索引文件:

    2024年02月02日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包