【hive】hive中row_number() rank() dense_rank()的用法

这篇具有很好参考价值的文章主要介绍了【hive】hive中row_number() rank() dense_rank()的用法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

hive中row_number() rank() dense_rank()的用法

一、函数说明

主要是配合over()窗口函数来使用的,通过over(partition by order by )来反映统计值的记录。

  1. rank() over()是跳跃排序,有两个第二名时接下来就是第四名(同样是在各个分组内)
  2. dense_rank() over()是连续排序,有两个第二名时仍然跟着第三名。相比之下  row_number是没有重复值的
  3. row_number() 会根据顺序计算,仅仅是加了序号

二、应用场景

可以用于学生成绩排名

row_number()按照值排序时产生一个自增编号,不会重复(如:1、2、3、4、5、6)

rank() 按照值排序时产生一个自增编号,值相等时会重复,会产生空位(如:1、2、3、3、3、6)dense_rank() 按照值排序时产生一个自增编号,值相等时会重复,不会产生空位(如:1、2、3、3、3、4)


下面开始学习这几个函数:

  1. 准备数据:

字段名为:name、orderdate、cost

Jack,2017-01-01,10
Tony,2017-01-02,15
Jack,2017-02-03,23
Tony,2017-01-04,29
Jack,2017-01-05,46
Jack,2017-04-06,42
Tony,2017-01-07,50
Jack,2017-01-08,55
Mark,2017-04-08,62
Mart,2017-04-09,68
Meil,2017-05-10,12
Mart,2017-04-11,75
Meil,2017-06-12,80
Mart,2017-04-13,94

  1. 创建表:
create table business(
name string,
orderdate string,
cost int)
row format delimited
fields terminated by ",";
  1. 加载数据:
load data local inpath "/root/business.txt" into table business;

1、row_number() over()排序功能:

在使用 row_number() over()函数时候,over()里头的分组以及排序的执行晚于 where group by order by 的执行。

partition by 用于给结果集分组,如果没有指定那么它把整个结果集作为一个分组,它和聚合函数不同的地方在于它能够返回一个分组中的多条记录,而聚合函数一般只有一个反映统计值的记录。

例子:按月份来查询,根据cost来降序排序:

select *,row_number() over(partition by substr(orderdate,1,7) order by cost desc) as num
from business;

【hive】hive中row_number() rank() dense_rank()的用法,hive,hive,hadoop,数据仓库

2、rank() over()

rank() over()是跳跃排序,有两个第二名时接下来就是第四名(同样是在各个分组内)

为了演示效果,我们再把txt文件导入hive中,相当于hive表中有2份相同的数据

导入数据:

load data local inpath "/root/business.txt" into table business;

例子:按名字分组,并按照金额进行排序,给出编号

select *,rank() over(partition by name order by cost desc) as num from business;

【hive】hive中row_number() rank() dense_rank()的用法,hive,hive,hadoop,数据仓库

3、dense_rank() over()

dense_rank() over()是连续排序,有两个第二名时仍然跟着第三名。相比之下row_number是没有重复值的

还是上面那个例子:按名字分组,按金额降序排序,给出序号

select *,dense_rank() over(partition by name order by cost desc) as num from business;

【hive】hive中row_number() rank() dense_rank()的用法,hive,hive,hadoop,数据仓库文章来源地址https://www.toymoban.com/news/detail-650428.html

到了这里,关于【hive】hive中row_number() rank() dense_rank()的用法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hive的Rank排名(rank函数,dense_rank函数,row_numer函数)

    一、区别: 三者通常都会配合窗口函数over(),并结合partition by order by xxx来分组排序,即形式使用:function_name over(partition by xxx order by xxx)。首先三者都是产生一个自增序列,不同的是 row_number( ) 排序的字段值相同时序列号不会重复,如:1、2、(2)3、4、5(出现两个2,第二个

    2023年04月17日
    浏览(42)
  • [hive] 窗口函数 ROW_NUMBER()

    在 Hive SQL 中, ROW_NUMBER() 是一个用于生成行号的窗口函数。 它可以为 查询结果集中的每一行分配一个唯一的行号 。 以下是 ROW_NUMBER() 函数的基本语法: PARTITION BY 子句可选,用于指定 分区列 ,它将结果集划分为不同的分区。 每个分区内的行都会有独立的行号计数,即行号

    2024年02月07日
    浏览(38)
  • hive limit分页查询、row_number()分页查询

       hive执行limit语句报错,分页失败 如: 2.1 row_number()的使用   (1)按照deptno分组,不排序   (2)按照empno进行排序,不分组,排序列命名rownum   (3)按照empno排序,同时根据deptno进行分组 2.2 分页   从原表中查询第6到第10行数据 注:   row_number最好写一个 临时

    2023年04月08日
    浏览(42)
  • mysql之row_number函数

    1.语法 #将字段按照COLUMN1分组COLUMN2排序后分配一个从1开始升序的编号 PARTITION BY子句将结果集划分为分区。 ROW_NUMBER()函数分别应用于每个分区,并重新初始化每个分区的行号。 PARTITION BY子句是可选的。如果未指定,ROW_NUMBER()函数会将整个结果集视为单个分区。 ORDER BY子句定义

    2024年02月03日
    浏览(37)
  • row_number 和 cte 使用实例:按照队列进行数据抵消

    今天无聊的翻了翻以前的论坛的帖子。。。嗯,想把一些没有什么价值的消息记录给删除掉,就是那些专家分获取记录。 毕竟,现在论坛已经改名叫社区了,也取消了专家分这个设置了。 在进行记录删除前,老顾觉得,有些比较有意思的问题,还是把记录保留下来,比在所

    2024年02月16日
    浏览(37)
  • GaussDB(DWS)迁移实践丨row_number输出结果不一致

    摘要: 迁移前后结果集row_number字段值前后不一致,前在DWS上运行不一致。 本文分享自华为云社区《GaussDB(DWS)迁移 - oracle兼容 --row_number输出结果不一致》,作者:譡里个檔 。 迁移前后结果集row_number字段值前后不一致,前在DWS上运行不一致。 这种问题大部分都是因为PARTITI

    2024年02月06日
    浏览(70)
  • SQL删除重复的记录(只保留一条)-窗口函数row_number()

    关于删除mysql表中重复数据问题,本文中给到两种办法:聚合函数、窗口函数row_number()的方法。 (注意:MySQL从8.0开始支持窗口函数) 测试数据准备:首先创建一个测试表test,插入一些测试数据,模拟一些重复数据(最终目标:删除重复数据,但不处理null行) 先查询下重复数

    2024年02月05日
    浏览(47)
  • MySQL 实现row_number() over(partition by ) 分组排序功能

    语法格式:   row_number() over()分组排序功能: 在使用 row_number() over()函数时候,over()里头的分组以及排序的执行晚于 where 、group by,但不晚于 order by 的执行。   创建测试环境 在线数据库 http://sqlfiddle.com/   1. 创建表   2. Oracle row_number() over(partition by) 分组排序功能   3. M

    2024年02月15日
    浏览(41)
  • mysql8之前如何实现row_number() over(partition by xxx order by xxx asc/desc)

    最近笔者在进行对广告业务的数据统计时遇到这种情况,业务方嫌弃离线数仓太慢,又无需太高的实时性本该使用即席查询的OLAP去做,但是当前公司调研的OLAP还没有推到广告业务侧,无奈只得使用mysql暂时顶一下。我们当前使用的是mysql5.7。 一充用户 :当日只有一次充值的

    2024年02月05日
    浏览(58)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包