5. Hive的三种去重方法-Toy模板网

这篇具有很好参考价值的文章主要介绍了5. Hive的三种去重方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Hive的三种去重方法

1. distinct

-- 语法

SELECT DISTINCT column1, column2, ...
FROM table_name;

注意事项：

distinct 不能单独用于指定某一列，必须放在 select 中所有字段的最前面，否则会报错

select column1, distinct column2, column3 
from table_name;

-- 报错信息

类似于 "cannot recognize input near 'DISTINCT' 'column2' 'column3'" 的语法错误

distinct 是对 select 后面所有字段的组合进行去重，并不是只对紧跟其后的 column1 去重。distinct 的作用范围是整个 SELECT 子句的结果集

distinct 对 NULL 是不进行过滤的，即返回的结果中包含NULL值

with t1 as (
    select 'a' as name
    union all
    select 'b' as name
    union all
    select NULL as name
    union all
    select NULL as name
)

select distinct name
from t1;

-- output:

b
NULL
a

当对大数据集进行去重时，使用 DISTINCT 需要考虑性能影响（效率较慢）

2. group by

-- 语法

SELECT column1, column2, aggregate_function(column3)
FROM table_name
WHERE condition
GROUP BY column1, column2

注意事项：

distinct 与 group by 的关系？

SELECT DISTINCT colA, colB 
FROM table1;

-- 等价于

SELECT colA, colB 
FROM table1
GROUP BY colA, colB;

在实现去重时，group by 是对 group by 后面所有字段的组合进行去重，并不是只对紧跟其后的 colA 去重。

3. row_number()

-- 语法

SELECT column1, column2, ..., ROW_NUMBER() OVER (PARTITION BY column1 ORDER BY column2) as row_num
FROM table_name
WHERE condition;

使用 row_number() 实现去重操作

-- 对 column1 进行去重

SELECT column1
FROM (
  SELECT column1 ROW_NUMBER() OVER (PARTITION BY column1) as row_num
  FROM table_name
) t
WHERE row_num = 1;

-- 对 column1、column2 进行去重

SELECT column1,column2
FROM (
  SELECT column1,column2 ROW_NUMBER() OVER (PARTITION BY column1,column2) as row_num
  FROM table_name
) t
WHERE row_num = 1;

4. 三者的效率对比

在 Hive 中，使用 distinct、group by 和 row_number() 实现去重时，它们的效率会受到多个因素的影响，包括数据规模、数据分布、查询条件等。

一般情况下，distinct 的效率相对较低，因为它需要对整个结果集进行扫描和比较，以去除重复行。尤其是当数据量较大时，distinct 可能会对性能产生较大的影响。因此，使用 distinct 去重时需要谨慎考虑其性能开销。

相比之下，group by 在处理去重时具有更好的性能。group by 会先按照指定的列进行分组，然后在每个分组内进行聚合操作，这样可以减少比较的数据量。当数据量较大时，使用 group by 去重往往比 distinct 效率更高。

row_number() 通常用于复杂的去重需求，它能够在查询结果中为每一行生成一个唯一的序号。 row_number() 可以实现更灵活的去重操作，效率相对较高。

参考链接

Hive的三种去重方式对比

hive中三种去重的方法

Hive DISTINCT() for all columns?文章来源地址https://www.toymoban.com/news/detail-539587.html

到了这里，关于5. Hive的三种去重方法的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

5. Hive的三种去重方法

Hive的三种去重方法

1. distinct

2. group by

3. row_number()

4. 三者的效率对比

参考链接

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2