【大数据之Hive】十三、Hive-HQL函数之单行函数和高级聚合函数-Toy模板网

这篇具有很好参考价值的文章主要介绍了【大数据之Hive】十三、Hive-HQL函数之单行函数和高级聚合函数。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Hive内置函数：单行函数、聚合函数、炸裂函数、窗口函数。

--查看系统内置函数：
show functions;

--查看内置函数用法：
desc function 函数名;

--查看内置函数详细信息：
desc function extended 函数名；

一、单行函数

单行函数的特点是一进一出，即输入一行，输出一行；包括算数运算函数、数值函数、字符串函数、日期函数、流程控制函数、集合函数等。

1 算数运算函数

【大数据之Hive】十三、Hive-HQL函数之单行函数和高级聚合函数

--按位异或(位同为0，不同为1)
select 2^3;    --10 ^ 11 = 01 = 1

2 数值函数

--round：四舍五入
select rount(3.3);    --3
select rount(-1.5);    --  -2

--ceil：向上取整
select ceil(3.1);    --3
select ceil(-1.5);    --  -1

--floor：向下取整
select floor(4.9);    --4
select floor(-1.3);    --  -2

3 字符串函数

3.1 substring 截取字符串

语法：

-- 一：返回string，返回字符串A从start位置到结尾的字符串
substring(string A, int start);


-- 二：返回string，返回字符串A从start位置开始，长度为len的字符串
substring(string A, int start, int len);

--获取第二个字符以后的所有字符：
select substring('liaoyanxia',2);    -- iaoyanxia

--获取倒数第三个字符以后的所有字符（复数为倒数）：
select substring('liaoyanxia',-3);    -- xia

--获取从第5个字符开始，向后取3个字符：
select substring('liaoyanxia',5,3);    -- yan

3.2 replace 全局替换

语法：

-- 返回string，将字符串A中的字符串B替换为C
replace(string A, string B, string C);

select replace('liaoyanxia','l','L');    --Liaoyanxia

3.3 regexp_replace 正则替换

语法：

--返回string，将字符串A中符合Java正则表达式B的部分替换为C，在用到'/'时需要用转义字符'\\'.
regexp_replace(string A, string B, string C);

--将数字用num代替
select regexp_replace('id:120-234','[0-9]+','num');    --id:num-num

3.4 regexp 正则匹配

语法：

--返回boolean，若字符串符合正则表达式则返回true，否则返回false：
select 字符串 regexp 正则表达式;

select 'liaoyanxia' regexp 'liao+';    --true
select 'liaoyanxia' regexp 'liso+';    --false

3.5 repeat 重复字符串

语法：

--返回string，将字符串A重复n遍
select repeat(string A,int n);

select repeat('liaoyanxia',2);    --liaoyanxialiaoyanxia

3.6 split 字符串切割

语法：

--返回array，按照正则表达式pat匹配的内容切割字符串A，切割后的字符串以数组的形式返回。
select split(string A,正则表达式);

select split('a-b-c-d','-');    --["a","b","c","d"]

3.7 nvl 替换null值

语法：

--若A的值不为null，则返回A，否则返回B
select nvl(A,B);

select nvl(null,1);    --1

3.8 concat 拼接字符串

语法：

--返回string，将A,B,...等字符串拼接为一个字符串
select concat(string A,string B,...);

select concat('liaoyanxia',' ','is',' ','a',' ','gril');    --liaoyanxia is a gril

3.9 concat_ws 以指定分隔符拼接字符串或者字符串数组

语法：

--返回string，使用分隔符a凭借多个字符串A,B,...，或者一个数组的所有元素
select concat_ws(string a,string A,string B,...);

select concat_ws(' ','liaoyanxia','is','a','gril');    --liaoyanxia is a gril

3.10 get_json_object 解析json字符串

语法：

--返回string，解析json字符串json_string，返回path指定的内容。
--如果输入的json字符串无效则返回null。
select get_json_object(string json_string,string path);

--取json里的数据
select get_json_object('[{"name":zhangsan,"age":"23"},{"name":lisi,"age":"24"}]','$.[0].name');
--zhangsan

4 日期函数

4.1 unix_timestamp 返回当前或指定时间的时间戳

语法：

--返回bigint，把按格式format传进来的日期time转为的时间戳
select unix_timestamp(string time,string format);

select unix_timestamp('2023/05/17 11-37-23','yyyy/MM/dd HH-mm-ss');
--1684323443

4.2 from_unixtime 转化UNIX时间戳为当前时区的时间格式

到指定时间的秒数。
语法：

--返回当前时区的时间格式string
select from_unixtime(bigint 时间戳);

select from_unixtime(1684323443);    --2023/05/17 11:37:23

4.3 current_date 当前日期及时间

语法：

--获取当前日期
select current_date;

--获取当前日期和时间，精确到毫秒
select current_timestamp;

4.4 获取日期中的月或日或时

语法：

--返回int
--获取月
select month(string date);

--获取日
select day(string date);

--获取小时
select hour(string date);

select month('2023/05/17 11:37:23');    --5
select day('2023/05/17 11:37:23');    --17
select hour('2023/05/17 11:37:23');    --11

4.5 datediff 两个日期相差的天数

语法：

--返回int,结束日期enddate减去开始日期startdate的天数
select datediff(string enddate,string startdate);

select datediff('2023-5-17','2022-5-19');

4.6 date_add & date_sub 日期加减天数

语法：

--返回string，开始日期startdate加减days天后的日期
select date_add(string startdate,int days);
select date_sub(string startdate,int days);

select date_add('2023-5-17',2);    --2023-5-19
select date_sub('2023-5-17',2);    --2023-5-15

4.7 date_format 将标准日期解析成指定格式字符串

语法：

--将日期date按指定格式format返回
select date_format(string date,string format);

select date_format('2023-5-17','yyyy年-MM月-dd日');    --2023年-05月-17日

5 流程控制函数

5.1 case when 条件判断函数

语法：

-- 一、如果condition1为true则返回result1;...;否则返回default_result。
select

    case
        when condition1 then result1
        when condition2 then result2
        ...
        else default_result
    end
from table_name;

-- 二、如果value_0=value_1则返回result1;...;否则返回default_result。
select

    case value_0
        when value_1 then result1
        when value_2 then result2
        ...
        else default_result
    end
from table_name;

select case when 1=2 then 'out:1=2' when 2=2 then 'out:2=2' else 'nothing' end;
select case 2 when 1 then 'out:1=2' when 2 then 'out:2=2' else 'nothing' end;

5.2 if 条件判断

语法：

--类似于Java中三元运算符,符合条件condition时返回valueTrue,否则返回valueFalseOrNull.
select

    if(boolean condition,T valueTrue,T valueFalseOrNull)
from table_name;

select if(10 > 5,'true','false');    --true
select if(10 > 11,'true','false');    --false

6 集合函数

语法：

--size()：获取数组或Map类型列的大小
select size(arrayOrMap_column) from table_name;

--map()：根据输入的key和value创建map集合。
select map(key1, value1, key2, value2,...);

--map_keys()：返回map中的key
select map_keys(map(key1,value1,key2,value2,...));

--map_values()：返回map中的value
select map_values(map(key1,value1,key2,value2,...));

--array()：声明array集合
select array(value1,value2,...);

--array_contains()：判断array中是否包含某个元素a，返回true或false
select array_contains(array(value1,value2,...),string a);

--sort_array()：把array中的元素排序
select sort_array(array(value1,value2,...));

--struct()：声明struct中的各种属性根据输入的参数构造结构体struct类
select struct(property1,property2,...);

--named_struct()：声明struct的属性和值
select named_struct(property1,value1,property2,value2,...);

select map('beijing',1,'shanghai',2);    --{"beijing":1,"shanghai":2}

select map_keys(map('beijing',1,'shanghai',2));    --["beijing","shanghai"]

select map_values(map('beijing',1,'shanghai',2));    --[1,2]

select array('1','2','3','4');    --["1","2","3","4"]

select array_contains(array('1','2','3','4'),'1');    --true

select sort_array(array('1','2','3','4'));    --["1","2","3","4"]

select struct('name','age','weight');    --{"col1":"name","col2":"age","col3":"weight"}

select named_struct('name','zhangsan','age',18,'weight',65);    --{"name":"zhangsan","age":18,'weight':65}

7 案例

数据准备

表结构：
【大数据之Hive】十三、Hive-HQL函数之单行函数和高级聚合函数

--建表
create table employee(
    name string,    --姓名
    sex string,    --性别
    birthday string ,
    hiredate string,    --入职日期
    job string,    --岗位
    salary double,    --薪水
    bonus double,    --奖金
    friends array<string>,
    children map<string,int>
)
row format delimited fields terminated by '\t';

--插入数据：
insert into employee  
 values('张无忌','男','1980/02/12','2022/08/09','销售',3000,12000,array('阿朱','小昭'),map('张小无',8,'张小忌',9)),
        ('赵敏','女','1982/05/18','2022/09/10','行政',9000,2000,array('阿三','阿四'),map('赵小敏',8)),
       ('宋青书','男','1981/03/15','2022/04/09','研发',18000,1000,array('王五','赵六'),map('宋小青',7,'宋小书',5)),
       ('周芷若','女','1981/03/17','2022/04/10','研发',18000,1000,array('王五','赵六'),map('宋小青',7,'宋小书',5)),
       ('郭靖','男','1985/03/11','2022/07/19','销售',2000,13000,array('南帝','北丐'),map('郭芙',5,'郭襄',4)),
       ('黄蓉','女','1982/12/13','2022/06/11','行政',12000,null,array('东邪','西毒'),map('郭芙',5,'郭襄',4)),
       ('杨过','男','1988/01/30','2022/08/13','前台',5000,null,array('郭靖','黄蓉'),map('杨小过',2)),
       ('小龙女','女','1985/02/12','2022/09/24','前台',6000,null,array('张三','李四'),map('杨小过',2))

需求及实现：

--统计每个月的入职人数:month cnt   (有问题)
select 
    month(replace(hiredate,'/','-')) month,
    count(*) cnt
from employee
group by month(replace(hiredate,'/','-'));


--查询每个人的年龄（年 + 月）:name age
select
    name,
    concat(floor(datediff(current_date,birthday)/365),'年'，datediff(current_date,birthday)%12,'月') age
from employee;
    

--按照薪资，奖金的和进行倒序排序，如果奖金为null，置位0:name sal
select 
    name,
    salary+nvl(bonus,0) sal
from employee
order by sal desc; 


--查询每个人有多少个朋友:name cnt
select
    name,
    size(friends) cnt
from employee;

--查询每个人的孩子的姓名:name ch_name
select
    name,
    map_keys(children) ch_name
from employee;

--查询每个岗位男女各多少人:job male female
select
    job,
    sum(if(sex='男',1,0)) male,
    sum(if(sex='女',1,0)) female
from employee
group by job;

二、高级聚合函数

1 概述

多进一出，即多行输入，一行输出。
语法：文章来源地址https://www.toymoban.com/news/detail-493964.html

--普通聚合
select count(*) from table_name;
select max(col_name) from table_name;
select min(col_name) from table_name;
select sum(col_name) from table_name;
select avg(col_name) from table_name;

--collect_list()：收集并形成list集合，结果不去重。
select collect_list(col_name) from table_name;

--collect_set()：收集并形成set集合，结果去重。
select collect_set(col_name) from table_name;

2 案例

--求每个月入职的人数及姓名
select 
    month(replace(hiredate,'/','-')) month,
    count(*) cnt,
    collect_list(name) names
from employee
group by month(replace(hiredate,'/','-'));