Hive创建分区表并插入数据

这篇具有很好参考价值的文章主要介绍了Hive创建分区表并插入数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

业务中经常会遇到这种需求：数据每天全量更新，但是要求月底将数据单独保存一份以供后期查询某月节点的信息。这时就要考虑用到Hive的分区表实现，即按照月份创建分区表，相当于新的月份数据保存在新表，进而实现保存了历史数据。

分区表创建

分区表的创建本质是在HDFS创建了一个分区字段为名称的文件夹，插入数据时根据分区字段取值插入到文件中。

静态分区表

定义：静态分区在插入数据时要指定分区名，支持load、insert两种插入方式，主要用于分区少，分区名可以确定的情况。

动态分区表

定义：动态分区在插入数据时根据指定字段取值生成分区，只能使用insert方式插入数据。在定义时如果既有静态分区字段又有动态分区字段，动态分区字段放在最后。文章来源地址https://www.toymoban.com/news/detail-727666.html

分区表创建

create table tableName(
	field_name1 string,
	field_name2 string
)
partitioned by (p_field string,pmt string comment '年月')
row format delimited 
fields terminated by ','
STORED AS ORC
TBLPROPERTIES("orc.compress"="SNAPPY")   //压缩格式，或者使用语句stored as parquet
tblproperties ("skip.header.line.count"="1"); // 除去首行

数据载入

静态分区载入数据

-- 1、手动加载数据（会在所选数据库下生成/tableName/2023-10文件夹）
load data local inpath '/path/xxxx.csv' into table tableName partition (pmt='2023-10');

-- 2、insert插入数据(增量插入)
insert into tableName partition(p_field='aaa',pmt='2023-10')
select
	field_name1,
	field_name2
from
	tmp_tableName

-- 3、insert插入数据(全量插入)
insert overwrite table tableName partition(p_field='aaa',pmt='${date}')
select
	field_name1,
	field_name2
from
	tmp_tableName

动态分区插入数据

-- 1、动静分区
-- 设置动态分区参数
set hive.exec.dynamic.partition=true;  //开启动态分区功能
set hive.exec.dynamic.partition.mode=nonstrick; //默认参数strick也可实现动静分区

insert overwrite table tableName partition(p_field='aaa',pmt)
select
	field_name1,
	field_name2
from
	tmp_tableName

-- 2、动态分区
set hive.exec.dynamic.partition=true;  //开启动态分区功能
set hive.exec.dynamic.partition.mode=nonstrick; 

insert overwrite table tableName partition(p_field,pmt)
select
	field_name1,
	field_name2
from
	tmp_tableName

-- 3、相关调优参数
set  hive.exec.max.dynamic.partitions.pernode=1000  //每个maper或reducer可以允许创建的最大动态分区个数，默认是100，超出则会报错。
set hive.exec.max.dynamic.partitions =1000  //一个动态分区语句可以创建的最大动态分区个数，超出报错
set hive.exec.max.created.files =10000  //全局可以创建的最大文件个数，超出报错。

删除分区

-- 删除指定分区
alter table dbname,tableName drop [if exists] partition(pmt='2023-11')
alter table dbname,tableName drop partition(pmt>'2023-11')

到了这里，关于Hive创建分区表并插入数据的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

Toy模板网

Hive创建分区表并插入数据

分区表创建

静态分区表

动态分区表

分区表创建

数据载入

静态分区载入数据

动态分区插入数据

删除分区

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2