Hive的动态分区与静态分区（区别及详解）-Toy模板网

这篇具有很好参考价值的文章主要介绍了Hive的动态分区与静态分区（区别及详解）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

静态分区与动态分区的区别：

1、静态分区

2、动态分区

静态分区与动态分区的区别：

静态分区是先把分区表创好，然后手动把数据导入到对应的分区里面去。
静态分区实在编译期间指定分区名。
静态分区支持load、insert两种插入方式。
静态分区是用于分区少，分区名可以明确的数据。

动态分区是有一份数据集（2015-2022年的），按照数据集的字段给动态的生成分区。
动态分区实在SQL执行的时候确定的。
动态分区前需打开：set hive.exec.dynamic.partition.mode=nonstrict;
动态分区只能用insert方式。
动态分区通过普通表选出的字段包含分区字段，分区字段放在最后，多个分区字段按照分区顺序放置。
- 比如 [订单编号，订单创建时间，订单详情编号，订单价格，订单配送员...]
- 订单创建时间（2021-11-12 12:22:49）把这个字段作为分区的字段。2021-11 这个作为分区条件。

面试题：什么时候使用静态分区，什么时候使用动态分区？

1、静态分区

静态分区是指增加数据是需要手动指定具体的分区目录
静态分区的列实在编译时期，通过用户传递列名来决定的
静态分区不管有没有数据都将会创建该分区

//分区的本质就是文件夹
//静态分区实例：
//创建外部分区表 ratings
create external table ratings(
     user_id integer,
     movie_id integer,
     `timestamp` bigint
)partitioned by (rating decimal(2,1))      //decimal(2,1) 两个数字、一位小数
row format delimited
fields terminated by  ','
stored as textfile;

//查看表ratings定义
desc formatted ratings;

//静态分区数据挂载
//手动加载数据到分区表中，静态分区一次只能操作一个
load data local inpath '/root/kb18/ratings_5.0.csv'
    into table ratings partition (rating=5.0);

select * from ratings limit 20;

HDFS在你指定数据库下，即会存在 ratings/rating=5的文件。

2、动态分区

动态分区增加数据时不用手动指定分区目录，而是由系统通过数据来进行判断。
动态分区实在SQL执行的时候确定的。
动态分区是有结果集将创建分区，否则不创建。
动态分区虽然方便快捷，但创建太多分区时可能会占用大量资源。

//动态分区实例：
//创建外部分区表ods_ratings

create external table ods_ratings
(
    user_id     integer,
    movie_id    integer,
    rating      decimal(2, 1),
    `timestamp` bigint
)
    row format delimited
        fields terminated by  ','
    stored as textfile
    location '/kb18/hive/ratings_dir'                   //数据存在hdfs路径
    tblproperties ("skip.header.line.count"="1");       //除去首行


select * from ods_ratings limit 10;

//查看模式 默认为strict 此模式不支持动态分区
set hive.exec.dynamic.partition.mode;
//设置为nonstrict
set hive.exec.dynamic.partition.mode=nonstrict;

//写入表 指定分区字段为rating
insert overwrite table ratings partition(rating)
select user_id,movie_id,`timestamp`,rating from ods_ratings;