Hive调优一文打尽

10月前作者：跟着大数据和AI去旅行分类：Toy博客阅读(26) 违法举报

这篇具有很好参考价值的文章主要介绍了Hive调优一文打尽。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、调优概述

Hive 作为大数据领域常用的数据仓库组件，在平时设计和查询时要特别注意效率。影响 Hive 效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、Job或I/O过多、MapReduce 分配不合理等等。对Hive 的调优既包含 Hive 的建表设计方面，对HiveHQL 语句本身的优化，也包含 Hive 配置参数和底层引擎 MapReduce 方面的调整。

所以此次调优主要分为以下四个方面展开：

Hive的建表设计层面
HQL语法和运行参数层面
Hive架构层面
Hive数据倾斜

总之，Hive调优的作用：在保证业务结果不变的前提下，降低资源的使用量，减少任务的执行时间。文章来源地址https://www.toymoban.com/news/detail-807675.html

二、调优须知

对于大数据计算引擎来说：数据量大不是问题，数据倾斜是个问题。
Hive的复杂HQL底层会转换成多个MapReduce Job并行或者串行执行，Job数比较多的作业运行效
率相对比较低，比如即使只有几百行数据的表，如果多次关联多次汇总，产生十几个Job，耗时很长。
原因是 MapReduce 作业初始化的时间是比较长的。
在进行Hive大数据分析时，常见的聚合操作比如sum，count，max，min，UDAF等，不怕数据倾
斜问题，MapReduce 在 Mappe阶段的预聚合操作，使数据倾斜不成问题。
好的建表设计，模型设计事半功倍。
设置合理的 MapReduce 的 Task 并行度，能有效

到了这里，关于Hive调优一文打尽的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

详述Hive企业级优化

一、问题背景 hive离线数仓开发，一个良好的数据任务，它的运行时长一般是在合理范围内的，当发现报表应用层的指标数据总是产出延迟，排查定位发现是有些任务执行了超10小时这样肯定是不合理的，此时就该想想如何优化数据任务链路，主要从以下几个角度来考虑问题

2024年02月16日
浏览(36)
企业级开发项目实战——基于RabbitMQ实现数据库、elasticsearch的数据同步

1、商品上架时：search-service新增商品到elasticsearch 2、商品下架时：search-service删除elasticsearch中的商品数据同步是希望，当我们商品修改了数据库中的商品信息，索引库中的信息也会跟着改。在微服务中数据库和索引库是在两个不同的服务中。如果，商品的服务，向es的服务中

2024年02月12日
浏览(70)
重磅干货！一文读懂「企业级架构」

本文来自：刘剑桥极狐(GitLab) 高级解决方案架构师首先来看两个真实的小故事： 1 小 A 公司有 50 人，作为运维人员，小 A 为公司搭建了一个私有化 GitLab 社区版。某日，开发同学发现不能够访问 GitLab 了。小 A 查看发现磁盘快满了，经过 15 分钟扩容后恢复服务。由于当时

2024年02月06日
浏览(42)
企业级DevOps实战

Zookeeper（动物管理员）是一个开源的分布式协调服务，目前由Apache进行维护。 MQ概念 MQ（消息队列）是一种应用程序之间的通信方法，应用程序通过读写出入队列的消息（针对应用程序的数据）通信，而无须专用连接。 MQ是一种先进先出的数据结构，是指把要传输的数据（消

2024年02月20日
浏览(52)
CDH6.3.2企业级安装实战

1、环境介绍 IP 操作系统联网 10.191.15.15 Centos 7.4 离网 10.191.15.16 Centos 7.4 离网 10.191.15.17 Centos 7.4 离网 10.191.15.18 Centos 7.4 离网 2、搭建本地Yum源 2.1 配置本地基础Yum源 1、上传镜像到服务器下载的Centos镜像为 CentOS-7-x86_64-Everything-1708.iso , 放置目录为： /root/download

2024年01月18日
浏览(53)
前端工程化实战-开发企业级CLI

1. 前言脚手架大家一定都不陌生，比如我们经常使用的 vue-cli、create-react-app，它可以帮助我们快速的初始化一个项目，无需从零配置，极大的方便我们的开发。到这里你可能会疑惑，既然市面上有成熟的脚手架，为什么需要写一个属于自己的脚手架呢。因为公共脚手架虽然强

2024年02月12日
浏览(56)
Android企业级实战-界面篇-2，android音频开发

?xml version=\\\"1.0\\\" encoding=\\\"utf-8\\\"? RelativeLayout xmlns:android=“http://schemas.android.com/apk/res/android” android:id=“@id/user_profile_layout” android:layout_width=“fill_parent” android:layout_height=“100.0dip” android:clickable=“true” android:clipChildren=“false” ImageView android:id=“@id/profile_cover” android:layout_width=“

2024年04月27日
浏览(53)
企业级微服务架构实战项目--xx优选-用户登录

1.登录常量 2.登录地址 3.配置域名 4.启动程序触发连接小程序后端的登录接口小程序controller的登录方法

2024年02月11日
浏览(63)
企业级ChatGPT开发的三大核心内幕及案例实战（四）

2.3 四种组合文档链方式在LangChain开发中的作用及源码分析假设阅读一本书，作者和智华合作写的一本关于Spark方面的书籍，一共1300多页，如果从第一页开始，逐渐去遍历检索信息，无论从速度、还是从性价比的角度，这是一个问题，LangChain给我们提供了一些比较经典的方式

2024年02月10日
浏览(69)
【AIGC专题】Stable Diffusion 从入门到企业级实战0403

本章是《Stable Diffusion 从入门到企业级实战》系列的第四部分能力进阶篇《Stable Diffusion ControlNet v1.1 图像精准控制》第03节，利用Stable Diffusion ControlNet Canny模型精准控制图像生成。本部分内容，位于整个Stable Diffusion生态体系的位置如下图黄色部分所示： ControlNet v1.1 共提供了

2024年02月07日
浏览(37)