Hive调优一文打尽

这篇具有很好参考价值的文章主要介绍了Hive调优一文打尽。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、调优概述

Hive 作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响 Hive 效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、Job或I/O过多、MapReduce 分配不合理等等。对Hive 的调优既包含 Hive 的建表设计方面,对HiveHQL 语句本身的优化,也包含 Hive 配置参数和底层引擎 MapReduce 方面的调整。

所以此次调优主要分为以下四个方面展开:

  1. Hive的建表设计层面
  2. HQL语法和运行参数层面
  3. Hive架构层面
  4. Hive数据倾斜

总之,Hive调优的作用:在保证业务结果不变的前提下,降低资源的使用量,减少任务的执行时间。文章来源地址https://www.toymoban.com/news/detail-807675.html

二、调优须知

  1. 对于大数据计算引擎来说:数据量大不是问题,数据倾斜是个问题。
  2. Hive的复杂HQL底层会转换成多个MapReduce Job并行或者串行执行,Job数比较多的作业运行效
    率相对比较低,比如即使只有几百行数据的表,如果多次关联多次汇总,产生十几个Job,耗时很长。
    原因是 MapReduce 作业初始化的时间是比较长的。
  3. 在进行Hive大数据分析时,常见的聚合操作比如sum,count,max,min,UDAF等 ,不怕数据倾
    斜问题,MapReduce 在 Mappe阶段 的预聚合操作,使数据倾斜不成问题。
  4. 好的建表设计,模型设计事半功倍。
  5. 设置合理的 MapReduce 的 Task 并行度,能有效

到了这里,关于Hive调优一文打尽的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 详述Hive企业级优化

    一、问题背景 hive离线数仓开发,一个良好的数据任务,它的运行时长一般是在合理范围内的,当发现报表应用层的指标数据总是产出延迟,排查定位发现是有些任务执行了超10小时这样肯定是不合理的,此时就该想想如何优化数据任务链路, 主要从以下几个角度来考虑问题

    2024年02月16日
    浏览(36)
  • 企业级开发项目实战——基于RabbitMQ实现数据库、elasticsearch的数据同步

    1、商品上架时:search-service新增商品到elasticsearch 2、商品下架时:search-service删除elasticsearch中的商品 数据同步是希望,当我们商品修改了数据库中的商品信息,索引库中的信息也会跟着改。在微服务中数据库和索引库是在两个不同的服务中。如果,商品的服务,向es的服务中

    2024年02月12日
    浏览(65)
  • 重磅干货!一文读懂「企业级架构」

    本文来自: 刘剑桥 极狐(GitLab) 高级解决方案架构师 首先来看两个真实的小故事: 1 小 A 公司有 50 人,作为运维人员,小 A 为公司搭建了一个私有化 GitLab 社区版。 某日,开发同学发现不能够访问 GitLab 了。小 A 查看发现磁盘快满了,经过 15 分钟扩容后恢复服务。 由于当时

    2024年02月06日
    浏览(39)
  • 企业级DevOps实战

    Zookeeper(动物管理员)是一个开源的分布式协调服务,目前由Apache进行维护。 MQ概念 MQ(消息队列)是一种应用程序之间的通信方法,应用程序通过读写出入队列的消息(针对应用程序的数据)通信,而无须专用连接。 MQ是一种先进先出的数据结构,是指把要传输的数据(消

    2024年02月20日
    浏览(48)
  • CDH6.3.2企业级安装实战

    1、环境介绍 IP 操作系统 联网 10.191.15.15 Centos 7.4 离网 10.191.15.16 Centos 7.4 离网 10.191.15.17 Centos 7.4 离网 10.191.15.18 Centos 7.4 离网 2、搭建本地Yum源 2.1 配置本地基础Yum源 1、上传镜像到服务器 下载的Centos镜像为 CentOS-7-x86_64-Everything-1708.iso , 放置目录为: /root/download

    2024年01月18日
    浏览(52)
  • 前端工程化实战-开发企业级CLI

    1. 前言 脚手架大家一定都不陌生,比如我们经常使用的 vue-cli、create-react-app,它可以帮助我们快速的初始化一个项目,无需从零配置,极大的方便我们的开发。到这里你可能会疑惑,既然市面上有成熟的脚手架,为什么需要写一个属于自己的脚手架呢。因为公共脚手架虽然强

    2024年02月12日
    浏览(52)
  • Android企业级实战-界面篇-2,android音频开发

    ?xml version=\\\"1.0\\\" encoding=\\\"utf-8\\\"? RelativeLayout xmlns:android=“http://schemas.android.com/apk/res/android” android:id=“@id/user_profile_layout” android:layout_width=“fill_parent” android:layout_height=“100.0dip” android:clickable=“true” android:clipChildren=“false” ImageView android:id=“@id/profile_cover” android:layout_width=“

    2024年04月27日
    浏览(50)
  • 企业级微服务架构实战项目--xx优选-用户登录

    1.登录常量  2.登录地址  3.配置域名 4.启动程序     触发连接小程序后端的登录接口    小程序controller的登录方法  

    2024年02月11日
    浏览(60)
  • 企业级ChatGPT开发的三大核心内幕及案例实战(四)

    2.3 四种组合文档链方式在LangChain开发中的作用及源码分析 假设阅读一本书,作者和智华合作写的一本关于Spark方面的书籍,一共1300多页,如果从第一页开始,逐渐去遍历检索信息,无论从速度、还是从性价比的角度,这是一个问题,LangChain给我们提供了一些比较经典的方式

    2024年02月10日
    浏览(66)
  • 干货-卷起来,企业级web自动化测试实战落地(三)

    Selenium 自动化测试方案 基础方案: 使用unittest,主要是用 TestCase(测试用例); 使用模块化(基本的模块化,抽取公共模块); 使用数据驱动的方式(主要包括 数据库的形式 和文件读取 ); 定制执行需要测试的用例,使用unittest,主要用的是TestSuite(测试套件)、和 TextTe

    2024年02月13日
    浏览(58)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包