Hive调优之计算资源配置(一)

这篇具有很好参考价值的文章主要介绍了Hive调优之计算资源配置(一)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

计算资源的调整主要包括Yarn和MR。

一、Yarn资源配置

1、Yarn配置说明
  需要调整的Yarn参数均与CPU、内存等资源有关,核心配置参数如下
(1)yarn.nodemanager.resource.memory-mb
  该参数的含义是,一个NodeManager节点分配给Container使用的内存。该参数的配置,取决于NodeManager所在节点的总内存容量和该节点运行的其他服务的数量。
  考虑上述因素,此处可将该参数设置为64G(需结合集群硬件资源合理配置),如下:

<property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>65536</value>
</property>

(2)yarn.nodemanager.resource.cpu-vcores
  该参数的含义是,一个NodeManager节点分配给Container使用的CPU核数。该参数的配置,同样取决于NodeManager所在节点的总CPU核数和该节点运行的其他服务。
  考虑上述因素,此处可将该参数设置为16(需结合集群硬件资源合理配置)。

<property>
    <name>yarn.nodemanager.resource.cpu-vcores</name>
    <value>16</value>
</property>

(3)yarn.scheduler.maximum-allocation-mb
  该参数的含义是,单个Container能够使用的最大内存。由于Spark的yarn模式下,Driver和Executor都运行在Container中,故该参数不能小于Driver和Executor的内存配置,推荐配置如下:

<property>
    <name>yarn.scheduler.maximum-allocation-mb</name>
    <value>16384</value>
</property>

(4)yarn.scheduler.minimum-allocation-mb
  该参数的含义是,单个Container能够使用的最小内存,推荐配置如下:

<property>
    <name>yarn.scheduler.minimum-allocation-mb</name>
    <value>512</value>
</property>

2、Yarn配置实操
(1)修改 H A D O O P H O M E / e t c / h a d o o p / y a r n − s i t e . x m l 文件 ( HADOOP_HOME/etc/hadoop/yarn-site.xml文件( HADOOPHOME/etc/hadoop/yarnsite.xml文件(HADOOP_HOME为Hadoop的路径,需要提前在环境变量中配置;当然,也可以将其替换为Hadoop的绝对路径)
(2)修改如下参数

<property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>65536</value>
</property>
<property>
    <name>yarn.nodemanager.resource.cpu-vcores</name>
    <value>16</value>
</property>
<property>
    <name>yarn.scheduler.maximum-allocation-mb</name>
    <value>16384</value>
</property>
<property>
    <name>yarn.scheduler.minimum-allocation-mb</name>
    <value>512</value>
</property> 

(3)分发该配置文件
(4)重启Yarn。

二、MapReduce资源配置

  MapReduce资源配置主要包括Map Task的内存和CPU核数,以及Reduce Task的内存和CPU核数。核心配置参数如下:
1)mapreduce.map.memory.mb
  该参数的含义是,单个Map Task申请的container容器内存大小,其默认值为1024。该值不能超出yarn.scheduler.maximum-allocation-mb和yarn.scheduler.minimum-allocation-mb规定的范围。
  该参数需要根据不同的计算任务单独进行配置,在hive中,可直接使用如下方式为每个SQL语句单独进行配置:

set  mapreduce.map.memory.mb=2048;

2)mapreduce.map.cpu.vcores
  该参数的含义是,单个Map Task申请的container容器cpu核数,其默认值为1。该值一般无需调整。
3)mapreduce.reduce.memory.mb
  该参数的含义是,单个Reduce Task申请的container容器内存大小,其默认值为1024。该值同样不能超出yarn.scheduler.maximum-allocation-mb和yarn.scheduler.minimum-allocation-mb规定的范围。
  该参数需要根据不同的计算任务单独进行配置,在hive中,可直接使用如下方式为每个SQL语句单独进行配置:

set  mapreduce.reduce.memory.mb=2048;

4)mapreduce.map.cpu.vcores
  该参数的含义是,单个Map Task申请的container容器cpu核数,其默认值为1。该值一般无需调整。文章来源地址https://www.toymoban.com/news/detail-599411.html

到了这里,关于Hive调优之计算资源配置(一)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 针对“您的计算机配置似乎是正确的,但该设备或资源(DNS 服务器)没有响应“问题解决

    解决思路: 1.在“开始”中找到“运行”(或者直接【Win】+【R】),然后输入“cmd”进入管理员操作界面。 2.在管理员界面中输入命令:ipconfig/all然后按Enter键确认即可显示WindowsIP配置,在这里我们可以查看我们的DNS服务器地址。  IPv4 地址 . . . . . . . . . . . . :   默认网关. .

    2024年02月07日
    浏览(46)
  • Hive性能调优:Hive优化技术以及Hive集群规划

    作者:禅与计算机程序设计艺术 Apache Hive是一个开源的分布式数据仓库软件,可以用来进行数据提取、转换、加载(ETL)、查询等功能。作为Hadoop生态系统的一员,Hive具有强大的分析能力、灵活的数据定义、数据处理、数据分析和可扩展性,是一个理想的企业级数据仓库解决

    2024年02月06日
    浏览(44)
  • 针对“您的计算机配置似乎是正确的,但该设备或资源(DNS 服务器)没有响应“问题解决 办公室微信qq可正常聊天,但不能打开链接和上网

    解决思路: 1.在“开始”中找到“运行”(或者直接【Win】+【R】),然后输入“cmd”进入管理员操作界面。 2.在管理员界面中输入命令:ipconfig/all然后按Enter键确认即可显示WindowsIP配置,在这里我们可以查看我们的DNS服务器地址。  IPv4 地址 . . . . . . . . . . . . :   默认网关. .

    2024年02月05日
    浏览(114)
  • yarn资源配置及使用

    目录 1.简介 2.调度器 1.FIFO Scheduler 2.Capacity Scheduler 1.介绍 2.capacity调度器的特性 4.配置demo 3.Fair Scheduler 4.yarn调度器对比 理想情况下,应用提交到yarn上立马就可以获得资源执行任务,但是现实情况资源往往是有限的,任务执行的先后及获得资源的多少,yarn给我们提供了多种调

    2023年04月08日
    浏览(29)
  • Nginx访问静态资源配置

    关于 alias和root配置的说明: 一般情况下,在nginx配置中的良好习惯是: 1)在location /中,即路径为“ / ”时, 配置root目录; 2)在location /path中,即路径包含指定内容,如“ localtion /imgs ”时, 配置alias虚拟目录。

    2024年02月09日
    浏览(41)
  • Hive内核调优(二)

    SQL调优过程中需要结合Hive日志分析性能瓶颈,如下是对关键日志进行说明。 1.3.1 运行日志 运行态日志主要包括HiveServer日志、MetaStore日志、Yarn日志。 HiveServer 日志:HiveServer 负责接收客户端请求(SQL 语句),然后编译、执行(提交到 YARN 或运行 local MR)、与 MetaStore 交互获取

    2024年02月03日
    浏览(44)
  • HIVE调优方式(大全)

    压缩方式: HIVE压缩方式: 概述:压缩方式就类似于windows的压缩包,可以降低传输,提高磁盘利用率. 区分压缩协议好坏的参考纬度: 1.压缩比,即:压缩后文件大小 2.解压速度,即:读的速度 3.压缩速度,即:写的速度 存储方式 概述:分为 行存储 和列存储两种 具体划分: 行存储:TextFile(默认

    2024年01月23日
    浏览(69)
  • Hive调优

    一.Hive调优--存储和压缩方式 1.Hive压缩方式:         压缩方式类似于windows的压缩包, 可以降低传输, 提高磁盘利用率.     区分压缩协议好坏的参考维度:         1. 压缩比, 即: 压缩后文件大小.         2. 解压速度, 即: 读的速度.         3. 压缩速度, 即: 写的速度.     推荐

    2024年02月22日
    浏览(26)
  • Hive 调优集锦(1)

    Hive 依赖于 HDFS 存储数据,Hive 将 HQL 转换成 MapReduce 执行,所以说 Hive 是基于Hadoop 的一个数据仓库工具,实质就是一款基于 HDFS 的 MapReduce 计算框架,对存储在HDFS 中的数据进行分析和管理。 1.用户接口:Client CLI(hive shell)、JDBC/ODBC(java访问hive)、WEBUI(浏览器访问hive) 2.

    2024年02月15日
    浏览(25)
  • hive调优扩充

    采样函数: tablesample(bucket x out of y [on column]) 使用位置: 查询的时候,紧紧跟在表名的后面, 如果表名有别名, 必须放置别名的前面 普通表: 说明: x: 从第几个桶进行采样, x 不能大于 y y: 临时分几个桶 column: 分桶的字段, 可以省略 分桶表: 说明: x: 从第几个桶开始进行采样, x 不能大

    2024年02月03日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包