hive中map和reduce个数的是如何计算的

这篇具有很好参考价值的文章主要介绍了hive中map和reduce个数的是如何计算的。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

可以直接通过参数mapred.map.tasks(默认值2)来设定mapper数的期望值,但它不一定会生效,下面会提到。

设输入文件的总大小为total_input_size。HDFS中,一个块的大小由参数dfs.block.size指定,默认值64MB或128MB。在默认情况下,mapper数就是:
default_mapper_num = total_input_size / dfs.block.size。

参数mapred.min.split.size(默认值1B)和mapred.max.split.size(默认值64MB)分别用来指定split的最小和最大大小。split大小和split数计算规则是:
split_size = MAX(mapred.min.split.size, MIN(mapred.max.split.size, dfs.block.size));
split_num = total_input_size / split_size。

得出mapper数:
mapper_num = MIN(split_num, MAX(default_num, mapred.map.tasks))

reducer数量的确定方法比mapper简单得多。使用参数mapred.reduce.tasks可以直接设定reducer数量,不像mapper一样是期望值。但如果不设这个参数的话,Hive就会自行推测,逻辑如下:

参数hive.exec.reducers.bytes.per.reducer用来设定每个reducer能够处理的最大数据量,默认值1G(1.2版本之前)或256M(1.2版本之后)。

参数hive.exec.reducers.max用来设定每个job的最大reducer数量,默认值999(1.2版本之前)或1009(1.2版本之后)。

得出reducer数:
reducer_num = MIN(total_input_size / reducers.bytes.per.reducer, reducers.max)。

reducer数量与输出文件的数量相关。如果reducer数太多,会产生大量小文件,对HDFS造成压力。如果reducer数太少,每个reducer要处理很多数据,容易拖慢运行时间或者造成OOM。文章来源地址https://www.toymoban.com/news/detail-533889.html

到了这里,关于hive中map和reduce个数的是如何计算的的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于hadoop下的使用map reduce分布式系统的高考高频词汇统计(内有源码下载)

    hadoop 课程设计报告 一、设计目的与要求 1 、设计目的 通过hadoop课程设计可以加深、巩固对本门专业课程理论知识的掌握。通过eclipse和hadoop来编写课设报告等方面的实践训练,筑牢编程基础,培养良好的逻辑思维能力,提高综合运用能力。同时也锻炼学生自我管理和自我发展

    2024年02月11日
    浏览(36)
  • 云计算与大数据之间的羁绊(期末不挂科版):云计算 | 大数据 | Hadoop | HDFS | MapReduce | Hive | Spark

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 大数据是需求,云计算是手段。没有大数据,就不需要云计算;没有云计算,就无法处理大数据。 所有的计算能力、存储能力、和各种各样功能的应用都通过网络

    2024年02月04日
    浏览(64)
  • 【项目实战】基于Hadoop大数据电商平台用户行为分析与可视化系统Hive、Spark计算机程序开发

    注意:该项目只展示部分功能,如需了解,评论区咨询即可。 在当今数字化时代,电商行业成为全球商业生态系统的关键组成部分,电商平台已经深入各行各业,影响了人们的购物方式和消费习惯。随着互联网技术的不断发展,电商平台产生了大量的用户数据,包括点击、购

    2024年02月04日
    浏览(135)
  • map-reduce中的组件

    用户提交 MapReduce 作业到 JobTracker。 JobTracker 将 MapReduce 作业分割成 Map 任务和 Reduce 任务。 JobTracker 将 Map 任务分配给 TaskTracker。 TaskTracker 执行 Map 任务。 Map 任务将输出数据写入临时文件。 JobTracker 将临时文件分发给 Reduce 任务。 JobTracker 将 Reduce 任务分配给 TaskTracker。 TaskT

    2024年02月09日
    浏览(44)
  • FPGA时序优化之Reduce MUXF Mapping

    我们都知道,FPGA中的拥塞有:全局拥塞,短线拥塞和长线拥塞。 今天我们就来看短线拥塞的一种解决方案:Reduce MUXF Mapping。 在介绍Reduce MUXF Mapping,我们需要知道什么是MUXF,这就得从UltraScale的CLB说起。 我们都知道,在7系列的FPGA中,每个CLB有两个Slice;而在UltraScale系列中,

    2024年04月25日
    浏览(45)
  • filter、map、reduce 一次性说清楚

    filter() 方法是 JavaScript 中数组的一个方法,用于筛选数组中符合指定条件的元素,并返回一个新的数组,新数组中包含筛选出的元素。 filter() 方法语法如下: 其中,参数 callback 是一个回调函数,用于定义筛选规则,该函数接收三个参数 element、index、array,分别代表当前正在

    2024年02月06日
    浏览(45)
  • JavaScript 之 常用迭代方法forEach、filter()、map()、reduce()

    代码如下: 如下: 代码简洁很多,如下: 简介 : filter() 方法创建给定数组一部分的浅拷贝,其包含通过所提供函数实现的测试的所有元素。 语法 : 参数、返回值 描述 参考官网: 官网——Array.prototype.filter(). 代码如下: 代码如下: 下例使用 filter() 根据搜索条件来过滤数

    2024年02月09日
    浏览(44)
  • python之lambda-filter-map-reduce作用

    lambda : 匿名函数 ,让函数更简洁,有时候妙用无穷; 使用方法:lambda 后面直接跟变量,变脸后面是冒号,冒号后面是表达式,表达式的计算结果就是本函数的返回值 注意:虽然 lambda 函数可以接收任意多的参数并且返回单个表达式的值,但是 lambda 函数不能包含命令且包含

    2023年04月15日
    浏览(35)
  • 如何计算神经网络参数的个数?

    目录 1. 卷积层 2. 分类层 3. 计算 LeNet 网络的参数个数 神经网络随着层数的加深,网络参数的个数会越来越多,小的网络有成千上万个参数,大的可以达到千万个网络参数。 所以应该如何计算神经网络参数的个数? 图像分类的神经网络,包含两个部分: 特征提取层+ 分类层

    2024年02月06日
    浏览(43)
  • Mongodb 多文档聚合操作处理方法二(Map-reduce 函数)

    聚合操作处理多个文档并返回计算结果。您可以使用聚合操作来: 将多个文档中的值分组在一起。 对分组数据执行操作以返回单个结果。 分析数据随时间的变化。 要执行聚合操作,您可以使用: 聚合管道 单一目的聚合方法 Map-reduce 函数 在mongoshell 中,该db.collection.mapRedu

    2024年02月15日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包