大数据学习(6)-hive底层原理Mapreduce-Toy模板网

这篇具有很好参考价值的文章主要介绍了大数据学习(6)-hive底层原理Mapreduce。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

在Map阶段，MapTask并行度决定机制根据InputFormat数据切片机制对输入数据进行切片，将切片分配给不同的Map任务。每个Map任务对输入数据进行处理，生成一系列的键值对（<k,v>）。

在Reduce阶段，不同的Map任务输出的键值对通过Shuffle机制进行分区和排序，相同key的数据value放在一个集合中。然后，对每个key对应的value集合进行归约处理，即执行Reduce函数。Reduce函数将key和value集合作为输入，进行处理并输出新的键值对。

最后，Reduce阶段输出的键值对作为最终的结果保存在HDFS中。在整个过程中，MapReduce框架负责任务的调度、失败恢复和数据分片等工作，以保证分布式计算的高效性和可靠性。

Map阶段：大数据经split划分成大小相等的数据块（数据块的大小一般等于HDFS一个块的大小）以及用户作业程序。系统中有一个负责调度的Master节点和许多的Map工作节点。用户作业程序提交给Master节点，Master节点寻找合适的Map节点，并将数据传给Map节点。Master节点启动Map节点执行程序，Map节点尽可能的读取本地或本机架上的数据块进行计算（数据本地化是Mapreduce的核心特征）。每个Map节点处理读取的数据块，并做一些数据整理，并且将中间结果放在本地而非HDFS中，同时通知Master节点Map工作完成，并告知中间结果的存储位置。
Reduce阶段：Master也寻找合适的Reduce节点并将数据传给Reduce节点。Reduce节点将中间结果处理后将结果输出到一个文件中。

总的来说，MapReduce通过“分而治之”的思想，把对大规模数据集的处理，分发给主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。文章来源地址https://www.toymoban.com/news/detail-716278.html

到了这里，关于大数据学习(6)-hive底层原理Mapreduce的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！