大数据4 - 分布式计算-Toy模板网

这篇具有很好参考价值的文章主要介绍了大数据4 - 分布式计算。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1.分布式计算概述

分散->汇总模式：

1. 将数据分片，多台服务器各自负责一部分数据处理

2. 然后将各自的结果，进行汇总处理

3. 最终得到想要的计算结果

1. 什么是计算、分布式计算？

• 计算：对数据进行处理，使用统计分析等手段得到需要的结果

• 分布式计算：多台服务器协同工作，共同完成一个计算任务

2. 分布式计算常见的2种工作模式

• 分散 -> 汇总（ MapReduce 就是这种模式）

• 中心调度 -> 步骤执行（大数据体系的 Spark 、 Flink 等是这种模式）

2.MapReduce概述

大数据4 - 分布式计算

分布式计算框架 - MapReduce

MapReduce是“分散->汇总”模式的分布式计算框架，可供开发人员开发相关程序进行分布式数据计算。

MapReduce提供了2个编程接口：

• Map

• Reduce

其中

• Map 功能接口提供了 “ 分散 ” 的功能，由服务器分布式对数据进行处理

• Reduce 功能接口提供了 “ 汇总（聚合） ” 的功能，将分布式的处理结果汇总统计

用户如需使用MapReduce框架完成自定义需求的程序开发

只需要使用Java、Python等编程语言，实现Map Reduce功能接口即可。

MapReduce执行原理：

一个案例，简单分析一下，MapReduce是如何完成分布式计算的。

假设有如下文件，内部记录了许多的单词。且已经开发好了一个MapReduce程序，功能是统计每个单词出现的次数。

大数据4 - 分布式计算

MapReduce执行原理：

假定有4台服务器用以执行MapReduce任务

可以3台服务器执行Map，1台服务器执行Reduce

大数据4 - 分布式计算

1. 什么是MapReduce

• MapReduce 是 Hadoop 中的分布式计算组件

• MapReduce 可以以分散 -> 汇总（聚合）模式执行分布式计算任务

2. MapReduce的主要编程接口

• map 接口，主要提供 “ 分散 ” 功能，由服务器分布式处理数据

• reduce 接口，主要提供 “ 汇总 ” 功能，进行数据汇总统计得到结果

• MapReduce 可供 Java 、 Python 等语言开发计算程序

• 注： MapReduce 尽管可以通过 Java 、 Python 等语言进行程序开发，但当下年代基本没人会写它的代码了，因为太过时了。 尽管 MapReduce 很老了，但现在仍旧活跃在一线，主要是 Apache Hive 框架非常火，而 Hive 底层就是使用的 MapReduce 。 所以对于 MapReduce 的代码开发，课程会简单扩展一下，但不会深入讲解，对 MapReduce 的底层原理会放在 Hive 之后，基于 Hive 做深入分析。

3. MapReduce的运行机制

• 将要执行的需求，分解为多个 Map Task 和 Reduce Task

• 将 Map Task 和 Reduce Task 分配到对应的服务器去执行