【大数据开发 Spark】第一篇：Spark 简介、Spark 的核心组成（5大模块）、Spark 的主要特征（4大特征）、Spark 对比 MapReduce-Toy模板网

这篇具有很好参考价值的文章主要介绍了【大数据开发 Spark】第一篇：Spark 简介、Spark 的核心组成（5大模块）、Spark 的主要特征（4大特征）、Spark 对比 MapReduce。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1 Spark 简介

初步了解一项技术，最好的方式就是去它的官网首页，一般首页都会有十分官方且准确的介绍，学习 Spark 也不例外，官方介绍：Apache Spark ™是一种多语言引擎，用于在单节点机器或集群上执行数据工程、数据科学和机器学习。 我们可以得知，Spark 可以单节点运行，也可以搭建集群来保证可靠性和负载均衡等等，同时，除了我们熟知的可以处理大数据场景业务外，Spark 还可以进行数据科学和机器学习（如 Spark MLlib 就是 Spark 提供的一个机器学习算法库）。

【大数据开发 Spark】第一篇：Spark 简介、Spark 的核心组成（5大模块）、Spark 的主要特征（4大特征）、Spark 对比 MapReduce

Spark 也拥有十分庞大的生态系统，支持多种框架的集成，有助于将它们扩展到数千台机器。
【大数据开发 Spark】第一篇：Spark 简介、Spark 的核心组成（5大模块）、Spark 的主要特征（4大特征）、Spark 对比 MapReduce

2 Spark 的核心组成（5大模块）

【大数据开发 Spark】第一篇：Spark 简介、Spark 的核心组成（5大模块）、Spark 的主要特征（4大特征）、Spark 对比 MapReduce

1、Spark Core：包含了 Spark 最核心与基础的功能，为其他 Spark 功能模块提供了核心层的支撑，可类比 Spring 框架中的 Spring Core。

2、Spark SQL：官方文档的介绍如下图，Spark SQL 适用于结构化表和非结构化数据的查询，并且可以在运行时自适配执行计划，支持 ANSI SQL（即标准的结构化查询语言）。
【大数据开发 Spark】第一篇：Spark 简介、Spark 的核心组成（5大模块）、Spark 的主要特征（4大特征）、Spark 对比 MapReduce
3、Spark Streaming：是 Spark 平台上针对实时数据进行流式计算的组件，而流式数据指的是实时或接近实时的时效性处理的大数据流，常见的流式数据处理使用Spark、Storm和Samza等框架。

4、Spark MLlib：是 Spark 提供的一个机器学习算法库。MLlib 不仅提供了模型评估、数据导入等额外的功能，还提供了一些更底层的机器学习原语。

5、Spark GraphX：是 Spark 面向图计算提供的框架与算法库。

3 Spark 的主要特征（4大特征）

为了准确，也是按官方文档学习就可以，总结了一下，主要有 4 个特点：

适合批处理、实时流式数据的计算处理
能够快速执行分布式的 SQL 查询
支持 PB 级大数据的科学计算
可用于机器学习，且支持集群训练机器学习算法

4 Spark 对比 MapReduce

与其说是 Spark 对比 Hadoop，不如说得准确一点，Spark 对比 Hadoop 中的 MapReduce。

MapReduce 对比 Spark：

在适用场景上：MapReduce 不适合循环迭代式数据流处理以及可复用的多并行运行的数据，而 Spark 与之相反，Spark 的出现晚于 MapReduce，Spark 适合循环迭代式数据流处理以及可复用的多并行运行的数据，这也就是为什么在上一篇文章中提到，Spark 的核心模块中有机器学习和图算法的模块，Spark 的这种特性使得它可以处理机器学习、图挖掘算法等问题，效率远远高于 MapReduce。
开发语言：虽然有时说语言不是问题，但不同语言也是有不同特性的，MapReduce 是用 Java 语言开发的，而 Spark 是用 Scala 语言开发的，Scala 十分擅长函数的处理。
根本差别：Spark 和Hadoop 的根本差异是多个作业任务之间的数据通信问题，Spark 多个作业之间数据通信是基于内存，而 Hadoop 是基于磁盘，这也是为什么 Spark 更加适合循环迭代式数据流处理的原因，因为省去了多余的磁盘调度开销。
执行任务：Spark 执行新任务采用 fork 线程的方式，而 Hadoop 采用创建新的进程的方式。文章来源地址https://www.toymoban.com/news/detail-447069.html

到了这里，关于【大数据开发 Spark】第一篇：Spark 简介、Spark 的核心组成（5大模块）、Spark 的主要特征（4大特征）、Spark 对比 MapReduce的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！