spark 和 flink 的对比-Toy模板网

这篇具有很好参考价值的文章主要介绍了spark 和 flink 的对比。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、设计理念

Spark 的数据模型是 弹性分布式数据集 RDD(Resilient Distributed Dattsets)，这个内存数据结构使得spark可以通过固定内存做大批量计算。初期的 Spark Streaming 是通过将数据流转成批 (micro-batches)，即收集一段时间(time-window)内到达的所有数据，并在其上进行常规批处理，所以严格意义上，还不能算作流式处理。但是 Spark 从 2.x 版本开始推出基于 Continuous Processing Mode 的 Structured Streaming，支持按事件时间处理和端到端的一致性，但是在功能上还有一些缺陷，比如对端到端的 exactly-once 语义的支持。

spark DAG示意图：

flink spark,# spark,# Flink,spark,flink,大数据

Flink 是统一的流和批处理框架，基本数据模型是数据流，以及事件 (Event) 的序列，Flink 从设计之初秉持了一个观点：批是流的特例。每一条数据都可以出发计算逻辑，那么 Flink 的流特性已经在延迟方面占得天然优势。

一个典型的 Flink workflow 示意图：

flink spark,# spark,# Flink,spark,flink,大数据

Flink 还提供了一个独特的概念叫做 有状态的计算，它被用来处理一种情况：数据的处理和之前处理过的数据或者事件有关联。比如，在做聚合操作的时候，一个批次的数据聚合的结果依赖于之前处理过的批次。早期的Spark用户会经常受此类问题所困扰，直到Structured Streaming的出现才得已解决。

总结：

1、Spark的技术理念是使用微批来模拟流的计算,基于Micro-batch,数据流以时间为单位被切分为一个个批次,通过分布式数据集RDD进行批量处理,是一种伪实时。

2、Flink是基于事件驱动的，是面向流的处理框架, Flink基于每个事件一行一行地流式处理，是真正的流式计算. 另外他也可以基于流来模拟批进行计算实现批处理。

二、架构方面

1、Spark在运行时的主要角色包括：Master、Worker、Driver、Executor。

flink spark,# spark,# Flink,spark,flink,大数据

2、Flink 在运行时主要包含：Jobmanager、Taskmanager和Slot。

flink spark,# spark,# Flink,spark,flink,大数据

三、任务调度

1、Spark Streaming 连续不断的生成微小的数据批次，构建有向无环图DAG，根据DAG中的action 操作形成 job ，每个job有根据窄宽依赖生成多个 stage 。

2、Flink 根据用户提交的代码生成 StreamGraph，经过优化生成 JobGraph，然后提交给 JobManager 进行处理，JobManager 会根据 JobGraph 生成 ExecutionGraph，ExecutionGraph 是 Flink 调度最核心的数据结构，JobManager 根据 ExecutionGraph 对 Job 进行调度。