Spark与Flink的区别

10月前作者：学一次分类：Toy博客阅读(34) 违法举报

这篇具有很好参考价值的文章主要介绍了Spark与Flink的区别。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

分析&回答

（1）设计理念

　　1、Spark的技术理念是使用微批来模拟流的计算,基于Micro-batch,数据流以时间为单位被切分为一个个批次,通过分布式数据集RDD进行批量处理,是一种伪实时。

　　2、Flink是基于事件驱动的，是面向流的处理框架, Flink基于每个事件一行一行地流式处理，是真正的流式计算. 另外他也可以基于流来模拟批进行计算实现批处理。

（2）架构方面

　　1、Spark在运行时的主要角色包括：Master、Worker、Driver、Executor。

　　2、Flink 在运行时主要包含：Jobmanager、Taskmanager和Slot。

（3）任务调度

　　1、Spark Streaming 连续不断的生成微小的数据批次，构建有向无环图DAG，根据DAG中的action操作形成job，每个job有根据窄宽依赖生成多个stage。

　　2、Flink 根据用户提交的代码生成 StreamGraph，经过优化生成 JobGraph，然后提交给 JobManager进行处理，JobManager 会根据 JobGraph 生成 ExecutionGraph，ExecutionGraph 是 Flink 调度最核心的数据结构，JobManager 根据 ExecutionGraph 对 Job 进行调度。

（4）时间机制

　　1、Spark Streaming 支持的时间机制有限，只支持处理时间。使用processing time模拟event time必然会有误差，如果产生数据堆积的话，误差则更明显。

　　2、flink支持三种时间机制：事件时间，注入时间，处理时间，同时支持 watermark 机制处理迟到的数据,说明Flink在处理乱序大实时数据的时候,更有优势。

（5）容错机制

　　1、SparkStreaming的容错机制是基于RDD的容错机制，会将经常用的RDD或者对宽依赖加Checkpoint。利用SparkStreaming的direct方式与Kafka可以保证数据输入源的，处理过程，输出过程符合exactly once。

　　2、Flink 则使用两阶段提交协议来保证exactly once。

（6）吞吐量与延迟

　　1、spark是基于微批的,而且流水线优化做的很好,所以说他的吞入量是最大的,但是付出了延迟的代价,它的延迟是秒级;

　　2、而Flink是基于事件的,消息逐条处理,而且他的容错机制很轻量级,所以他能在兼顾高吞吐量的同时又有很低的延迟,它的延迟能够达到毫秒级;

喵呜面试助手：一站式解决面试问题，你可以搜索微信小程序 [喵呜面试助手] 或关注 [喵呜刷题] -> 面试助手 免费刷题。如有好的面试知识或技巧期待您的共享！文章来源地址https://www.toymoban.com/news/detail-686809.html

到了这里，关于Spark与Flink的区别的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Hive & Spark & Flink 数据倾斜

绝大部分任务都很快完成，只有一个或者少数几个任务执行的很慢甚至最终执行失败，这样的现象为数据倾斜现象。任务进度长时间维持在 99%或者 100%的附近，查看任务监控页面，发现只有少量 reduce 子任务未完成，因为其处理的数据量和其他的 reduce 差异过大。单一 redu

2024年02月07日
浏览(41)
万字解决Flink|Spark|Hive 数据倾斜

此篇主要总结到Hive,Flink,Spark出现数据倾斜的表现，原因和解决办法。首先会让大家认识到不同框架或者计算引擎处理倾斜的方案。最后你会发现计算框架只是“异曲”，文末总结才是“同工之妙”。点击收藏与分享，工作和涨薪用得到！！！数据倾斜最笼统概念就是数据的

2024年02月03日
浏览(46)
Flink 内容分享(二十七)：Hadoop vs Spark vs Flink——大数据框架比较

大数据开发离不开各种框架，我们通过学习 Apache Hadoop、Spark 和 Flink 之间的特征比较，可以从侧面了解要学习的内容。众所周知，Hadoop vs Spark vs Flink是快速占领 IT 市场的三大大数据技术，大数据岗位几乎都是围绕它们展开。本文，将详细介绍三种框架之间的区别。 Hadoop：为

2024年02月01日
浏览(69)
大数据_面试_ETL组件常见问题_spark&flink

问题列表回答 spark与flink的主要区别 flink cdc如何确保幂等与一致性 Flink SQL CDC 实践以及一致性分析-阿里云开发者社区 spark 3.0 AQE动态优化 hbase memorystore blockcache sparksql如何调优通过webui定位那个表以及jobid,jobid找对应的执行计划 hdfs的常见的压缩算法 hbase的数据倾斜 spark数据处

2024年02月16日
浏览(45)
实时大数据流处理技术：Spark Streaming与Flink的深度对比

引言在当前的大数据时代，企业和组织越来越多地依赖于实时数据流处理技术来洞察和响应业务事件。实时数据流处理不仅能够加快数据分析的速度，还能提高决策的效率和准确性。Apache Spark Streaming和Apache Flink是目前两个主要的实时数据流处理框架，它们各自拥有独特的特

2024年03月10日
浏览(62)
大数据系统常用组件理解（Hadoop/hive/kafka/Flink/Spark/Hbase/ES）

一.Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。 Hadoop的核心是yarn、HDFS和Mapreduce。yarn是资源管理系统，实现资源调度，yarn是Hadoop2.0中的资源管理系统，总体上是master/slave结构。对于yarn可以粗浅将其理解

2024年02月20日
浏览(46)
数据存储和分布式计算的实际应用：如何使用Spark和Flink进行数据处理和分析

作为一名人工智能专家，程序员和软件架构师，我经常涉及到数据处理和分析。在当前大数据和云计算的时代，分布式计算已经成为了一个重要的技术方向。Spark和Flink是当前比较流行的分布式计算框架，它们提供了强大的分布式计算和数据分析功能，为数据处理和分析提供了

2024年02月16日
浏览(62)
问题：Spark SQL 读不到 Flink 写入 Hudi 表的新数据，打开新 Session 才可见

博主历时三年精心创作的《大数据平台架构与原型实现：数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行，点击《重磅推荐：建大数据平台太难了！给我发个工程原型吧！》了解图书详情，京东购书链接：https://item.jd.com/12677623.html，扫描左侧

2024年02月22日
浏览(55)
大数据流处理与实时分析:Spark Streaming和Flink Stream SQL的对比与选择

作者：禅与计算机程序设计艺术

2024年02月07日
浏览(45)
spark 和 flink 的对比

Spark 的数据模型是弹性分布式数据集 RDD (Resilient Distributed Dattsets)，这个内存数据结构使得spark可以通过固定内存做大批量计算。初期的 Spark Streaming 是通过将数据流转成批 (micro-batches)，即收集一段时间(time-window)内到达的所有数据，并在其上进行常规批处理，

2024年02月16日
浏览(41)