为什么flink那么受欢迎?

这篇具有很好参考价值的文章主要介绍了为什么flink那么受欢迎?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

       我们知道,Storm已经不流行了,目前几乎没有公司用。

       对于大数据开发,主流的就是Hadoop Spark和Flink,一般学习顺序也都是Hadoop——spark——Flink。

       现在也有很多人说Spark已经不行了,更倾向于学习和使用Flink。那是因为一些大厂例如阿里主要是使用Flink,双十一这种大型的实时计算量都是用flink来做的

       大数据起源于批处理,在批处理上,Spark有很深的积累。为了应对全球大量业务的实时需求,Spark也推出了流计算解决方案——SparkStreaming。

       但Spark毕竟不是一款纯流式计算引擎,所以在时效性等问题上,始终无法提供极致的流批一体体验。

而后起新秀Flink的基本数据模型则是数据流,以及事件(Event)的序列。数据流作为数据的基本模型,可以是无边界的无限“流”,即一般意义上的流处理;也可以是有边界的有限“流”,也就同时兼顾了批处理。

Flink相比于Spark而言还有诸多明显优势:

  • 支持高效容错的状态管理,保证在任何时间都能计算出正确的结果;
  • 同时支持高吞吐、低延迟、高性能的分布式流式数据处理框架;
  • 支持事件时间(EventTime)概念,事件即使无序到达甚至延迟到达,数据流都能够计算出精确的结果;
  • 轻量级分布式快照(Snapshot)实现的容错,能将计算过程分布到单台并行节点上进行处理。

        阿里早在几年前就开始探索Flink的实战应用,随着双11阿里基于Flink实时计算场景的屡战屡胜,毋庸置疑,Flink将会加速成为大厂主流的数据处理框架,最终化身下一代大数据处理标准。

       Flink通过实现Google Dataflow流式计算模型实现了高吞吐、低延迟、高性能兼具实时流式计算框架,同时支持高度容错的状态管理,防止状态在计算过程中因系统异常丢失,Flink周期性的通过分布式快照技术Checkpoint实现状态的持久化维护,即使在系统异常情况下也能计算出正确的结果。

常用流计算框架对比:

  • Storm虽然可以做到低延迟,但是无法实现高吞吐,也不能在故障发生时准确地处理计算状态。
  • Spark Streaming通过采用微批处理方法实现了高吞吐和容错性, 但是牺牲了低延迟和实时处理能力。
  • Spark的另一个流计算组件Structured Streaming,包括微批处理和持续处理两种处理模型。采用微批处理时,最快响应时间需要 100毫秒,无法支持毫秒级别响应。采用持续处理模型时,可以支持毫秒级别响应,但是只能做到“至少一次”的一致性,无法做到“精确一次”的一致性。flink现在火吗,flink,大数据

Flink的优势:

  • 同时支持高吞吐、低延迟、高性能
  • 支持事件时间(EventTime)概念:大多数框架都只支持系统时间,事件传输到计算框架处理时的当前系统时间,Flink支持事件事件进行窗口计算,即使事件乱序到达,流系统也能计算出精确的结果,保持事件产生时的时序性,尽可能避免网络传输、硬件系统的影响。
  • 支持状态计算:流计算过程中会将算子的中间状态保存在内存或文件系统,下一个事件进入算子后可以从之前的状态获取中间结果,避免每次基于全部原始数据来计算统计结果。对于数据量大运算逻辑复杂的流计算场景,有状态计算发挥了非常重要的作用。
  • 支持高度灵活的窗口(Window)操作
  • 基于轻量级分布式快照(Snapshot)实现的容错
  • 基于JVM实现独立的内存管理
  • Save Point(保存点):在版本升级运维时,通过Save Point将任务执行的快照保存在存储介质上,任务重启时可以直接从事先保存的Save Point中恢复原有的计算状态。

Flink的应用场景:

事件驱动型应用

事件驱动型应用是一类具有状态的应用,它从一个或多个事件数据流中读取事件, 并根据到来的事件做出反应,包括触发计算、状态更新或其他外部动作等。

  • 反欺诈
  • 异常检测
  • 基于规则的业务告警
  • 业务流程监控等
数据分析应用

数据分析应用会从原始数据中提取信息,并得到富有洞见的观察。

  • 实时智能推荐
  • 复杂事件处理
  • 实时数仓与ETL
  • 流数据分析
  • 实时报表分析
  • 大规模图分析等

       但是为了找工作,建议还是都学,首先,我们需要通过Hadoop来建立对大数据的基本概念,当今的Hadoop已经成长为一个庞大的体系,只要有和海量数据相关的领域,都有Hadoop的身影。

       现阶段,Hadoop仍然主导着大数据领域,我们可以学习先进的技术,但更是为了现阶段的就业,就目前阶段而言,学大数据必学Hadoop。

MapReduce中有许多经典的思想,值得我们学习,这对我们理解大数据十分有帮助。

而Spark要替换的是Hadoop中的MapReduce,而不是Hadoop,Hadoop是一个工具包,而Spark和MapReduce一样,只是一种工具而已。
所以Hadoop是必须学习的,Spark也要熟悉。

        对于有志于在大数据等领域发展的同学,可以按照Java-Hadoop-Spark-Flink这样的路径。另外对于spark来说,学一点Scala则会更有帮助。文章来源地址https://www.toymoban.com/news/detail-818423.html

到了这里,关于为什么flink那么受欢迎?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 为什么现在原生家庭的问题这么严重?

    匿名用户 191 人赞同了该回答 换一个玄学的角度来看这个问题,之前看b站,有一个up主说,中国有历史记载的人口数一直都很稳定,7-8千万到1亿左右,明朝2亿,清朝到民国算是增长比较多的,有4亿,但是从开国到现在增长了10亿,从轮回的角度来讲,哪来那么多的人来转世

    2024年02月13日
    浏览(67)
  • CentOS软件那么老为什么大家还要用它?

    作为一个专业的服务器系统,RHEL 系统理论上每一个软件包都有 RedHat 内部的人员负责维护,这个维护包括长期(和系统生命周期一样长)的开发、更新、测试、运维等。也就是说你能从 RHEL 系统源上获得的每一个软件包,出现问题都可以找 RedHat 负责。所以 RHEL 不可能无限制

    2024年02月01日
    浏览(53)
  • ElasticSearch(七):ES查询速度为什么那么快

    介绍给大家一个开源SpringCloud项目。整合了大部分开源中间件,详情信息可以查看文档: spring cloud开源组件开发 另外自己以后博客所讲解的代码内容,都会我的Git上同步(GitHub同步)GIT地址 ES使用的数据结构是倒排索引,在对搜索内容进行分词的时候,会根据搜索内容分词结

    2023年04月08日
    浏览(81)
  • 软文发稿平台那么多,为什么选择媒介盒子

    近年来随着互联网技术的发展,越来越多的企业开始注重软文营销,品牌软文推广对企业来说是至关重要的,也有许多企业选择和软文发稿平台合作来增强品牌曝光,提升宣传效果,那么为什么会有这么多企业选择媒介盒子合作呢,接下来就由小编告诉大家。 一、 传统软文

    2024年02月09日
    浏览(39)
  • 《让云落地 云计算服务模式》第一章 [为什么是云计算,为什么是现在] 学习

    “时间会带来标准和最佳实践” 1.云计算的由来 云计算是从中央主机时代,向个人计算机时代诞生带来的分布式主从架构时代,以及企业能够通过覆盖全球的计算机网络联系世界的互联网时代的自然发展。 每一次新的技术革命都会伴随着阻力。早期的试用者和风险承受者会

    2024年04月28日
    浏览(46)
  • ElasticSearch第七讲:ES查询速度为什么那么快

    介绍给大家一个开源SpringCloud项目。整合了大部分开源中间件,详情信息可以查看文档: spring cloud开源组件开发 另外自己以后博客所讲解的代码内容,都会我的Git上同步(GitHub同步)GIT地址 ES使用的数据结构是倒排索引,在对搜索内容进行分词的时候,会根据搜索内容分词结

    2023年04月19日
    浏览(52)
  • ElasticSearch第七讲 ES查询速度为什么那么快

    介绍给大家一个开源SpringCloud项目。整合了大部分开源中间件,详情信息可以查看文档: spring cloud开源组件开发 另外自己以后博客所讲解的代码内容,都会我的Git上同步(GitHub同步)GIT地址 ES使用的数据结构是倒排索引,在对搜索内容进行分词的时候,会根据搜索内容分词结

    2023年04月25日
    浏览(57)
  • 我为什么现在不玩腾讯的游戏了?

    以前网络也不是很发达,大家基本都是玩的腾讯的游戏,哪里知道什么steam,也不会知道什么主机游戏,但是随着见识的增长,我在17年的时候正式接触到单机游戏,没错,就是17年,当时就觉得wc,这游戏看着就不错,然后回想起来以前玩的腾讯的游戏,瞬间觉得黯然失色。

    2024年02月12日
    浏览(61)
  • 什么是云仓?为什么现在越来越多电商商家合作云仓?

    随着物流行业的发展,相信越来越多的人逐渐了解云仓行业是什么,也许很多人会问:云仓一对一发货是一种什么样的模式?这个问题想必之前在其他文章里看过,所以今天在这里详细说一下一代云仓。 简单来说,云仓一对一配送是一家第三方仓储公司,根据自身优势,为电

    2024年02月11日
    浏览(53)
  • 为什么现在的视频都会加入自动字幕功能?

            最近上油管和billbilli等视频网站,会发现部分视频添加了自动字幕生成甚至翻译功能(可能早就有,但是最近我才注意到)。前几天在登录T开头的微博网站,也发现有自建聊天室功能,加入一个聊天室以后又发现聊天室的发言会自动生成实时字幕。因为笔者也参与过

    2023年04月08日
    浏览(60)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包