Hadoop时代落幕,谁是大数据时代新宠?

这篇具有很好参考价值的文章主要介绍了Hadoop时代落幕,谁是大数据时代新宠?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

随着2022年3月——这个Cloudera宣布停止对CDH技术支持日子越来越近,那些已经部署CDH和其他版本Hadoop的企业面临一个迫切的问题:自己原来部署的Hadoop怎么办?是继续延用还是迁移到其他大数据平台?如果要迁移,迁移到哪个大数据平台?

众所周知,CDH是市场上最受欢迎的免费Hadoop版本之一。目前,市场上免费Hadoop版本主要有三个,分别是Apache版本(开源社区版,也是最原始的版本,其他所有发行版均基于这个版本进行改进)、Cloudera版本(简称CDH)、Hortonworks版本(简称HDP,2018年Cloudera与Hortonworks合并后归属于Cloudera)。Cloudera对HDP的技术支持已经于2021年12月结束,Cloudera 还宣布今后将不再推出新版本的CDH和HDP,也就是这两个Hadoop版本不会再演进了。这就意味着,今后企业想要部署免费Hadoop平台只能选择社区版本,显然这会提高Hadoop部署和运维的难度和技术门槛。

另一方面,大数据市场新生力量已经崛起。Snowflake于2020年成功上市,成为美股当年最大的IPO,Snowflake的市值也超过330亿美元。Databricks来势更猛,2021年2月Databricks 获得10亿美元的G 轮融资,公司的估值达到了280亿美元。7个月后,Databricks再次宣布获得16 亿美元 H 轮融资,Databricks的估值飙升至380亿美元,是当初Cloudera最火时候的估值近10倍。这两家公司都是大数据领域的新晋“网红”,新生代已经崛起,Hadoop之后谁会成为大数据时代新的代言人?

01 Hadoop之潮起潮落

Hadoop是一个开源的分布式大数据处理框架,一直以来几乎就是大数据代名词。Hadoop诞生于2006年左右,当时爆发性增长的海量数据、人们对数据价值的普遍认可,源源不断地推动了企业对大数据处理的需求,而传统的数据处理方面无论是存储容量、读写速度、计算效率还是成本都越来越无法满足用户对海量数据的处理需求,Hadoop应运而生。

建立在开放架构上的Hadoop大大降低了大数据的门槛。Hadoop以分布式文件系统HDFS和MapReduce算法为核心,为用户提供了底层细节透明的分布式基础架构,可以基于通用硬件实现海量数据的分析和处理。由于有Google和Yahoo两大巨头的背书,Hadoop很快得到了市场的认可。一时间,市场上出现了众多Hadoop相关的创业公司,Cloudera、Hortonworks、MapR是其中最有影响的三个,被称为“Hadoop三巨头”:2008年Cloudera成立,2009年MapR 成立,2011年Hortonworks 成立。

当时业界普遍看好Hadoop的市场前景,这些公司的早期融资非常顺利。特别是2014年,Hadoop行业迎来高光时刻,Hortonworks成功上市,Cloudera也是风头正劲,获得Intel 7.5亿美元的投资,Cloudera的总估值曾达到41亿美元,成为当时未上市的大数据公司里面最为闪耀的一个。据报道,上市前Cloudera共获得了超过10亿美元的融资,Hortonworks 获得了2.48亿美元融资,MapR虽然一直没有上市,先后融资也近3亿美元。

不过,即使在三巨头的高光时刻,围绕Hadoop的争议一直不断。早在2013年,Gartner研究总监Svetlana Sicular就曾发表文章称,“大数据正处于新技术厂商炒作周期和用户预期的顶峰,但是Hadoop的过时和用户失败案例不断增多意味着大数据泡沫即将破裂。”

后来“Hadoop三巨头”的发展都不太顺利,争议也一直无法平息。2018年10月,无法实现盈利的Cloudera和Hortonworks宣布平等合并,Cloudera以股票方式收购Hortonworks,Cloudera股东获得Hortonworks 60%的股份。2019年,HPE宣布收购MapR 的资产,收购金额未对外公开。此前MapR已经陷入财务困境,对外表示再没有融资将面临倒闭的命运。

合并后的Cloudera做出了一些战略调整,其中包括对CDH/HDP的支持政策。Cloudera宣布在2022年3月停止CDH、HDP的技术支持和版本更新,还宣布不会再推出新版本的CDH和HDP。另外,Cloudera的代码开源政策也做了调整,从2021年年初开始就已经停止了免费下载CDH、HDP。

还有一个值得注意的细节,Cloudera悄悄地去除了自己身上的Hadoop标签。今天,打开Cloudera官网已经很难再找到Hadoop这个词,在对外宣传中Cloudera给自己的定位是一家企业数据云平台公司,而不再是一个Hadoop技术供应商。Cloudera的主打产品也从原来的CDH换成了CDP(Cloudera Data Platform)。虽然CDP延续了CDH 的版本号(CDP 7)。但CDP与CDH之间并不是产品迭代的关系,而是全新的产品。另外,CDP和CDH、HDP一样,CDP不会有免费的开源版本下载,也不会对外免费提供开源代码。

Cloudera是Hadoop社区的“顶梁柱”,拥有CDH、HDP这两个市场上最受认可的开源发行版,Cloudera的一举一动对Hadoop影响不言而喻。Cloudera对CDH、HDP政策调整意味着今后要用免费的Hadoop基本只有Apache社区版了,而社区版无论稳定性和安全性与CDH、HDP都不在一个水平上,如果要用于生产环境需要进行多个模块的集成和大量二次开发,这个工作对技术人员要求非常高。可以预料,未来Hadoop的社区热度和应用会受到不小影响,这也是人们对Hadoop的未来前景产生担忧的原因所在。

02 Hadoop为何受到质疑?

应该说,Hadoop一直在不断调整以满足用户需求。那么,Hadoop从一个人人看好的大数据平台到如今人们开始忧心忡忡,担忧其未来,这中间到底发生什么让人们对Hadoop的发展前景来了一个彻底大扭转?

从最早期Gartner的唱衰到今天人们对Hadoop的担心,最为集中的一点是Hadoop的技术复杂性,这个技术复杂性提升了学习难度,带来了人才的不足,也带来了Hadoop项目的部署和实施效果不理想,使得不少项目最后无法兑现企业预期的各种商业价值。

今天打开Hadoop官网,我们可以看到其核心模块有四个:文件系统HDFS、资源调度YARN、计算引擎MapReduce和通用库,但光有这四个模块基本无法应用在生产环境中,要真正完成一个任务还需要借助很多其他模块的协助,比如Hive、HBase、Pig、Spark、Kafka、Zookeeper等。

实际上,在Hadoop生态体系之下至少有30个以上开源项目,为了完成一个生产项目需要对多个开源模块集成。这也正是CDH、HDP广受认可的一个重要原因,因为它们完成了模块之间的预集成,让用户免去不少集成之苦。即使这样,作为开源项目的Hadoop的部署和实施都高度依赖工程师的技术能力,而如此这多的模块要都精通对技术人员要求非常之高,这些都导致Hadoop的高复杂性而屡屡受到诟病。

大数据商业价值的实现达不到预期,很大程度上还与大数据项目本身的复杂性有关。Hadoop管理的是几十台或者成百上千台服务器组成的集群,计算环境的复杂性前所未有。同时,大数据项目从一开始就是探索性和创新性的,本身就具有很大不确定性。这一点和以提高效率为主要目的传统应用不同,传统应用只要部署下来,其效果基本是可以预料的。再加上有不少企业是看到大数据热就跟风,本身对如何做还没有想好,这直接推高了大数据项目的失败率。

对Hadoop的第二个批评是其技术过时,主要指MapReduce只能进行批处理,无法处理实时应用。MapReduce的确有这方面的弱点。实际上,这一点如今已不是一个问题,每个技术都有自己最佳的适用场景,如果要实时处理可以用Spark,要处理流数据有Flink,这些都可以在Hadoop框架之下很好地进行集成。Hadoop萌芽于2004年,2008年左右以Hadoop之名被开源,其核心技术也诞生于那个时代,用今天的需求来要求Hadoop并不合理。而且,Hadoop本身也不断演进,比如积极拥抱Spark、Kubernetes、Kafka等,为企业提供一个更好的大数据平台框架。

唱衰Hadoop的第三原因是云计算的崛起。众所周知,HDFS是Hadoop最为核心的两个模块之一(另一个是MapReduce),也是Hadoop的根基。而云服务的崛起使得以S3为代表的对象存储开始流行,云服务商结合对象存储推出的各种Hadoop云服务,相比于传统方式部署的 Hadoop更简单易用。比如AWS的Elastic Map Reduce (EMR)非常简单,而且与底层S3存储完全集成,具有较低的购置成本并且更便宜。

应该说,这的确是一个重要原因,看看今天大出风头的Snowflake和Databricks,它们提供的云服务这种商业模式无疑是成功的重要原因。Gartner曾预计,到2023年,75%的数据库都会跑在云平台之上。当然,这只是就趋势而言,当下Hadoop主要面向的还是拥有海量数据的私有云环境,金融、电信以及部分互联网才是Hadoop真正的重度用户,它们对大数据应用需求的复杂性是云服务商比较难满足的,一般来说其应用很难迁移到公有云上。

其实,经过多年的发展,在Hadoop生态体系中很多模块已经被新的模块替换,比如Spark替代MapReduce、S3替代HDFS、K8s替代Yarn,而完成了这些替代之后的Hadoop也早就是不是原来的Hadoop了。

应该说,和所有创新技术一样,Hadoop也有自己的生命周期。当IT环境发生了变化,比如,今天云计算环境正在成为企业标准IT环境,早期Hadoop所强调的存算一体正在被越来越多的存算分离场景所取代;实时数仓、湖仓一体正在成为行业趋势的时候,Hadoop虽然自己也在与时俱进,终究会被更新、更好的技术替代。当然,这种替代是单就Hadoop软件本身而言,如果从广义的角度而言,Hadoop生态依然生机勃勃,比如Spark、Kafka等今天就非常流行。

03 后Hadoop时代,大数据平台如何选?

今天,大数据市场正在蓬勃发展,根据IDC发布的《2021年V2全球大数据支出指南》中的最新预测,全球大数据市场的IT投资规模有望在2025年超过3500亿美元,五年预测期内(2021-2025)实现约12.8%的复合增长率(CAGR)。中国大数据表现有望更好,市场五年CAGR约为19.7%,增速领跑全球。另外,2021年11月30日,工信部发布关于印发“十四五”大数据产业发展规划的通知(简称《规划》),《规划》提出要保持产业保持高速增长,到2025年大数据产业规模突破3万亿元,年均复合增长率保持在25%左右。

大数据产业的发展必然带来对大数据平台的需求,面对强劲的市场需求,在后Hadoop时代,我们该选择什么样的大数据平台?特别是那些已经部署了CDH、HDP和各种Hadoop版本的用户怎么办?

如果公司技术实力够用,当然还是可以继续跟踪Hadoop社区版本,结合社区和自己的技术力量来解决各种难题,特别是如果大数据平台能够满足目前自己需求的前提之下。但是,对于更多普通企业用户,自己的技术实力不够,付费寻求技术支持可能会是更好的选择。好在目前在Hadoop这个大数据生态体系之中,有不少颇有技术实力的第三方提供自己的Hadoop版本和服务,比如华为、阿里云等。

而对于那些已经部署Cloudera的CDH和HDP企业而言,选择升级到Cloudera的新一代数据云平台CDP也是一个不错的选择。CDP是Cloudera2019年面向云环境推出的一个大数据处理平台。根据Cloudera大中华区技术总监刘隶放的说法,CDP可以提供六大能力:第一个是提供数据中心(Data Hub) 的能力,也就是提供一个基础性的集中存放数据、管理数据的能力;第二个是Data Flow & Streaming,包括用于数据收集和流式的实时数据处理的一整套产品。第三个是Cloudera Data Engineering,主要是用来进行批量数据处理。第四个是ClouderaData Warehouse,也就是数据仓库,可以替换原有的传统数据仓库。第五个是Operational Database,基于HBase等一些实时的非结构化的数据库,提供互联网级别的对外服务。第六个是机器学习的平台。

“Hadoop的解决方案技术栈很重,客户拿来还需要定制,门槛高。今天,我们做出了改变,目的是要能让业务部门也能用起来,为此增加方案通用性,让客户尽量少定制,另外,我们也交付基于云的数据服务,通过编排的方式去做数据服务。”刘隶放介绍说。

他说,CDP的一个特点是能同时支持私有云环境和公有云环境部署,目前Cloudera已经与阿里云达成合作,在阿里云上就可以获得云版本的CDP,用以对企业的大数据进行全面的分析和管理,这对部分技术能力不足的客户无疑具有很大吸引力。

04 结束语

每项技术都有自己的生命周期,Hadoop已经走过了高峰期,但Hadoop所代表的大数据生态还在蓬勃发展。这些年围绕Hadoop已经构建起来一个完整的生态,即使企业没有用Hadoop,但Hadoop的很多技术理念,比如Hadoop松耦合的架构体系、建立在通用硬件平台上的分布式系统设计,以及开放的数据标准和开源技术,早就超越了十几年前的HDFS、MapReduce 的范畴,在更多新兴技术中体现。“一鲸落,万物生”,Hadoop时代不在,但其理念还会在一个比过去更广阔、更有能力的生态系统中继续生生不息乃至发扬光大,从这个意义上说,Hadoop将长存。

侵权删文章来源地址https://www.toymoban.com/news/detail-782773.html

到了这里,关于Hadoop时代落幕,谁是大数据时代新宠?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop大数据处理技术-初步了解Hadoop

    ​ 云计算,听起来就像是什么仙气十足的东西,但其实它并不神秘。简单来说,云计算就是通过网络(通常是互联网)来提供各种计算服务,包括存储、数据库、软件、网络等,而不是依靠个人计算机或本地服务器来处理。想象一下,就好像你可以通过互联网租用一台强大的

    2024年04月22日
    浏览(38)
  • 尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】

    视频地址: 尚硅谷大数据Hadoop教程(Hadoop 3.x安装搭建到集群调优) 尚硅谷大数据技术Hadoop教程-笔记01【大数据概论】 尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】 尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】 尚硅谷大数据技术Hadoop教程-笔记04【Hadoop-MapReduce】 尚硅谷

    2024年02月06日
    浏览(52)
  • 【大数据之Hadoop】三十七、Hadoop HA高可用

      实现高可用最关键的策略是消除单点故障。HA分成各个组件的HA机制:HDFS的HA和YARN的HA。   Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。 NameNode主要在以下两个方面影响HDFS集群: (1)NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启。 (2)

    2024年02月12日
    浏览(44)
  • hadoop大数据原理与应用-----初识hadoop习题集

    Hadoop的配置文件主要是`hadoop-env.sh`和`yarn-env.sh`,这两个文件位于Hadoop安装目录的`etc/hadoop`目录下。 1. `hadoop-env.sh`:在这个文件中,您可以配置Hadoop的环境变量,包括JAVA_HOME。通常,在这个文件中会有一个关于JAVA_HOME的配置项,您可以直接修改这个配置项来指定Java的安装路径

    2024年04月26日
    浏览(40)
  • hadoop 3.x 案例7: hadoop大数据平台日志

    日志分类: namenode日志 datanode日志 secondarynamenode日志 yarn日志 4.1 resourcemanger日志 4.2 nodemanager日志 historyServer日志 名称节点的日志,如果名称节点有问题,需要进行排查。一个hadoop大数据集群只有一个namenode,具体的信息可以查看配置文件 一个hadoop大数据平台一般有多个datanod

    2024年02月01日
    浏览(37)
  • 一文搞懂什么是Hadoop?Hadoop的前世今生,Hadoop的优点有哪些?Hadoop面试考查重点,大数据技术生态体系

    目录 1.1 Hadoop 是什么  1.2 Hadoop 发展历史 1.3 Hadoop 三大发行版本  1.4 Hadoop优势(4高)  1.5 Hadoop 组成(面试重点)  1.5.1 HDFS 架构概述   1.5.2 YARN 架构概述   1.5.3 MapReduce 架构概述   1.5.4 HDFS、YARN、MapReduce 三者关系   1.6 大数据技术生态体系  1.7 推荐系统框架图   (1 ) Had

    2024年02月01日
    浏览(49)
  • Hadoop理论及实践-HDFS读写数据流程(参考Hadoop官网)

    主节点和副本节点通常指的是Hadoop分布式文件系统(HDFS)中的NameNode和DataNode。 NameNode(主节点):NameNode是Hadoop集群中的一个核心组件,它负责管理文件系统的命名空间和元数据。它记录了文件的目录结构、文件的块分配信息以及每个文件块所在的DataNode等关键信息。NameNo

    2024年02月14日
    浏览(54)
  • 大数据Hadoop教程-学习笔记06【Hadoop生态综合案例:陌陌聊天数据分析】

    视频教程:哔哩哔哩网站:黑马大数据Hadoop入门视频教程,总时长:14:22:04 教程资源:https://pan.baidu.com/s/1WYgyI3KgbzKzFD639lA-_g,提取码:6666 【P001-P017】大数据Hadoop教程-学习笔记01【大数据导论与Linux基础】【17p】 【P018-P037】大数据Hadoop教程-学习笔记02【Apache Hadoop、HDFS】【20p】

    2024年02月02日
    浏览(48)
  • hadoop2的集群数据将副本存储在hadoop3

    在 Hadoop 集群中,HDFS 副本是分布式存储的,会存储在不同的节点上。因此,如果您的 HDFS 所在路径是在 Hadoop2 集群中,您可以在 Hadoop3 集群上添加新的节点,并向 Hadoop3 集群中添加这些新节点上的数据副本。 以下是一些常见的方法: 1.添加新节点 首先,在 Hadoop3 集群中添加

    2024年02月12日
    浏览(47)
  • 尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】

    视频地址: 尚硅谷大数据Hadoop教程(Hadoop 3.x安装搭建到集群调优) 尚硅谷大数据技术Hadoop教程-笔记01【大数据概论】 尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】 尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】 尚硅谷大数据技术Hadoop教程-笔记04【Hadoop-MapReduce】 尚硅谷

    2023年04月08日
    浏览(98)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包