Hadoop时代落幕，谁是大数据时代新宠？-Toy模板网

这篇具有很好参考价值的文章主要介绍了Hadoop时代落幕，谁是大数据时代新宠？。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

随着2022年3月——这个Cloudera宣布停止对CDH技术支持日子越来越近，那些已经部署CDH和其他版本Hadoop的企业面临一个迫切的问题：自己原来部署的Hadoop怎么办？是继续延用还是迁移到其他大数据平台？如果要迁移，迁移到哪个大数据平台？

众所周知，CDH是市场上最受欢迎的免费Hadoop版本之一。目前，市场上免费Hadoop版本主要有三个，分别是Apache版本（开源社区版，也是最原始的版本，其他所有发行版均基于这个版本进行改进）、Cloudera版本（简称CDH）、Hortonworks版本(简称HDP，2018年Cloudera与Hortonworks合并后归属于Cloudera)。Cloudera对HDP的技术支持已经于2021年12月结束，Cloudera 还宣布今后将不再推出新版本的CDH和HDP，也就是这两个Hadoop版本不会再演进了。这就意味着，今后企业想要部署免费Hadoop平台只能选择社区版本，显然这会提高Hadoop部署和运维的难度和技术门槛。

另一方面，大数据市场新生力量已经崛起。Snowflake于2020年成功上市，成为美股当年最大的IPO，Snowflake的市值也超过330亿美元。Databricks来势更猛，2021年2月Databricks 获得10亿美元的G 轮融资，公司的估值达到了280亿美元。7个月后，Databricks再次宣布获得16 亿美元 H 轮融资，Databricks的估值飙升至380亿美元，是当初Cloudera最火时候的估值近10倍。这两家公司都是大数据领域的新晋“网红”，新生代已经崛起，Hadoop之后谁会成为大数据时代新的代言人？

01 Hadoop之潮起潮落

Hadoop是一个开源的分布式大数据处理框架，一直以来几乎就是大数据代名词。Hadoop诞生于2006年左右，当时爆发性增长的海量数据、人们对数据价值的普遍认可，源源不断地推动了企业对大数据处理的需求，而传统的数据处理方面无论是存储容量、读写速度、计算效率还是成本都越来越无法满足用户对海量数据的处理需求，Hadoop应运而生。

建立在开放架构上的Hadoop大大降低了大数据的门槛。Hadoop以分布式文件系统HDFS和MapReduce算法为核心，为用户提供了底层细节透明的分布式基础架构，可以基于通用硬件实现海量数据的分析和处理。由于有Google和Yahoo两大巨头的背书，Hadoop很快得到了市场的认可。一时间，市场上出现了众多Hadoop相关的创业公司，Cloudera、Hortonworks、MapR是其中最有影响的三个，被称为“Hadoop三巨头”：2008年Cloudera成立，2009年MapR 成立，2011年Hortonworks 成立。

当时业界普遍看好Hadoop的市场前景，这些公司的早期融资非常顺利。特别是2014年，Hadoop行业迎来高光时刻，Hortonworks成功上市，Cloudera也是风头正劲，获得Intel 7.5亿美元的投资，Cloudera的总估值曾达到41亿美元，成为当时未上市的大数据公司里面最为闪耀的一个。据报道，上市前Cloudera共获得了超过10亿美元的融资，Hortonworks 获得了2.48亿美元融资，MapR虽然一直没有上市，先后融资也近3亿美元。

不过，即使在三巨头的高光时刻，围绕Hadoop的争议一直不断。早在2013年，Gartner研究总监Svetlana Sicular就曾发表文章称，“大数据正处于新技术厂商炒作周期和用户预期的顶峰，但是Hadoop的过时和用户失败案例不断增多意味着大数据泡沫即将破裂。”

后来“Hadoop三巨头”的发展都不太顺利，争议也一直无法平息。2018年10月，无法实现盈利的Cloudera和Hortonworks宣布平等合并，Cloudera以股票方式收购Hortonworks，Cloudera股东获得Hortonworks 60%的股份。2019年，HPE宣布收购MapR 的资产，收购金额未对外公开。此前MapR已经陷入财务困境，对外表示再没有融资将面临倒闭的命运。

合并后的Cloudera做出了一些战略调整，其中包括对CDH/HDP的支持政策。Cloudera宣布在2022年3月停止CDH、HDP的技术支持和版本更新，还宣布不会再推出新版本的CDH和HDP。另外，Cloudera的代码开源政策也做了调整，从2021年年初开始就已经停止了免费下载CDH、HDP。

还有一个值得注意的细节，Cloudera悄悄地去除了自己身上的Hadoop标签。今天，打开Cloudera官网已经很难再找到Hadoop这个词，在对外宣传中Cloudera给自己的定位是一家企业数据云平台公司，而不再是一个Hadoop技术供应商。Cloudera的主打产品也从原来的CDH换成了CDP（Cloudera Data Platform)。虽然CDP延续了CDH 的版本号（CDP 7）。但CDP与CDH之间并不是产品迭代的关系，而是全新的产品。另外，CDP和CDH、HDP一样，CDP不会有免费的开源版本下载，也不会对外免费提供开源代码。

Cloudera是Hadoop社区的“顶梁柱”，拥有CDH、HDP这两个市场上最受认可的开源发行版，Cloudera的一举一动对Hadoop影响不言而喻。Cloudera对CDH、HDP政策调整意味着今后要用免费的Hadoop基本只有Apache社区版了，而社区版无论稳定性和安全性与CDH、HDP都不在一个水平上，如果要用于生产环境需要进行多个模块的集成和大量二次开发，这个工作对技术人员要求非常高。可以预料，未来Hadoop的社区热度和应用会受到不小影响，这也是人们对Hadoop的未来前景产生担忧的原因所在。

02 Hadoop为何受到质疑？

应该说，Hadoop一直在不断调整以满足用户需求。那么，Hadoop从一个人人看好的大数据平台到如今人们开始忧心忡忡，担忧其未来，这中间到底发生什么让人们对Hadoop的发展前景来了一个彻底大扭转？

从最早期Gartner的唱衰到今天人们对Hadoop的担心，最为集中的一点是Hadoop的技术复杂性，这个技术复杂性提升了学习难度，带来了人才的不足，也带来了Hadoop项目的部署和实施效果不理想，使得不少项目最后无法兑现企业预期的各种商业价值。

今天打开Hadoop官网，我们可以看到其核心模块有四个：文件系统HDFS、资源调度YARN、计算引擎MapReduce和通用库，但光有这四个模块基本无法应用在生产环境中，要真正完成一个任务还需要借助很多其他模块的协助，比如Hive、HBase、Pig、Spark、Kafka、Zookeeper等。

实际上，在Hadoop生态体系之下至少有30个以上开源项目，为了完成一个生产项目需要对多个开源模块集成。这也正是CDH、HDP广受认可的一个重要原因，因为它们完成了模块之间的预集成，让用户免去不少集成之苦。即使这样，作为开源项目的Hadoop的部署和实施都高度依赖工程师的技术能力，而如此这多的模块要都精通对技术人员要求非常之高，这些都导致Hadoop的高复杂性而屡屡受到诟病。

大数据商业价值的实现达不到预期，很大程度上还与大数据项目本身的复杂性有关。Hadoop管理的是几十台或者成百上千台服务器组成的集群，计算环境的复杂性前所未有。同时，大数据项目从一开始就是探索性和创新性的，本身就具有很大不确定性。这一点和以提高效率为主要目的传统应用不同，传统应用只要部署下来，其效果基本是可以预料的。再加上有不少企业是看到大数据热就跟风，本身对如何做还没有想好，这直接推高了大数据项目的失败率。

对Hadoop的第二个批评是其技术过时，主要指MapReduce只能进行批处理，无法处理实时应用。MapReduce的确有这方面的弱点。实际上，这一点如今已不是一个问题，每个技术都有自己最佳的适用场景，如果要实时处理可以用Spark，要处理流数据有Flink，这些都可以在Hadoop框架之下很好地进行集成。Hadoop萌芽于2004年，2008年左右以Hadoop之名被开源，其核心技术也诞生于那个时代，用今天的需求来要求Hadoop并不合理。而且，Hadoop本身也不断演进，比如积极拥抱Spark、Kubernetes、Kafka等，为企业提供一个更好的大数据平台框架。

唱衰Hadoop的第三原因是云计算的崛起。众所周知，HDFS是Hadoop最为核心的两个模块之一（另一个是MapReduce），也是Hadoop的根基。而云服务的崛起使得以S3为代表的对象存储开始流行，云服务商结合对象存储推出的各种Hadoop云服务，相比于传统方式部署的 Hadoop更简单易用。比如AWS的Elastic Map Reduce (EMR)非常简单，而且与底层S3存储完全集成，具有较低的购置成本并且更便宜。

应该说，这的确是一个重要原因，看看今天大出风头的Snowflake和Databricks，它们提供的云服务这种商业模式无疑是成功的重要原因。Gartner曾预计，到2023年，75%的数据库都会跑在云平台之上。当然，这只是就趋势而言，当下Hadoop主要面向的还是拥有海量数据的私有云环境，金融、电信以及部分互联网才是Hadoop真正的重度用户，它们对大数据应用需求的复杂性是云服务商比较难满足的，一般来说其应用很难迁移到公有云上。

其实，经过多年的发展，在Hadoop生态体系中很多模块已经被新的模块替换，比如Spark替代MapReduce、S3替代HDFS、K8s替代Yarn，而完成了这些替代之后的Hadoop也早就是不是原来的Hadoop了。

应该说，和所有创新技术一样，Hadoop也有自己的生命周期。当IT环境发生了变化，比如，今天云计算环境正在成为企业标准IT环境，早期Hadoop所强调的存算一体正在被越来越多的存算分离场景所取代；实时数仓、湖仓一体正在成为行业趋势的时候，Hadoop虽然自己也在与时俱进，终究会被更新、更好的技术替代。当然，这种替代是单就Hadoop软件本身而言，如果从广义的角度而言，Hadoop生态依然生机勃勃，比如Spark、Kafka等今天就非常流行。

03 后Hadoop时代，大数据平台如何选？

今天，大数据市场正在蓬勃发展，根据IDC发布的《2021年V2全球大数据支出指南》中的最新预测，全球大数据市场的IT投资规模有望在2025年超过3500亿美元，五年预测期内(2021-2025)实现约12.8%的复合增长率(CAGR)。中国大数据表现有望更好，市场五年CAGR约为19.7%，增速领跑全球。另外，2021年11月30日，工信部发布关于印发“十四五”大数据产业发展规划的通知(简称《规划》)，《规划》提出要保持产业保持高速增长，到2025年大数据产业规模突破3万亿元，年均复合增长率保持在25%左右。

大数据产业的发展必然带来对大数据平台的需求，面对强劲的市场需求，在后Hadoop时代，我们该选择什么样的大数据平台？特别是那些已经部署了CDH、HDP和各种Hadoop版本的用户怎么办？

如果公司技术实力够用，当然还是可以继续跟踪Hadoop社区版本，结合社区和自己的技术力量来解决各种难题，特别是如果大数据平台能够满足目前自己需求的前提之下。但是，对于更多普通企业用户，自己的技术实力不够，付费寻求技术支持可能会是更好的选择。好在目前在Hadoop这个大数据生态体系之中，有不少颇有技术实力的第三方提供自己的Hadoop版本和服务，比如华为、阿里云等。

而对于那些已经部署Cloudera的CDH和HDP企业而言，选择升级到Cloudera的新一代数据云平台CDP也是一个不错的选择。CDP是Cloudera2019年面向云环境推出的一个大数据处理平台。根据Cloudera大中华区技术总监刘隶放的说法，CDP可以提供六大能力：第一个是提供数据中心(Data Hub) 的能力，也就是提供一个基础性的集中存放数据、管理数据的能力；第二个是Data Flow & Streaming，包括用于数据收集和流式的实时数据处理的一整套产品。第三个是Cloudera Data Engineering，主要是用来进行批量数据处理。第四个是ClouderaData Warehouse，也就是数据仓库，可以替换原有的传统数据仓库。第五个是Operational Database，基于HBase等一些实时的非结构化的数据库，提供互联网级别的对外服务。第六个是机器学习的平台。

“Hadoop的解决方案技术栈很重，客户拿来还需要定制，门槛高。今天，我们做出了改变，目的是要能让业务部门也能用起来，为此增加方案通用性，让客户尽量少定制，另外，我们也交付基于云的数据服务，通过编排的方式去做数据服务。”刘隶放介绍说。

他说，CDP的一个特点是能同时支持私有云环境和公有云环境部署，目前Cloudera已经与阿里云达成合作，在阿里云上就可以获得云版本的CDP，用以对企业的大数据进行全面的分析和管理，这对部分技术能力不足的客户无疑具有很大吸引力。

04 结束语

每项技术都有自己的生命周期，Hadoop已经走过了高峰期，但Hadoop所代表的大数据生态还在蓬勃发展。这些年围绕Hadoop已经构建起来一个完整的生态，即使企业没有用Hadoop，但Hadoop的很多技术理念，比如Hadoop松耦合的架构体系、建立在通用硬件平台上的分布式系统设计，以及开放的数据标准和开源技术，早就超越了十几年前的HDFS、MapReduce 的范畴，在更多新兴技术中体现。“一鲸落，万物生”，Hadoop时代不在，但其理念还会在一个比过去更广阔、更有能力的生态系统中继续生生不息乃至发扬光大，从这个意义上说，Hadoop将长存。

侵权删文章来源地址https://www.toymoban.com/news/detail-782773.html

到了这里，关于Hadoop时代落幕，谁是大数据时代新宠？的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！