一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】

这篇具有很好参考价值的文章主要介绍了一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一文看懂大数据生态圈完整知识体系

徐葳

随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。

目前大数据生态圈中的核心技术总结下来如图1所示,分为以下9类,下面分别介绍。

大数据生态架构图,大数据,大数据,hadoop,spark图1

一、数据采集技术框架

数据采集也被称为数据同步。随着互联网、移动互联网、物联网等技术的兴起,产生了海量数据。这些数据散落在各个地方,我们需要将这些数据融合到一起,然后从这些海量数据中计算出一些有价值的内容。此时第一步需要做的是把数据采集过来。数据采集是大数据的基础,没有数据采集,何谈大数据!

数据采集技术框架包括以几种。

  1. Flume、Logstash和FileBeat常用于日志数据实时监控采集,它们之间的细节区别见表1;
  2. Sqoop和Datax常用于关系型数据库离线数据采集,它们之间的细节区别见表2;
  3. Cannal和Maxwell常用于关系型数据库实时数据采集,它们之间的细节区别见表3。

表1

大数据生态架构图,大数据,大数据,hadoop,spark

表2

大数据生态架构图,大数据,大数据,hadoop,spark

表3

大数据生态架构图,大数据,大数据,hadoop,spark

Flume、Logstash和FileBeat的技术选型依据如图2所示

大数据生态架构图,大数据,大数据,hadoop,spark图2

Sqoop和Datax之间的技术选型依据如图3所示。

大数据生态架构图,大数据,大数据,hadoop,spark图3

Cannal和Maxwell之间的技术选型依据如图4所示

大数据生态架构图,大数据,大数据,hadoop,spark图4

二、数据存储技术框架

数据的快速增长推动了技术的发展,涌现出了一批优秀的、支持分布式的存储系统。

数据存储技术框架包括HDFS、HBase、Kudu、Kafka等。

  1. HDFS它可以解决海量数据存储的问题,但是其最大的缺点是不支持单条数据的修改操作,因为它毕竟不是数据库。
  2. HBase是一个基于HDFS的分布式NoSQL数据库。这意味着,HBase可以利用HDFS的海量数据存储能力,并支持修改操作。但HBase并不是关系型数据库,所以它无法支持传统的SQL语法。
  3. Kudu是介于HDFS和HBase之间的技术组件,既支持数据修改,也支持基于SQL的数据分析功能;目前Kudu的定位比较尴尬,属于一个折中的方案,在实际工作中应用有限。
  4. Kafka常用于海量数据的临时缓冲存储,对外提供高吞吐量的读写能力。

三、分布式资源管理框架

在传统的IT领域中,企业的服务器资源(内存、CPU等)是有限的,也是固定的。但是,服务器的应用场景却是灵活多变的。例如,今天临时上线了一个系统,需要占用几台服务器;过了几天,需要把这个系统下线,把这几台服务器清理出来。

在大数据时代到来之前,服务器资源的变更对应的是系统的上线和下线,这些变动是有限的。随着大数据时代的到来,临时任务的需求量大增,这些任务往往需要大量的服务器资源。如果此时还依赖运维人人工对接服务器资源的变更,显然是不现实的。因此,分布式资源管理系统应运而生,常见的包括YARN、Kubernetes和Mesos,它们的典型应用领域如图5所示。

大数据生态架构图,大数据,大数据,hadoop,spark图5

四、数据计算技术框架

数据计算分为离线数据计算和实时数据计算。

1)离线数据计算。

大数据中的离线数据计算引擎经过十几年的发展,到目前为止主要发生了3次大的变更。

  1. MapReduce可以称得上是大数据行业的第一代离线数据计算引擎,主要用于解决大规模数据集的分布式并行计算。MapReduce计算引擎的核心思想是,将计算逻辑抽象成Map和Reduce两个阶段进行处理。
  2. Tez计算引擎在大数据技术生态圈中的存在感较弱,实际工作中很少会单独使用Tez去开发计算程序。
  3. Spark最大的特点就是内存计算:任务执行阶段的中间结果全部被放在内存中,不需要读写磁盘,极大地提高了数据的计算性能。Spark提供了大量高阶函数(也可以称之为算子),可以实现各种复杂逻辑的迭代计算,非常适合应用在海量数据的快速且复杂计算需求中。

2实时数据计算。

业内最典型的实时数据计算场景是天猫“双十一”的数据大屏。数据大屏中展现的成交总金额、订单总量等数据指标,都是实时计算出来的。用户购买商品后,商品的金额就会被实时增加到数据大屏中的成交总金额中。

  1. Storm主要用于实现实时数据分布式计算;
  2. Flink属于新一代实时数据分布式计算引擎,其计算性能和生态圈都优于Storm。
  3. Spark中的SparkStreaming组件也可以提供基于秒级别的实时数据分布式计算功能。

他和Storm、Flink之间的区别见表4。

表4

大数据生态架构图,大数据,大数据,hadoop,spark

Storm、Spark、Flink 之间的技术选型依据如图6所示。

大数据生态架构图,大数据,大数据,hadoop,spark图6

因此,目前企业中离线计算主要使用Spark,实时计算主要使用Flink。

五、数据分析技术框架

包括Hive、Impala、Kylin、Clickhouse、Druid、Drois等,它们的典型应用场景如图7所示。

大数据生态架构图,大数据,大数据,hadoop,spark图7

Hive、Impala和Kylin属于典型的离线OLAP数据分析引擎,主要应用在离线数据分析领域,它们之间的区别见表5。

  1. Hive的执行效率一般,但是稳定性极高;
  2. Impala基于内存可以提供优秀的执行效率,但是稳定性一般;
  3. Kylin通过预计算可以提供PB级别数据毫秒级响应。

表5

大数据生态架构图,大数据,大数据,hadoop,spark

Clickhouse、DruidDrois属于典型的实时OLAP数据分析引擎,主要应用在实时数据分析领域,它们之间的区别见表6。

  1. Druid和Doris是可以支持高并发的,ClickHouse的并发能力有限;Druid中的SQL支持是有限的,ClickHouse支持非标准SQL,Doris支持标准SQL,对SQL支持比较好。
  2. 目前Druid和ClickHouse的成熟程度相对比较高,Doris处于快速发展阶段。

表6

大数据生态架构图,大数据,大数据,hadoop,spark

六、任务调度技术框架

包括Azkaban、Ooize、DolphinScheduler等。它们适用于普通定时执行的例行化任务,以及包含复杂依赖关系的多级任务进行调度,支持分布式,保证调度系统的性能和稳定性,它们之间的区别见表7,它们之前的技术选型依据如图8所示。

表7大数据生态架构图,大数据,大数据,hadoop,spark

 大数据生态架构图,大数据,大数据,hadoop,spark

图8

七、大数据底层基础技术框架

大数据底层基础技术框架主要是指Zookeeper。Zookeepe主要提供常用的基础功能(例如:命名空间、配置服务等),大数据生态圈中的Hadoop(HA)、HBase、Kafka等技术组件的运行都会用到Zookeeper。

八、数据检索技术框架

随着企业中数据的逐步积累,针对海量数据的统计分析需求会变得越来越多样化:不仅要进行分析,还要实现多条件快速复杂查询。例如,电商网站中的商品搜索功能,以及各种搜索引擎中的信息检索功能,这些功能都属于多条件快速复杂查询的范畴。

在选择全文检索引擎工具时,可以从易用性、扩展性、稳定性、集群运维难度、项目集成程度、社区活跃度这几个方面进行对比。Lucene、Solr和Elasticsearch的对比见表8。

表8

大数据生态架构图,大数据,大数据,hadoop,spark

九、大数据集群安装管理框架

企业如果想从传统的数据处理转型到大数据处理,首先要做就是搭建一个稳定可靠的大数据平台。

一个完整的大数据平台需要包含数据采集、数据存储、数据计算、数据分析、集群监控等功能,这就意味着其中需要包含Flume、Kafka、Haodop、Hive、HBase、Spark、Flink等组件,这些组件需要部署到上百台甚至上千台机器中。

如果依靠运维人员单独安装每一个组件,则工作量比较大,而且需要考虑版本之间的匹配问题及各种冲突问题,并且后期集群维护工作也会给运维人员造成很大的压力。

于是,国外一些厂商就对大数据中的组件进行了封装,提供了一体化的大数据平台,利用它可以快速安装大数据组件。目前业内最常见的是包括CDH、HDP、CDP等。

  1. HDP:全称是 Hortonworks Data Platform。它由 Hortonworks 公司基于 Apache Hadoop 进行了封装,借助于 Ambari 工具提供界面化安装和管理,并且集成了大数据中的常见组件, 可以提供一站式集群管理。HDP 属于开源版免费大数据平台,没有提供商业化服务;
  2. CDH:全称是 Cloudera Distribution Including Apache Hadoop。它由 Cloudera 公司基于 Apache Hadoop 进行了商业化,借助于 Cloudera Manager 工具提供界面化安装和管理,并且集成了大数据中的常见组件,可以提供一站式集群管理。CDH 属于商业化收费大 数据平台,默认可以试用 30 天。之后,如果想继续使用高级功能及商业化服务,则需要付费购买授权,如果只使用基础功能,则可以继续免费使用;
  3. CDP:Cloudera 公司在 2018 年 10 月份收购了 Hortonworks,之后推出了新一代的大数据平台产品 CDP(Cloudera Data Center)。CDP 的版本号延续了之前 CDH 的版本号。从 7.0 版本开始, CDP 支持 Private Cloud(私有云)和 Hybrid Cloud(混合云)。 CDP 将 HDP 和 CDH 中比较优秀的组件进行了整合,并且增加了一些新的组件。

三者的关系如图9所示

大数据生态架构图,大数据,大数据,hadoop,spark图9

以上内容出自于《大数据技术及架构图解实战派》一书。

大数据生态架构图,大数据,大数据,hadoop,spark

大数据生态架构图,大数据,大数据,hadoop,spark

大数据生态架构图,大数据,大数据,hadoop,spark

 大数据生态架构图,大数据,大数据,hadoop,spark

 大数据生态架构图,大数据,大数据,hadoop,spark文章来源地址https://www.toymoban.com/news/detail-516420.html

目前本书已在京东平台上架,欢迎选购。

直达链接:https://item.jd.com/13264403.html

到了这里,关于一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 一文读懂大数据工具Phoenix:让你的数据管理更高效!

    介绍:Phoenix,最初由saleforce开发并开源,后成为Apache基金会的顶级项目。它是一个构建在HBase上的SQL层,可以使用标准的JDBC APIs而不是HBase客户端APIs来创建表、插入数据和查询HBase中的数据。此外,Phoenix还完全使用Java编写,作为HBase内嵌的JDBC驱动,将SQL查询转换为一个或多个

    2024年01月20日
    浏览(44)
  • 科普|一文看懂虚拟人技术原理

    本文作者来自即构开发者社区@ Daniel 投稿,为我们分享时下热门的数字人技术。IDC 预计,到 2026 年,中国 AI 数字人市场规模将达到 102.4 亿元。开发者有必要对数字人技术有完整的认知和理解。 自从人类探索虚拟现实技术以来,虚拟人技术一直是人工智能和元宇宙技术领域的

    2024年02月09日
    浏览(41)
  • 一文看懂开源许可证丨开源知识科普

    编者按: 在很多人眼中, 「开源」是一个时髦且有情怀的词汇, 始终伴随有理想主义色彩, 因此不少公司开始给自己贴上\\\"开源\\\"标签。但一个优秀的开源项目远远不止是简单的公开源代码, 而是需要将其当作公司战略进行贯彻, 才能架设起牢不可破的信任桥梁。 PingCAP 从第一行代

    2023年04月08日
    浏览(63)
  • 【基础知识】一文看懂深度优先算法和广度优先算法

    先上个图 现在我们要访问图中的每个节点,即图的遍历。 图的遍历是指,从给定图中任意指定的顶点(称为初始点)出发,按照某种搜索方法沿着图的边访问图中的所有顶点,使每个顶点仅被访问一次,这个过程称为图的遍历。 我们根据访问节点的顺序与方式(根据搜索方

    2024年02月09日
    浏览(37)
  • 一文看懂业界在离线混部技术

    前 言 刚刚过去的 2021 年,在全球经济增长放缓、疫情时起时伏、中美关系摩擦不断、国家平台监管趋严等宏观趋势叠加影响下,很多互联网厂商都遭遇了明显的市值下滑以及亏损加大,裁员消息时有耳闻,所以在 2022 年,降本增效无疑将进一步成为业界大势所趋。 在保持业

    2024年02月08日
    浏览(46)
  • 【LlamaIndex 教程】一文看懂LlamaIndex用法,为LLMs学习私有知识

    我是卷了又没卷,薛定谔的卷的AI算法工程师「 陈城南 」(全网平台同名)~ 担任某大厂的算法工程师,带来最新的前沿AI知识,分享 AI 有趣工具和实用玩法 ,包括 ChatGPT、AI绘图等,欢迎 大家交流 ~ 交流「cchengnan113」备注「AI交流」可进裙 知乎「陈城南」 :https://www.zhihu

    2024年02月06日
    浏览(45)
  • 完整攻防知识体系-你值得拥有

    根据中国互联网络信息中心(CNNIC)发布的第51次《中国互联网络发展状况统计报告》,截至2022年12月,我国网民规模为10.67亿,互联网普及率达75.6%。 我国有潜力建设全球规模最大、应用渗透最强的数字社会。在此背景下,网络安全事关国家安全和经济社会稳定,事关广大人

    2024年02月06日
    浏览(49)
  • 一文读懂大语言模型

    以ChatGPT为代表的大语言模型被很多人认为是新一轮科技革命的起点,本文旨在通过概念性介绍,让普通人能够尽可能理解人工智能以及大语言模型的基本概念,从而了解这些技术能做以及不能做什么。原文: A Very Gentle Introduction to Large Language Models without the Hype [1] 0. 简介 本文

    2024年02月12日
    浏览(37)
  • 大数据构建知识图谱:从技术到实战的完整指南

    本文深入探讨了知识图谱的构建全流程,涵盖了基础理论、数据获取与预处理、知识表示方法、知识图谱构建技术等关键环节。 知识图谱,作为人工智能和语义网技术的重要组成部分,其核心在于将现实世界的对象和概念以及它们之间的多种关系以图形的方式组织起来。它不

    2024年02月22日
    浏览(43)
  • 一文梳理清楚 Python OpenCV 的知识体系

    本篇文章为你详细罗列 Python OpenCV 的学习路线与重要知识点。核心分成 24 个小节点,全部掌握,OpenCV 入门阶段就顺利通过了。 本部分要了解 OpenCV (Open Source Computer Vision Library)的相关简介,OpenCv 可以运行在多平台之上,轻量级而且高效,由一系列 C 函数和少量 C++类构成,

    2024年02月16日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包