大数据背景和概念

这篇具有很好参考价值的文章主要介绍了大数据背景和概念。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、背景

1.岗位现状

大数据在一线互联网已经爆发了好多年,2015年-2020年(国内互联网爆发期)那时候的大数据开发,刚毕业能写Hive SQL配置个离线任务、整个帆软报表都20K+起步。如果做到架构师,50K跑不掉。现在市场回归理性后:

  • 普通岗:大数据/数仓开发,实际上除超一线城市之外,尚存很多大型企业转型期信息化、互联网(物联网IOT)还在发展,数据还在爆发式增长,仍大有可为。
  • 精英岗/管理岗:大数据总监/架构师,在重视数据的企业(一线互联网大厂、数据服务厂商),年包上百万也不少。

2.行业现状

数据架构在过去20年发展迅速,尤其是过去十年,几乎每年都有新概念、新产品开源出来。一些新名词爆发式展现出来:数据仓库、数据集市、大数据、离线数仓、实时数仓、时空数据库、数据中台、数据湖、流批一体、湖仓一体、实时湖仓、商业智能(BI)等等。

  • 数据精细化:从经营与分析转为数据化的精细运营,对数据要求过程化、粒度更细
  • 产品多样性:传统 BI 中的 Report、OLAP 等工具开始转向面向最终用户自助式、半自助的产品,来快速获取数据并分析得到结果。
  • 数据时效性:从 T+1 转为近乎实时的数据诉求。
  • 平台轻薄化:阿里自砍中台战略,把中台拆分到各条业务线部门独自负责。把中台变得轻薄,更贴近业务。数据只有贴近业务才能焕发活力。底层逻辑是某业务领域的中心化是推荐的,有价值的

3.本文目标

本系列文章不做源码级分析大数据框架,而是关注大数据的发展历史主流架构和原理、落地流程。可作为架构师对于大数据架构的扫盲贴。(笔者花了2月的时间阅读大量文章总结出来的,欢迎留言交流。)

二、概念解析

前面说了大数据领域出了很多概念:数据仓库、数据集市、大数据、离线数仓、实时数仓、时空数据库、数据中台、数据湖、流批一体、湖仓一体、实时湖仓。我们就来简单解析一下这些"专业名词",从概念上达成一致,有一个基本的定位。

大数据背景和概念,大数据

如上图所示,这些大数据领域的名词,我们可以分为2大类:1.数据服务架构相关   2.数据库、数仓相关。其中绿色角标标识具体概念的,黄色角标标识抽象概念的。

1.大数据:广义上的大数据概念,涵盖数据服务、数据仓库领域的概念。

1.数据服务架构相关

  • 数据中台:归属阿里三大中台战略。但2023年4月马云回国后,将公司按照业务线拆分,各付盈亏。同时中台也同步拆分到各业务中去,原中台只保留偏底层的少量系统。由此可见,中台会慢慢去中心化,大中台变部门小中台,更贴近业务,盘活数据。
  • Data Mesh数据网格:基于DDD领域驱动设计和服务网格思想的数据架构,可能会热度增加,但落地尚早(国内service mesh都还没热起来,按照惯性data mesh最少3年后再说)。

2.数据仓库架构相关

  1.具体概念

  • 数据库   按照数据结构来组织、存储和管理数据的仓库。
  • 数据仓库:抽取或导入结构化/半结构化数据,主要用于OLAP数据分析,支持管理决策。上世纪90年代,强制使用结构化数据+范式建模,构建EDW企业数据仓库
  • 数据集市:数据集市(Data Mart),也叫数据市场,是数据仓库的一个子集(部门级业务)。按照抽取方式可分为两类:1)独立型数据集市:直接从源数据抽取业务数据。2)从属型数据集市:从数据仓库/数据湖抽取。
  • 数据湖   :以原始类型存储数据的存储系统。倡导:先导入,后处理分析使用

  2.抽象概念(逻辑概念)

  • 离线数仓:数据仓库的延伸逻辑概念,描述的是批处理(离线计算)场景。
  • 实时数仓:数据仓库的延伸逻辑概念,描述的是实时处理(实时计算)场景。
  • 批流一体:  大数据的数据清洗ETL,可简单分为2类:批处理(离线任务)、流计算(实时计算)。批流一体讲究用一套技术方案实现2种目标。
  • 湖仓一体数据在数据湖和数仓中流动,兼具数仓的稳定性建模和数据湖的灵活特性。
  • 实时湖仓强调实时计算能力的湖仓一体架构。

2.1 数据库

 数据库是“按照数据结构来组织、存储和管理数据的仓库”。数据库有很多种类型适用不同业务场景,最常见的是关系型数据库、键值型数据库、时序数据库。

2.1.1 关系型数据库

支持事务ACID特性的数据库。常见的有Mysql、Oracle、PostgresSQL等。

2.1.2 非关系型数据库

  • 文档型数据库(Document databases):MongoDB。优点是对数据结构要求不特别的严格。而缺点是查询性的性能不好。
  • 键值型数据库(Key-value databases):Redis、Memcached,常用于缓存方案。
  • 数据库(Column-family databases):以列族的形式存储数据,如Apache Cassandra、HBase。优点是查询快速。缺点是数据结构有局限性。
  • 时间序列数据库(Time-series databases):专门用于存储时间序列数据,如InfluxDB、OpenTSDB。目前时序大数据存储场景很多,前景极大,处于上升期。

2.2 数据仓库

2.2.1 数据仓库

  数据仓库是Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

  • 面向主题的:根据使用者的需求,将来自不同数据源的数据围绕着各种主题进行分类整合。
  • 集成的:来自各种数据源的数据按照统一的标准集成于数据仓库中。
  • 相对稳定的:数据仓库中的数据是一系列的历史快照,不允许修改或删除,只涉及数据查询。
  • 反映历史变化的 :数据仓库会定期接收新的集成数据,从而反映出最新的数据变化。

2.2.2 数据仓库VS数据库

大数据背景和概念,大数据

2.2.3 企业数据仓库EDW

EDW也是一种数据仓库DW。上世纪90年代,使用结构化数据+3NF范式建模,构建EDW企业数据仓库

2.2.4 离线数仓

2003~2006年  Google发表了三篇论文:分布式文件系统GFS分布式计算框架MapReduce分布式存储系统BigTable。2006年,Hadoop正式面世。此后,以Hadoop技术栈为代表的离线数仓架构引领大数据发展了十多年。这时候的处理任务基本都是批处理任务。离线数仓特指:应对批处理(离线计算)场景的数据仓库。如下图所示:

大数据背景和概念,大数据

早期离线数仓使用离线计算引擎实现批处理数据。最常用的离线计算引擎就是Hive(Hadoop技术体系)。典型应用是定时任务跑批生成报表数据。

2.2.5 实时数仓

2014年,Flink为代表的实时计算风靡,基于Flink为计算引擎的实时数仓跃然纸上。实时数仓特指:应对实时处理(实时计算)场景的数据仓库。典型的实时数仓如下图所示:

 

大数据背景和概念,大数据

2.3 数据集市

数据集市(Data Mart),也叫数据市场,就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。

按照抽取方式可分为两类:

1)独立型数据集市:直接从源数据抽取业务数据。

大数据背景和概念,大数据

2)从属型数据集市:从数据仓库/数据湖抽取。

大数据背景和概念,大数据

数据仓库VS数据集市

大数据背景和概念,大数据

2.4 数据湖

2.4.1 数据湖

  随着互联网->移动互联网->IOT物联网 这一条商业智能发展线路的改变,产生了大量的照片、视频、文档等非结构化数据、时序数据。数据湖诞生了:允许用户以任意规模存储所有结构化和非结构化数据,并支持对数据进行快速加工和分析。用户可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析(从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

大数据背景和概念,大数据

2.4.2 数据仓库VS数据湖

数据仓库的成长性很好,而数据湖更灵活。数据仓库支持的数据结构种类比较单一,数据湖的种类比较丰富,可以包罗万象。数据仓库更加适合成熟的数据当中的分析和处理,数据湖更加适合在异构数据上的价值的挖掘。

大数据背景和概念,大数据

2.5 批流一体

2.5.1 概念

2020年,阿里巴巴实时团队提出“流批一体”的理念,期望依托Flink框架解决企业数据分析的3个核心问题,理念中包含三个着力点,分别是一套班子、一套系统、一个逻辑。

  1. 一套班子:统一开发人员角色,现阶段企业数据分析有两个团队,一个团队负责实时开发,一个团队负责离线开发,在流批一体的理念中,期望促进两个团队的融合。
  2. 一套系统:统一数据处理技术,不管实时开发,还是离线开发都是用Flink框架进行,如非必要,尽可能少用其它系统。
  3. 一个逻辑:当前企业数据分析,有两套班子,两套技术体系,两套计算模式,导致实时数据和离线数据经常对不上,期望通过Flink SQL的方式,让离线和实时计算逻辑保持一致。

2.5.2 三个方向

  1. 实时写HDFS+定时任务批计算:基于Flink Streaming Sink等相关技术,实现对HDFS文件系统的实时写入,通常将增量数据写入到数据仓库的ODS层,然后基于写入的数据进行半小时或一小时作业的调度配置
  2. 实时写/更新OLAP/SQL计算:基于Flink Stream/Flink SQL等相关技术,利用实时OLAP引擎提供的Upsert功能,将实时数据增量更新到OLAP引擎中,或者将实时数据加工成宽表后实时更新到OLAP引擎中,然后在OLAP引擎上使用SQL方式进行数据计算
  3. 基于Flink Stream/Flink SQL等相关技术,直接得到分析结果。

2.5.3 实践

  1. ODS层实时化方向:将Kafka的数据实时写入到HDFS,已经非常普及,成为数据入仓的重要手段。
  2. OLAP引擎实时方向
  • 1)商业化:阿里巴巴主要在推进 Flink + Hologres的解决方案。先通过Flink计算宽表,然后将数据写入到Hologres进行实时的聚合或点查操作。需要付费,注定无法大量推广了。
  • 2)非商业化:目前国内比较热门是 Flink + Drois 方案,类似的Flink + Kudu方案在国内的热度在下降(也可选择)。
  • 3)基于实时OALP引擎构建完整的数据仓库,包含ODS、DWD/DWS、ADS等分层模型,这个方案比价适合数据量较小的公司。

        3.单纯使用Flink框架的方向:主要是在尝试和探索Flink SQL在流数据、批数据上的效果。

2.6 湖仓一体

2.6.1 概念

  2020年,为提供一体化数据平台,一种新的开放式架构湖仓一体(Lakehouse)出现,它结合了数据湖和数据仓库的最佳元素,是新一代大数据分析的基础设施。现普遍认为美国大数据软件公司Databricks最先提出湖仓一体架构,他们将其定义为:一种结合了数据湖和数据仓库优势的新范式,直接在低成本存储的数据湖上实现与数据仓库类似的数据结构和数据管理功能。数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为公司进行数据治理带来更多的便利性。

  湖仓一体的实现路径主要有两种。一是在数据仓库的基础上实现数据湖的特性,一般方案是在数据仓库中建外部表,代表厂商是美国的Snowflake;二是在数据湖中提供与数据仓库中类似的数据结构和数据管理功能,一般方案是实现多版本并发控制等,代表厂商是美国的Databricks。两种实现路径均面临相同的问题,如数据如何打通、如何保证元数据一致性、湖和仓上不同引擎之间数据交叉的引用问题等等。

数据仓库->数据湖->数据湖仓(湖仓一体)的演变,示意图如下:

大数据背景和概念,大数据

2.6.2 特性

大数据背景和概念,大数据

湖仓一体架构解决了3个问题,增强了3个能力。

2.6.3 解决了3个问题

01  打通湖与仓库的壁垒,解决数据重复性问题。

  如果一个组织同时维护了一个数据湖和多个数仓,这无疑会带来数据冗余现象,严重时甚至出现数据口径不一致的问题。湖仓一体架构下,数据湖成为数据仓库的数据源,数据仓中的冷数据可以转移至数据湖低成本存储,许多数据管道通常可以同时读取和写入数据,保证使用SQL时数据的一致性,统一了口径并去除了重复性,可在企业级应用中支持事务一致性处理。

02  解决数据停滞问题(Data stagnation),更好实现数据治理。

  在数据湖中,数据停滞是最为严重的问题之一。用户轻易将大批量数据入湖,但如果没有专员进行维护和治理,很容易变成数据沼泽,最终导致海量数据无法赋能业务。湖仓一体的显著优点是可以对海量数据进行Catalog,这一特性更有效地帮助提升数据分析的时效性,支持数据的全生命周期追溯和管理。

03  实现存算分离,解决高昂成本问题。

   数据仓库多通过降低冗余或整合异构数据源来做到降低成本,但由于其计算与存储耦合,架构上的每个节点有计算资源和存储空间,数据会横向分布到各个节点之间,计算的时候每个节点都只需处理位于这个节点上面的数据。这种架构下不能弹性分配计算和存储资源,随着数据业务的快速增长,用户在计算、存储性能上的扩展需求往往不同步,计算性能通常仅需要在负载高峰期间扩展,而存储性能一般需要长期、线性扩展。此外,增加或减少节点后大量数据需重新排布,可能会造成节点频繁宕机。大部分数据仓库无法实现存算分离,所以成本高居不下

  数据湖通常使用大数据文件系统(如Hadoop HDFS)和Spark,在廉价的硬件上存储海量的数据,但对计算能力明显不足

  仓与湖相结合成为最性价比方式:湖仓一体架构实现存算分离,存储和计算分别使用单独的群集,这样系统能够扩展到更多并发用户和更大数据量,一些云服务厂商的数据仓库也逐渐考虑向这方面转变。

2.6.4 增强了3个能力

 1.流批一体保证实时处理:现在已经有越来越多的行业和技术领域需求大数据实时分析系统,例如金融行业需要使用大数据系统结合VaR (金融风险管理,value at risk) 或者机器学习方案进行信贷风控,零售、餐饮行业需要大数据系统实现辅助销售决策,各种IOT场景需要大数据系统持续聚合和分析时序数据等。湖仓一体支持端到端的流式计算,从而能够支持实时数据应用,用户不再需要专门服务于实时数据的应用程序,系统集成度更高。

 2.消除孤岛加强团队协作:数据分析师和数据科学家对数据的要求和数据存储介质的使用情况不同,数据分析师多使用数据仓库或数据集市来对已经分类的数据进行进一步处理和解读,而数据科学家与数据湖交际更多,他们多使用未经处理的海量数据来加以分析和建模。湖仓一体使得两个团队可以在同一数据架构上进行工作,避免不必要重复开发的同时。湖仓一体架构支持更多数据格式,用于各种工作场景和不同的团队,使用的存储格式是开放式和标准化的,如Parquet格式,支持强制的Schema以及数据治理,星型模型或者雪花模型均可。

 3.更好地支持AI和BI发展:更多的环湖服务(比如多维分析、预测分析、数据科学、机器学习、大数据处理、决策支持等)可以为整个业务带来价值。可以直接在源数据上使用BI工具

2.6.3 对比

大数据背景和概念,大数据

回到顶部(go to top)

三、未来展望

大数据背景和概念,大数据

上图展示了数据管理技术发展脉络。面向未来,以湖仓一体为代表的未来数据治理将呈现以下三点趋势:

1、多场景融合:加速向通用人工智能转型。

目前数据库市场定制化产品较多,随之而来的是较高的成本,一些拥有价值数据的中小企业很难采纳价格较高的“数据+AI”产品。随着数据存储产品的演变,通用型产品出现,更多商业化方案和赋能计划在数据的支撑下实现。

2、存算分离:为用户提供更多的使用选择。

传统方式下,存算高耦合,用户即使没有计算需求,但困于数据量庞大,仍需要支付高昂的存储费用。据观察,众多数据库厂商逐步向存算分离模式靠拢,通过解决弹性伸缩问题,以给用户最佳解决方案。

3、湖仓一体:成为新的数据基础设施底座,逐步实现海量大数据的联机交易和联机分析。

在数据分析领域,湖仓一体代表未来的发展趋势,同时也是全流程流批一体化的基础。这种架构下可以更好地应对 AI 时代数据分析的需求,在数据存储格式、数据处理和分析以及面向 AI 的演进等方面,显著领先于其他数据库。文章来源地址https://www.toymoban.com/news/detail-663905.html

到了这里,关于大数据背景和概念的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 本文将从云原生的概念、背景知识、Kubernetes架构及核心组件、应用场景、案例研究等方面深入剖析云原生课程的相关知识点

    作者:禅与计算机程序设计艺术 2020年,技术快速发展,云计算火爆。云原生领域也随之蓬勃发展。云原生已经成为大势所趋,大量企业都在逐渐转型云原生应用架构。国内外云服务厂商也纷纷推出基于Kubernetes的服务平台,而Kubernetes又是云原生开源技术体系的一部分。为了帮

    2024年02月07日
    浏览(46)
  • element table列表根据数据设置背景色

    效果 页面代码 通过 :cell-class-name 动态绑定类名 数据 js方法 直接写到 methods 中,列表绑定即可,不需要放到生命周期中。 css部分 不能使用 scope 作用域,否则背景色不生效 动态刷新列表数据关联列表背景色 当列表数据更改时,我们需要根据列表数据来动态判断列表是否高亮

    2024年02月13日
    浏览(32)
  • 《如何制作类mnist的金融数据集》——0.背景

    0 .背景        最近在金融人工智能领域进行了研究。由于金融领域数据集的欠缺,因此需要根据其领域中的各种数据的特征进行相应数据集的制作。        下图所示是一篇关于金融与预测的论文,题目为:《预测自动交易的财务信号:一个可解释的方法》。在这篇论文

    2024年01月16日
    浏览(29)
  • 「大数据集群的搭建和使用」背景知识:大数据Hadoop生态圈介绍

    目录 一、Hadoop简介 二、Hadoop的运行模式 1. 单机模式 2. 伪分布式模式 3. 完全分布式模式 三、Hadoop生态圈组件 1. HDFS 2. MapReduce 3. YARN 4. Hive 5. Pig 6. HBase 7. HCatalog 8. Avro 9. Thrift 10. Drill 11. Mahout 12. Sqoop 13. Flume 14. Ambari 15. Zookeeper 四、Hadoop优缺点 五、Hadoop学习路径 hadoop = MapReduce+

    2024年02月03日
    浏览(34)
  • Echarts折线图中数据根据正负数显示不同区域背景色-配置

      Echarts折线图中数据根据正负数显示不同区域背景色   Piecewise 分段类型 Continuous 连续类型

    2024年01月19日
    浏览(33)
  • 云计算实验4 面向行业背景的大数据分析与处理综合实验

    掌握分布式数据库接口Spark SQL基本操作,以及训练综合能力,包括:数据预处理、向量处理、大数据算法、预测和可视化等综合工程能力 Linux的虚拟机环境和实验指导手册 完成Spark SQL编程实验、交通数据综合分析平台环境部署和综合实验。 请按照实验指导手册,完成以下实

    2024年02月02日
    浏览(42)
  • 基于大数据背景下的全国各大城市地铁客流量分析

    目录 第一章 项目介绍 第二章 项目组织与项目计划 第三章 数据采集 3.1 数据采集目标 3.2 数据采集工具与方法 3.3 数据采集流程 3.4 数据采集保存 3.5 本章小结 第四章 数据预处理 4.1 数据预处理的目标 4.2 空值与重复值的处理 4.3 标点符号的处理 4.4 单位标准统一化 4.5 本章小结

    2024年02月11日
    浏览(42)
  • 【数仓基础(一)】基础概念:数据仓库【用于决策的数据集合】的概念、建立数据仓库的原因与好处

    数据仓库的主要作用: 数据仓库概念主要是解决多重数据复制带来的高成本问题。 在没有数据仓库的时代,需要大量的冗余数据来支撑多个决策支持环境。尽管每个环境服务于不同的用户,但这些环境经常需要大量相同的数据。 数据仓库的概念: 数据仓库描述为一个 面向主

    2024年02月10日
    浏览(29)
  • 数据结构——树的概念、二叉树的概念

    现在是北京时间的2023年6月7号15点28分,刚考完了一课期末考试,回到宿舍就立马准备发布这篇博客。距离完成本周复习指标还差两篇博客。加油! 树是一种非线性的数据结构,它是由n(n=0)个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的

    2024年02月08日
    浏览(33)
  • 【大数据】大数据相关概念

    大数据 :一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型以及价值密度四大特征。 Hadoop :是一个能够对大量数据进行分布式处理的软件框架,用户可以利用Hadoop生态

    2024年02月13日
    浏览(24)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包