数据中台、数据平台、数据湖、数据仓库傻傻分不清楚?带你一文理清

这篇具有很好参考价值的文章主要介绍了数据中台、数据平台、数据湖、数据仓库傻傻分不清楚?带你一文理清。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

随着数字经济蓬勃发展,数字化转型步伐不断加快,大数据技术的不断更新与迭代,数据技术加速创新融合应用,在数字化发展的不同阶段,数据管理工具历经了从数据库、数据仓库、数据集市与数据湖,再到大数据平台与如今的数据中台的发展历程。大数据平台、数据湖、数据仓库和数据中台都不是某一个数据库或者一种数据库,在每个发展阶段的数据产品并不是后一阶段简单的代替了前一阶段,也不是说必须要有固定的技术栈和实施路线。准确的讲,它们都有自己的功能、特点所在。

近年来,不断快速迭代的业务模式,急速膨胀的数据量,还有新的大数据、云原生、人工智能等技术发展和数字化转型加速的多重因素驱动下,数据产品实现了从数据库、数据仓库、数据集市与数据湖,再到大数据平台与如今的数据中台的发展,在发展过程中实现了技术的迭代与互补,让数据产品与业务场景耦合越来越深。

相信大家对各数据产品概念有了一个初步印象,下面就数据、大数据、数据库、数据仓库、数据集市、数据湖、大数据平台、数据中台等概念详细为大家进行介绍。

一、数据和大数据

什么是数据?

在《数据库系统概论(第5版)》给出的定义是:数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。在计算机科学中,数据是所有能输入计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。

什么是大数据?

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

海量的数据规模(Volume),大数据所采集、存储和计算的数据规模都非常大,大数据量通常以TB、PB、甚至EB为单位计量。这些数据来自多个来源,包括传感器、社交媒体、日志文件等。

快速的数据流转(Velocity),大数据强调数据处理的实时性和时效性,大数据的生成速度非常快,需要实时或近实时地进行处理和分析。例如,金融交易数据、传感器数据等都需要及时响应和处理。

多样的数据类型(Variety),大数据的种类和来源多样化,不仅包含结构化数据(如表格数据),还包括非结构化数据(如文本、图像、音频等)。

较低的价值密度(Value),大数据的价值密度相对较低,数据的价值密度和数据的规模呈反相关,数据的规模越大,数据的价值密度越低。

我们再往深处思考一下,为什么需要大数据(大数据技术)?在这个数据爆炸增长的时代,大数据就是在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据最大的价值即在于从大量低价值密度数据中挖掘出对分析和预测等有价值的信息。

二、数据分析与数据挖掘

什么是数据分析?

数据分析可以分为广义的数据分析和狭义的数据分析。广义的数据分析就包括狭义的数据分析和数据挖掘。我们在工作中经常常说的数据分析指的是狭义的数据分析。数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

什么是数据挖掘?

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

三、什么是数据库?

简单来说就像冰箱是存放食物的地方一样,数据库是存放数据的地方。数据库是按照数据结构来组织、存储和管理数据的仓库,是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。一般而言,我们所说的数据库指的是数据库管理系统,并不单指一个数据库实例。数据库管理系统一般分为“关系型数据库”与“非关系型数据库”。

关系型数据库

过去数据库一共有三种模型,即层次模型,网状模型,关系模型。

(1)首先层次模型的数据结构为树状结构,即是一种上下级的层级关系组织数据的一种方式;

(2)网状模型的数据结构为网状结构,即将每个数据节点与其他很多节点都连接起来;

(3)关系模型的数据结构可以看做是一个二维表格,任何数据都可以通过行号与列号来唯一确定;

相比于层次模型和网状模型,关系模型理解和使用最简单,最终基于关系型数据库在各行各业应用了起来。常用的关系型数据库有Oracle,MySQL,DB2,Microsoft SQL Sever等。

非关系型数据库

非关系型数据库是以对象为单位的数据结构,非关系型数据库通常指数据以对象的形式存储在数据库中,而对象之间的关系通过每个对象自身的属性来决定。简单来说非关系型数据库与传统的关系型数据库的区别在于非关系型数据库主要存储没有固定格式的超大规模数据,例如键值对型,文档型,列存储类数据,常见的非关系型数据库有Hbase,Redis,MongoDB,Neo4j等

四、什么是数据仓库

随着时间的发展,各个业务系统会源源不断的产生数据,一般这些数据会存储在数据库中,但是当业务系统运行超过一定时间后,积压的数据会越来越多,这些数据增加了数据库的负载,拖慢了运行速度。积压的数据大部分是调用频率低的冷数据,为了避免冷数据与历史数据收集影响数据库正常运行,需要定期将冷数据从数据库中转移出来存储到一个专门存放历史数据的仓库里面,后续根据需要在这个仓库进行数据抽取,也就是数据仓库。

数据仓库诞生于 1990 年,是一个相对具体的功能概念,见名知意,其实就是存储数据的仓库,数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策和信息的全局共享。其主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,分析出有价值的资讯。

面向主题(Subject Oriented):用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。

集成(Integrated):数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理将各种数据源的数据按照统一的标准集成于数据仓库中,因此数据仓库中的信息是关于整个企业的一致的全局信息。

相对稳定(Non-Volatile):数据仓库的数据是一系列的历史快照,主要为决策者分析提供数据,一般仅允许查询,不允许修改删除,数据仓库的数据仅定期需要由业务数据库转移,加载,刷新。

反映历史变化(Time Variant):数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

五、什么是数据集市?

数据集市(Data Mart),也叫数据市场,就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。所以数据集市的特点在于结构清晰,针对性强且扩展性良好,由于仅仅对某一个领域建立,容易维护修改。

从范围上来说,数据集市的数据是从数据库,或者是更加专业的数据仓库中抽取出来的。数据集市分为从属的数据集市与独立的数据集市:

独立型数据集市:数据来自于操作型数据库,是为了满足特殊用户而建立的一种分析型环境。开发周期一般较短,具有灵活性,但是因为脱离了数据仓库,独立建立的数据集市可能会导致信息孤岛的存在,不能以全局的视角去分析数据。

从属型数据集市:数据来自于企业的数据仓库,这样会导致开发周期的延长,但是从属型数据集市在体系结构上比独立型数据集市更稳定,可以提高数据分析的质量,保证数据的一致性。

六、什么是数据湖?

目前许多企业都在构建或者计划构建自己的数据湖,各方对数据湖都有自己的理解与定义。

1、Wikipedia

数据湖是一类存储数据自然/原始格式的系统或存储,通常是对象块或者文件。数据湖通常是企业中全量数据的单一存储。全量数据包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据,各类任务包括报表、可视化、高级分析和机器学习。数据湖中包括来自于关系型数据库中的结构化数据(行和列)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如email、文档、PDF等)和二进制数据(如图像、音频、视频)。数据沼泽是一种退化的、缺乏管理的数据湖,数据沼泽对于用户来说要么是不可访问的要么就是无法提供足够的价值。

2、亚马逊AWS

数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

3、微软

数据湖包括一切使得开发者、数据科学家、分析师能更简单的存储、处理数据的能力,这些能力使得用户可以存储任意规模、任意类型、任意产生速度的数据,并且可以跨平台、跨语言的做所有类型的分析和处理。数据湖在能帮助用户加速应用数据的同时,消除了数据采集和存储的复杂性,同时也能支持批处理、流式计算、交互式分析等。数据湖能同现有的数据管理和治理的IT投资一起工作,保证数据的一致、可管理和安全。它也能同现有的业务数据库和数据仓库无缝集成,帮助扩展现有的数据应用。

数据湖的特性关于数据湖的定义其实很多,但是基本上都围绕着以下几个特性展开。

1、数据湖需要提供足够用的数据存储能力,这个存储保存了一个企业/组织中的所有数据。

2、数据湖可以存储海量的任意类型的数据,包括结构化、半结构化和非结构化数据。

3、数据湖中的数据是原始数据,是业务数据的完整副本。数据湖中的数据保持了他们在业务系统中原来的样子。

4、数据湖需要具备完善的数据管理能力(完善的元数据),可以管理各类数据相关的要素,包括数据源、数据格式、连接信息、数据schema、权限管理等。

5、数据湖需要具备多样化的分析能力,包括但不限于批处理、流式计算、交互式分析以及机器学习;同时,还需要提供一定的任务调度和管理能力。

6、数据湖需要具备完善的数据生命周期管理能力。不光需要存储原始数据,还需要能够保存各类分析处理的中间结果,并完整的记录数据的分析处理过程,能帮助用户完整详细追溯任意一条数据的产生过程。

7、数据湖需要具备完善的数据获取和数据发布能力。数据湖需要能支撑各种各样的数据源,并能从相关的数据源中获取全量/增量数据;然后规范存储。数据湖能将数据分析处理的结果推送到合适的存储引擎中,满足不同的应用访问需求。

8、对于大数据的支持,包括超大规模存储以及可扩展的大规模数据处理能力。

七、什么是大数据平台?

大数据平台是一个集数据接入、数据处理、数据存储、查询检索、分析挖掘等、应用接口等功能为一体的平台。最典型的是基于Hadoop生态构建的大数据框架,Hadoop生态的相关产品包括Spark、Flink、Flume、Kafka、Hive、HBase等等等经典开源产品。国内绝大部分公司的大数据平台都是基于Apache和Cloudera这两个分支Hadoop生态技术的产品进行商业化包装和改进。例如:阿里云EMR、腾讯TBDS、华为FusionInsight、新华三DataEngine、浪潮Insight HD、中兴DAP等产品。

大数据平台当然也不局限于某一个大数据框架,可以根据实际业务需求去选择合适的技术组件进行整合,是一个物理存在的平台,为数据仓库、数据湖、数据中台的构建提供基础支撑。

八、什么是数据中台?

阿里巴巴于2017年云栖大会正式对外提出数据中台概念,数据中台的出现,就是为了弥补数据开发和应用开发之间,由于开发速度不匹配,出现的响应力跟不上的问题。狭义来看,数据中台是一套实现数据资产化和服务复用的工具,是数据采集交换、共享融合、组织处理、建模分析、管理治理和服务应用于一体的综合性数据能力平台,在大数据生态中处于承上启下的功能,提供面向数据应用支撑的底座能力。广义来看数据中台是一套可持续“让企业的数据用起来”的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑构建一套持续不断把数据变成资产并服务于业务的机制。

在大数据技术发展和企业数字化转型加速的双重驱动下,数据中台在多场景快速落地。从厂商类型来看,阿里云、华为云、腾讯云、亚马逊云等平台生态厂商,用友、金蝶、新华三、浪潮、明略科技、星环科技等解决方案厂商,网易数帆、数澜科技、云徒科技等独立中台厂商以及滴滴、美团等自研厂商的边界开始模糊,数智服务的生态协同明显。

九、数据产品的区别与联系

数据库与数据仓库的区别与联系

解释数据库与数据仓库的区别,这里引入两个名词OLTP(On-Line Transaction Processing,联机事务处理)与OLAP(On-Line Analytical Processing,联机分析处理)。数据库是为了解决OLTP而存在的,而数据仓库是为了分析数据而存在的。严格来讲数据仓库不是一门技术,也不是一个产品,数据仓库涉及数据建模,数据抽取ETL,数据可视化等一系列的流程,是一种数据解决方案,通常需要多种技术进行组合使用。

数据库的数据是数据仓库的数据源,即将数据库的数据加载至数据仓库,数据仓库的本质是OLAP,即是做在线分析处理,这是与数据库的本质区别。对于一个业务系统而言,数据库是必须的,数据仓库并不是必须的,只有在业务稳定运转的情况下,才会去构建企业级数据仓库,通过数据分析,数据挖掘来辅助业务决策,实现锦上添花。

数据仓库与数据集市的区别与联系

数据仓库和数据集市在规模、数据处理的速度和复杂性、以及数据的范围方面存在明显的差异,数据仓库是一个大型的、集中的、一体化的数据存储系统,用于存储和处理来自多个源的数据。数据仓库的目标是支持企业的决策制定和战略执行。而数据集市,则是一个更小型的、针对特定业务部门或主题的数据存储系统。而且,两者的构建和使用方式也有所不同,数据仓库通常由企业级的技术团队进行构建和维护,数据集市则更多地依赖于特定的业务部门或主题专家。

数据湖与数据仓库的区别与联系

数据仓库和数据湖的重大区别是:数据仓库中数据在进入仓库之前需要是事先归类,以便于未来的分析。数据仓库是高度结构化的架构,数据在转换之前是无法加载到数据仓库的,用户可以直接获得分析数据。而在数据湖中,数据直接加载到数据湖中,然后根据分析的需要再转换数据,数据湖拥有强大的信息处理能力和处理几乎无限的并发任务或工作的能力。

从产品形态上来说,数据仓库往往是独立标准化的产品,数据湖更像是一种架构指导,是一套产品组合的解决方案——需要配合一系列的周边工具,来实现业务需要的数据湖。

数据中台、数据平台、数据仓库和数据湖的区别与联系

数据中台、数据平台、数据仓库和数据湖在某个维度上为业务产生价值的形式有不同的侧重,总的来说:

数据中台是企业级的逻辑概念,体现企业数据向业务价值转化的能力,距离业务更近,能够更快速的响应业务和应用开发需求,从而为业务提供速度更快的服务。

数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集。

数据仓库是一个相对具体的功能概念,是存储和管理一个或多个主题数据的集合。

数据湖与数据仓库相比,数据湖缺乏结构性,可存储任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)的原始数据,具有更高的敏捷性。

十、总  结

本文对数据、大数据、数据库、数据仓库、数据集市、数据湖、大数据平台、数据中台等概念的发展历程、定义、应用场景、区别与联系进行详细介绍,帮助大家更好的理解和掌握大数据领域相关概念,方便以后的学习与工作。

如果您公司对业务场景选择云产品架构有疑问,可找专业的架构老师帮您解答疑惑。我们公司孙女士(136-0304-8836)从事云服务6年多,有专业的技术团队。好的优惠政策是我们的优势,但不是我们的标签!竭力为您提供更优质的服务以及更优惠的上云方案。文章来源地址https://www.toymoban.com/news/detail-858355.html

到了这里,关于数据中台、数据平台、数据湖、数据仓库傻傻分不清楚?带你一文理清的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • VR、AR、MR 傻傻分不清楚?区别的底层逻辑?

    VR是一种能够制作虚拟物体并与人互动的基础技术。它与操作者所处的环境无关。 AR可以让在特定位置出现或消失。 MR可以让虚拟物体与真实物体进行互动。 AR和MR的大部分应用场景都是随机的,所以硬件基本都采用手机和眼镜。提升了便携性。牺牲了性能。这就导致了AR与

    2024年02月11日
    浏览(40)
  • VR、AR、MR、CR,虚拟现实傻傻分不清楚

    感觉不知道什么是VR就OUT了 其实除了VR之外,还有AR、MR、CR等外形类似 技术含量更高的头戴式设备,那么问题来了,这些*R们有哪些区别?   vr是由美国VPL公司创建人拉尼尔(Jaron Lanier)在20世纪80年代初提出的。其具体内涵是:综合利用计算机图形系统和各种现实及控制等接口

    2024年02月08日
    浏览(32)
  • 汽车虚拟ECU和MCU硬件虚拟化,傻傻分不清楚

    目录 1.概述 2.汽车虚拟ECU 3.汽车MCU虚拟化功能 4.小结 近几年,随着智能网联汽车普及,车型的更新迭代速度进一步提升,功能开发工程师希望在能够在硬件成型前验证软件功能,意味着汽车控制器的功能开发也在不断左移。 为此业内出现了对ECU进行虚拟化以加速开发的呼声

    2024年01月25日
    浏览(39)
  • 一文了解和区分数据中台、数据平台、数据湖、数据仓库

    在当今数字化时代,数据已经成为推动科技发展和商业创新的关键要素之一。数据中台、数据平台、数据湖和数据仓库是构建现代数据架构的重要组成部分。然而,这些概念之间往往容易混淆。本文将深入介绍并区分这些概念,通过生动的例子帮助读者更好地理解它们之间的

    2024年04月08日
    浏览(35)
  • 【Mysql 存储过程 Or 存储函数 傻傻分不清? 】

    MySQL的存储函数(自定义函数)和存储过程都是用于存储SQL语句的。但是什么时候用什么呢?是不是总是傻傻的分不清? 本文来详细的讲一下存储函数 和存储过程 ,以后再也不会迷糊。 MySQL的存储过程和函数都是一系列SQL语句的集合,调用时一次性执行这些SQL语句。但是它

    2024年02月09日
    浏览(31)
  • 迷不迷糊?前后端、三层架构和MVC傻傻分不清

    现在的项目都讲究前后端分离,那到底什么是前后端,前后端和以前的MVC以及三层架构啥关系呢?今天就这个问题展开一下,方面后面的学习,因为前面讲的jsp、servlet和javabean根据实例,基本上有一个框架的理解了,谁处理什么业务也大概清楚了,而且也提到了MVC这个东西,

    2024年03月08日
    浏览(43)
  • SAS硬盘和SATA硬盘傻傻分不清?不懂的看这里

    一、SAS SSD与SATA SSD的主要差异: 01 接口形态的差异 SAS(Serial Attached SCSI)即串行连接SCSI,和SATA(Serial ATA)相同,采用串行技术以获得更高的传输速度。SAS 具备2对收发通道,而SATA 仅有1对收发通道, SAS的接口技术可以向下兼容SATA,但SATA不可以反向兼容SAS接口。 SAS接口的设

    2024年02月04日
    浏览(59)
  • VR和AR傻傻分不清,一句话给你讲明白。

    不说废话,直接说结论,虚拟现实(Virtual Reality,VR)和增强现实(Augmented Reality,AR)。如果现实是A,虚拟是B,那么VR=B,AR=A+B,就这简单,不走弯弯绕,有兴趣的的往下看。 虚拟现实(Virtual Reality,VR)和增强现实(Augmented Reality,AR)是两种不同的技术和体验,它们在现实

    2024年02月22日
    浏览(47)
  • 让我看看,还有谁分不清楚GPT和Chat GTP

            GPT(Generative Pre-trained Transformer)是由OpenAI推出的一种基于Transformer的自然语言处理模型,它是在大规模的无监督语言预训练下,使用有监督微调的方式来完成各种自然语言处理任务的。GPT的训练数据主要来源于互联网上的大量文本,包括维基百科、新闻报道、小说等

    2024年02月11日
    浏览(28)
  • 数据中台及数据仓库设计

    数据中台建设深度好文 1.1:概述 数据是从业务系统产生的,而业务系统也需要数据分析的结果,那么是否可以把业务系统的数据存储和计算能力抽离,由单独的数据处理平台提供存储和计算能力?这样不仅可以简化业务系统的复杂性,还可以让各个系统采用更合适的技术,

    2024年02月07日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包