“实时数仓”到底是什么?

这篇具有很好参考价值的文章主要介绍了“实时数仓”到底是什么?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、实时数仓、数据库、湖仓一体傻傻分不清?

确实,如果从一个初学者来说这些技术可能大家听起来会很容易觉得混淆,他们到底是什么样的一些关系?我为大家去简单的梳理一下。

1.大数据平台
我们先谈最基本的一个叫大数据平台,大数据平台是什么?大数据平台是一种利用大数据技术去解决数据问题的一种技术平台,也就是说它是一种技术的一些基本能力的集合,它并不一定是解决某一种具体的业务问题。比如说数据仓库就是我们解决数据的使用的某一个具体业务问题的一种产品,但是大数据平台它是个通用化的产品,那么这种通用化的产品可以解决数据的很多方面的诉求。我们可以通过大数据平台这个平台去自己灵活的组装成满足我们一个业务场景的一个具体的一个解决方案,它是这样的概念。也就是说大数据平台是一个通用化的技术平台。那么比较典型的比如像数据仓库领域,大家用得比较多的像过去我们用hadoop上面基于hive,现在我们可以看到很多的像input、procedure类似于clob这样的一些大数据平台,都可以解决我们一定数据的一些分析计算的问题。但是坦白讲大数据本身这个平台还是一个技术平台的定位,那么这是第一个。

2.数据中台
第二个我们再谈谈数据中台,可以说在过去的三到四年,数据中台是非常的火。国内也有一些初创的厂商,大家在做数据中台。数据中台是什么?我们要强调一点,数据中台其实并不是一个技术平台,它是一种业务平台,也就是说数据中台是把我们企业内部的数据服务通过业务的方式重新组织之后,为我们的前端业务系统提供支撑的一类平台。所以说这里边我们的数据的中台,可能更多的是面对于我们的业务侧解决我们的业务问题,那么它的底层会依赖于一些基础的技术。比如说我们可以基于一个大数据平台之上去构建出自己的数据中台或者是基于其他的一些技术组合去做我们的底层技术,去支撑我们的数据中台。但是从中台本身这个概念来讲,它并不是解决技术问题的,它是为了解决我们企业的数据业务问题。

3.数据湖
第三个是数据湖,数据湖的概念相对来说比数据仓库的概念要稍微晚一点。它的出现是为了解决什么样的问题呢?就是过去我们对于数据是一种非常标准化的,非常规格化的,做好了数据建模的一种组织形式。那么我们现在也看到,有更多的一些数据他们是没有严格按照我们的数据建模的,或者说他们是非常零散的,散落在各处的,非常的多模,存在不同的这种数据存储形式的这样一些数据。这些数据在过去是没有办法很好的把它组织管理起来的,后来因为大家有了这样的一些诉求就出现了数据湖技术。通过这个名字大家也可以看到数据湖是数据湖,它的含义就是像一个湖一样,把我们企业内部的散落在各处的数据能够集中在一起,然后我提供一定的数据的计算加工的这样一些能力,这是我们讲的数据湖。

那么数据湖和我们的数据仓库在之前是有一种对应的关系的。数据仓库更强调的是这种建模的,比较规整的,比较严格按照一个规范要求去预设好的这样一些条件的数据。那么这些数据往往存在我们数据仓库里面,它的计算查询的效率会更高一点,数据湖更涉及到没有做过这种很好的一些标准化的一些数据。所以这两个是有一种互补的关系。当然,从企业来讲,我现在存在着两个数据不同的载体,我的很标准的,预建模好的,很标准化的计算数据在我们的数据仓库里面。但是呢,还有一些数据湖的数据是非常散乱的。那么有没有一个数据的统一视角呢?这个时候就出现了我们的湖仓一体的这个技术。

4.湖仓一体
湖仓一体的技术就是融合的数据湖和数据仓库这两种技术,提供了一种大一统的一个解决方案。从更高的维度去看待我们企业内部的数据。所以说湖仓一体是提供了一种更全局的一个视角去看待我们的数据。

5.实时数仓
那么今天我们谈到的实时数据仓库实际上就是从另外一个角度去谈,对我们数据仓库中的实时性部分的需求做了特殊加强的一种技术平台,它提供的是我们对于实时数据仓库领域里面,对于那种需要我们的数据的采集计算加工处理,实现要求很高的一些领域的一种特有的一种技术,所以它也是一种技术名词。
“实时数仓”到底是什么?

二、到底什么才是实时数仓?

众所周知,数据仓库是一种非常久远的技术,从上世纪80年代到现在发展的已经有三、四十年的历史了。过去数据仓库主要是解决我们的一些离线问题,现在我们也看到越来越多的企业把数据仓库用在一些实时领域,就产生了所谓的实时数仓这样的一个概念。那为什么会有这样的一些需求呢?更多的是来自于我们企业对于数据实时性的要求,已经慢慢的变得更加重要,甚至在某些情况下会大于我们数据分析的价值。这个时候就凸显了我们实时数仓的一个意义。这里面我们看到现在有很多的技术去支撑我们的数据仓库,包括大家现在耳熟能详的像数据湖、湖仓一体以及云原生数仓等等很多的概念,他们跟实时数仓有什么样的关系呢?今天我们在这个场合会跟大家共同去探讨数仓技术以及实时数仓能给我们企业带来什么样的不同,什么样的价值。

实时数据仓库经历了哪几个重要发展阶段?从底层架构来看,实时数仓和离线数仓的最根本区别是什么?到底是哪些关键技术让实时数仓“梦想照进现实”?

三、先来看第一个问题就是数据仓库的发展

我之前也讲到数据仓库从上世纪80年代到现在三四十年的历史发展之中,数据仓库大概经历了几个阶段:
从早期的离线数仓,它解决了我们企业数据的分析基本问题,从原有的交易性数据库很难满足我们分析的诉求;离线的数仓提供了一种一定的数据规模下的数据分析的能力;现在随着我们对于数据实时要求性比较高,后面出现了一些实时数仓分支的技术。比如大家现在比较熟知的像Lambda架构、Kappa架构,这些架构的出现更多的是为了满足我们数据在实时处理、实时查询方面的一些诉求,这也是我们实时数仓的一个雏形。到了现在我们可以看到数据仓库在更多的领域得到了一些使用。刚才谈到的这些Lambda架构包括Kappa架构,也在很好的程度上去解决了实时的问题。当然了,我们现在有了更好的一些技术来去满足我们的实时数仓。

我们从本质上来看实时数仓和我们的离线数仓有什么样的区别呢?从这个名字上可以很容易的区分:一个是离线;一个是实时,这是它的最本质的差别。离线数仓是指我们的整个数据的获取、加工、处理、计算的整个流程是在离线的形式上,也就是说不是一个online在线的方式。实时数仓就反知它是提供了一种在线的实时的一个能力,这是两者最大的区别。正是有这个区别,使得我们实时数仓能够解决我们很多的业务场景中,过去用离线数仓无法满足的一些对数据实时性要求很高的场景,都可以用实时数仓去解决。

现在有什么样的技术去解决这样的问题呢?包括我们之前谈到的关于Lambda、Kappa这样的架构。其实它的背后都是我们的流式处理架构的一些发展,包括现在我们也有了一些像云数仓通过云端的基础设施对我们提供了很好的平台。包括也有一些像AI与数仓的结合,也包括一些其他的领域,其实这些技术的诞生都为我们的实时数仓做好了一些铺垫。

当然我们讲到传统数仓的技术对现有的实时数仓仍然具有很大的支撑的意义,包括比较典型的像MPP的架构,在我们实时数仓当中仍然是主流的实现的技术。可以说,正是这样的一些新兴技术和我们离线数仓既有的一些技术基础,共同打造为我们的实时数仓奠定了很好的技术基础,也为整个实时数仓未来的发展会起到很好的助力。

四、针对当前的传统企业,特别是金融企业,实时数据仓库的建设情况如何?对实时数据分析的需求,到底如何?

可以说实时数仓是一个跨领域、跨行业的一种基础技术,在不同的领域都能得到很好的应用发展。针对我们传统企业,以金融业为代表,他们其实对于数据有着更高的要求。我之前也是一名金融行业的从业者,金融行业素以数据应用高地著称,他们对于数据的严谨性、实时性的要求会非常的严格和苛刻。其实实时数仓的技术,对于金融行业会带来很非凡的意义。我们知道金融对我们数据要求会比较严格,在过去很多的金融场景受限于我们底层的技术,是没有办法很好的去实现的。现在有了实时数仓,其实对于金融业来说会有一些新的业务的突破。比如像我们比较常见的像实时的风控、反欺诈包括实时营销、在线分析等等很多的领域,正是因为有了实时数仓的出现能为金融行业去做了很好的基础,能够满足于一些金融行业更多的新的业务形态的诉求。除了金融行业之外,其他的一些企业包括像物流、制造业、游戏、电商等等等等很多的行业领域,他们对于数据的实时性要求都有其各自的特点。那么实时数仓的出现也为这些行业打开了一个新的一种业务的发展的可能性。

所以我说实时数仓在各个行业领域都会有着比较好的发展,当然受限于不同的行业发展阶段,实时数仓在不同行业的发展也有所差异。文章来源地址https://www.toymoban.com/news/detail-475528.html

到了这里,关于“实时数仓”到底是什么?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 看这篇就明白大数据实时数仓、离线数仓、数据湖之间的关系

      20世纪70年代,MIT(麻省理工)的研究员致力于研究一种优化的技术架构,该架构试图将业务处理系统和分析系统分开,即将业务处理和分析处理分为不同层次,针对各自的特点采取不同的架构设计原则,MIT的研究员认为这两种信息处理的方式具有显著差别,以至于必须采取完

    2024年02月08日
    浏览(48)
  • 大白话讲解数据库的三级模式及二级映像(所谓的内外模式在生活中到底是什么东西?)

    形象一点来说,把数据看做货物,数据库是仓库,模式就是表格。 你有一个仓库,仓库里成千上万的货物,随便你怎么堆,你堆个正方体,堆个圆柱体,甚至随便乱堆都行,你怎么堆的叫内模式。 完事你写了一张表,表上对全部货物按某个标准分类,而且标清了啥货物在哪

    2024年02月07日
    浏览(48)
  • 医院核心数据库一体化建设实践

    “以数据为核心资源的数字化时代,正在成为引领和推动新一轮科技革命的核心力量,将会深刻影响卫生健康行业。” 这是四月份发布的《公立医院运营管理信息化功能指引》中对数据重要性的描述。数据库作为数据的载体,支撑着整个业务系统,发挥着非常重要的作用,被

    2023年04月24日
    浏览(59)
  • 数据库到底该如何优化?

    目录 一、硬件和操作系统层面的优化 二、整体架构设计层面的优化 三、MySQL程序配置优化 四、SQL语句优化 一、硬件和操作系统层面的优化 从硬件层面来说,可以通过对 CPU、硬盘内存 、 网络带宽 来优化。 从操作系统来说,可以优化操作系统 网络配置 。一般都是由运维工

    2024年02月04日
    浏览(45)
  • CloudQuery一体化数据库SQL操作安全管控平台

    💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ! 导读 CloudQuery作为业界领先的面向企业的数据库安全解决方案,CloudQuery致力于打造一站式安全可靠的数据操作平台,旨在帮助企业安全、高效地使用数据库,提升研发与DBA、运维的协作效率,为企业核心数据提供更安全

    2024年02月08日
    浏览(54)
  • 阿里云:加大NoSQL数据库软硬件一体化技术自研

    简介: 8月25日,在天池平台与阿里云数据库事业部联合主办的阿里云NoSQL数据库峰会上,阿里云公布NoSQL数据库自研2.0计划,进一步加大软硬件一体化技术体系的自研力度,通过聚焦软硬协同、多模融合、云原生三大方向,提升云原生内存数据库Tair、云原生多模数据库Lindor

    2024年02月03日
    浏览(48)
  • MySQL数据库精选(从入门使用到底层结构)

    DDL: 数据定义语言,用来定义数据库对象(数据库、表、字段) DML: 数据操作语言,用来对数据库表中的数据进行增删改 DQL: 数据查询语言,用来查询数据库中表的记录 DCL: 数据控制语言,用来创建数据库用户、控制数据库的控制权限 数据定义语言 数据库操作 查询所有数据

    2024年02月19日
    浏览(52)
  • 数据库update语句到底是行锁还是表锁?

    先说结论: 无索引的情况下,如果不走主键,那么update为表锁;有索引的情况下,走索引或者走主键(效果一样),那么update变为行锁。 大致把问题分为两种情况:有索引或者没有索引 先建一个没有索引的表,模拟一些数据,并且把事务自动提交关掉。 我们先在第一个查询

    2023年04月09日
    浏览(53)
  • 分布式数据库HBase,它到底是怎么组成的?

    原文链接:http://www.ibearzmblog.com/#/technology/info?id=8ac4902f82f525e1456624d5d7a545dc 大数据的核心问题无非就是存储和计算这两个。Hadoop中的HDFS解决了数据存储的问题,而HBase就是在HDFS上构建,因此Hbase既能解决大数据存储的问题,又能解决数据实时查询的问题。 HBase是一个高可靠、高

    2024年02月16日
    浏览(38)
  • 【PostgreSQL 数据库线下沙龙(武汉站)】PieCloudDB:云原生分布式虚拟数仓的诞生之旅...

    2023年6月3日,开源软件联盟 PostgreSQL 中文社区在武汉举办了技术沙龙活动。本次活动主题围绕未来数据库展开讨论和分享。通过探讨未来数据库的概念和特点,为智能化时代的发展提供更多的支持和服务。同时,通过探讨数据库和AI技术的共生共荣,推动数字经济的发展和创

    2024年02月11日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包