架构设计内容分享(二百零一):什么是数据仓库的架构?企业数据仓库架构如何建设?

这篇具有很好参考价值的文章主要介绍了架构设计内容分享(二百零一):什么是数据仓库的架构?企业数据仓库架构如何建设?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

企业数据仓库架构

单层架构(直连)

两层数据架构(数据集市层)

三层架构(OLAP)

数据仓库数据库

1、采用传统关系型数据库,或经过功能扩展的MPP数据库

2、大数据平台架构:Hadoop+Hive

采集、收集、清洗和转换工具(ETL)

1、抽取

2、清洗

3、转化和加载

前端应用工具

1、数据查询和报表工具

2、BI即席分析工具

3、数据挖掘工具

4、应用开发


企业数据仓库架构

关于数据仓库,有一种简单粗暴的说法,就是“任何数据仓库都是通过数据集成工具连接一端的原始数据和另一端的分析界面的数据库”。

数据仓库用来管理企业庞大的数据集,提供转换数据、移动数据并将其呈现给终端用户的存储机制。许多架构方法以这样或那样的方式扩展数据仓库的能力,我们讲集中讨论最本质的问题,在不考虑过多技术细节的情况下,整个层次架构可以被划分为4层:

  • 原始数据层(数据源)

  • 数据仓库架构形态

  • 数据的采集、收集、清洗和转换

  • 应用分析层

架构设计内容分享(二百零一):什么是数据仓库的架构?企业数据仓库架构如何建设?,架构设计 内容分享,数据仓库内容分享,数据仓库,架构

开始之前给大家分享一份《数据仓库建设方案》,包含了数仓的技术架构、数仓建设关键动作、数仓载体/工具、配置参考、大数据场景支撑案例等内容。限时免费下载!

单层架构(直连)

大多数情况下,数据仓库是一个关系型数据库,包含了允许多维数据的模块,或者分为多个易于访问的多主题信息域,最简单的数据仓库只有一层架构。

单层架构就以为着数据仓库与分析接口直接连接(直连),终端用户可以直接查询。但简单有其弊端和适用性:

传统上数据仓库的存储从 100GB 起,直连可能会导致数据查询处理速度慢,因为要直接从数据仓库查询准确的数据,或者是准确的输入,过程中要过滤掉很多非必要数据,这对数据库以及前端BI工具的性能要求相当高,基本性能不会太高。

另外,在处理复杂维度分析时性能也受限,由于其缓慢性和不可预测性,很少应用在大型数据平台。要执行高级数据查询,数据仓库应该在低级实例下被扩展从而简化数据查询。

两层数据架构(数据集市层)

两层架构就是在前端应用层和 EDW 层增加了数据集市层。数据集市是包含特定主题域信息的低级别存储库。简而言之,它是一个在特定主题(例如销售、运营、市场等)下延伸了 EDW 的较小数据库。

这种方式解决了部门级数据查询和分析的问题,每个部门都更容易访问到所需数据,因为每个集市仅包含给定域信息,另外,数据集市限制了终端用户对数据的访问范围,设置了一道数据权限。但是创建数据集市层需要额外的硬件资源,并集成它与数据平台其他的数据库。

三层架构(OLAP)

在数据集市层之上,我们通常会使用联机分析(OLAP)处理多维数据集(cube)。OLAP 数据集是一类从多维度描述数据的特定数据库。关系型数据库只能表示二维数据,而 OLAP 允许在多维度下编译数据并且在维度之间移动。

OLAP专用于维度建模数据的分析,然后通过BI将OLAP的结果以图表的方式展现出来。

OLAP 的业务价值在于允许对数据进行切片、切片以多维度分析,以提供对所有企业数据或特定数据集市的访问,现在基本已成为主流的架构应用。

以下这张架构图使用最广泛的体系结构,它由顶层、中层和底层组成。

架构设计内容分享(二百零一):什么是数据仓库的架构?企业数据仓库架构如何建设?,架构设计 内容分享,数据仓库内容分享,数据仓库,架构

底层:数据仓库服务器的数据库作为底层,通常是一个关系数据库系统,使用后端工具将数据清理、转换并加载到该层。

中间层:数据仓库中的中间层是使用ROLAP或MOLAP模型实现的OLAP服务器。对于用户,此应用程序层显示数据库的抽象视图,这一层还充当最终用户和数据库之间的中介。

顶层:顶层是前端应用层,连接数据仓库并从数据仓库获取数据或者API,通常的应用包括数据查询、报表制作、BI数据分析、数据挖掘还有一些其他的应用开发。

从功能应用和技术架构来展开,以下是一张中大型企业的很详细的数据仓库架构图了。

架构设计内容分享(二百零一):什么是数据仓库的架构?企业数据仓库架构如何建设?,架构设计 内容分享,数据仓库内容分享,数据仓库,架构

数据仓库的4层核心组件:底层源数据库(数据存储方案)、ETL、前端应用、还有OLAP服务。

数据仓库数据库

底层的数据仓库服务器通常是一个关系数据库系统(各种表关联的sql统计会更方便一些,非关系型数据库目前在这方面还是有所区别)。常用的方案有Oracle、db2、sqlserve 还有essbase、greenplum、teredata等数据仓库专业解决方案。

1、采用传统关系型数据库,或经过功能扩展的MPP数据库

① 传统的关系型数据库有:oracle、mysql、DB2

② 大规模并行处理数据库:Vertica、Teradata(商业)、Greenplum (开源)

Teradata老江湖了,银行业使用较多,但成本也是真的贵,目前我们做项目较多的是用Greenplum,算是业界最快和最高性价比的高端数据仓库解决方案,Greenplum是基于PostgreSQL的,于2015年开源。我知道的国内四大行有3家在用,5大物流公司有4家在用,不少公司在从Teradata 迁移到 GP。

2、大数据平台架构:Hadoop+Hive

这套方案有多通用不用多说了,通常是这样的组合:TB级数据用PG,百TB级数据用GP,PB级i上数据用Hadoop。

下面整理了一张传统数据仓库架构、GP还有Hadoop大数据平台的对比图。

架构设计内容分享(二百零一):什么是数据仓库的架构?企业数据仓库架构如何建设?,架构设计 内容分享,数据仓库内容分享,数据仓库,架构

采集、收集、清洗和转换工具(ETL)

数据来源、转换和迁移工具用于执行将数据转换为数据仓库中的统一格式所需的所有转换、摘要和所有更改,它们也称为提取、转换和加载工具。其功能包括:

1、抽取

全量抽取:适用于数据量小且不容易判断其数据发生改变的诸如关系表,维度表,配置表等

增量抽取:适用于数据量大,为了节省抽取时间而采用的抽取策略

2、清洗

空值处理:将空值替换为特定值或直接过滤掉

验证数据正确性:把不符合业务含义的数据做统一处理

规范数据格式:比如把所有日期都规范成YYYY-MM-DD的格式

数据转码:把一个源数据中用编码表示的字段通过关联编码表转换成代表其真实意义的值

数据标准统一:比如在源数据中表示男女的方式有很多种,在抽取的时候直接根据模型中定义的值做转化。

3、转化和加载

转换:用ODS中的增量或者全量数据来刷新DW中的表

加载:每insert数据到一张表都可以称为数据加载

关于ETL工具的选型,这里罗列了一张对比表,基本囊括常用的ETL工具。

架构设计内容分享(二百零一):什么是数据仓库的架构?企业数据仓库架构如何建设?,架构设计 内容分享,数据仓库内容分享,数据仓库,架构

前端应用工具

数据仓库平台的搭建,最终是为了梳理出有用数据、提供有价值信息,帮助业务做出正确决策。

前端应用工具主要就是和数据仓库不同环节的数据交互,这些应用一般可以分为4类:

  • 数据查询和报表工具

  • BI即席分析工具

  • 数据挖掘工具

  • 各种基于数据仓库或数据集市的应用开发工具

其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。

1、数据查询和报表工具

通常用来生成一些固定类报表,自动化报表,支持打印和计算等大批量批处理作业。

流行的报表工具,在旧数据仓库时代主要是IBM的BO、Oracle的BIEE、还有微软和cognos,整体打包在数据仓库解决方案里,报表作为一个组件存在。但是随着传统型数仓,架构重成本贵,很多公司在项目上会自己考虑设计架构,而不是直接强套昂贵的解决方案,包括很多开源组件/平台的使用。

有关报表工具,现在项目上用的比较多的是帆软FineReport,针对不同企业数仓架构以及报表需求的适用性较广。比如对接各种数据库直接生成报表;对采集整理后的数据进行多维报表展现,支撑业务分析报表;对接集团性数据仓库,构建数据中心平台,形成决策分析平台。

架构设计内容分享(二百零一):什么是数据仓库的架构?企业数据仓库架构如何建设?,架构设计 内容分享,数据仓库内容分享,数据仓库,架构

2、BI即席分析工具

BI一般都集成了OLAP服务器和报表展示功能。分析型BI基于多维数据库的概念,能多维视角分析数据,通常是从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端BI分析工具读取。

BI在前端通过拖拽数据字段,多维度实施展现数据,最终生成各种分析报告。常用的BI工具有PowerBI、Tableau、FineBI,还有开源的superset。个人使用多用前两者,企业项目上选型多用FineBI,因为要考虑性能、服务方案等。剩余就是自研或者开源,superset算是比较公认的开源BI。

架构设计内容分享(二百零一):什么是数据仓库的架构?企业数据仓库架构如何建设?,架构设计 内容分享,数据仓库内容分享,数据仓库,架构

BI工具做什么的不多说了,在项目选型的时候主要考虑上手难度(考虑没技术基础的业务用),数据处理性能,其他就是技术选型的事,还有成本。

3、数据挖掘工具

OLAP是将数据多维视角呈现分析,数据挖掘则是应用的算法来揭示数据的规律性,比如相关性、模式和趋势等。数据挖掘工具就是做这个的,它能让一些算法和过程自动化。

举个例子,比如银行里数据仓库以面向“客户”为主题进行数据的存储,OLAP可以实现数据按照客户的基本信息、储蓄账户信息、历史余额信息、银行交易日志等,以报表或者可视化的方式呈现分析,多方面掌握客户动态,发现数据的问题,更好的针对不同类型用户进行特定性营销。而数据挖掘则是通过历史数据建立模型,在拟合历史的基础上,分析未来趋势,判断哪些因素的改变将很可能意味着客户的最终流失,进而避免其发生。

常用的数据挖掘工具,R、Python还有SPSS,基本都是开源个人可用的。和BI和报表不同,市面上少有为客户提供定制化数据分析和挖掘的商业工具或者项目服务,因为行业性太强,需要非常熟悉业务、数据、平台,所以我见过基本都是自己养数据分析团队或者挖这类的人才。

4、应用开发

以上报表型、分析型的数据产品,但也会有延申出来的各种特定业务的数据决策系统,比如银行业基于管理层监控的的行长驾驶舱、零售业基于门店数据经营的决策系统,以及电商平台的营销参谋(输入营销目标及参数,比如要开展双十一母婴市场的促销活动,系统可以基于以往海量数据计算出应该选择什么品类的商品,在什么用户群中,以什么形式开展活动效果会更佳),都是基于这样的逻辑——基于业务深度应用。此时数仓就是提供一个服务平台的角色,比如现在很火的数据中台也大体是这个逻辑,将数据服务化,具体不懂就不班门弄斧了。

这样的服务,当然需要自己开发。

在这三层之间其实还有中间层OLAP服务器,典型实现为ROLAP模型或MOLAP模型。现在很多成熟的BI工具都是集成了OLAP服务器的,所以通常我们只需要选择ETL工具以及存储方案和可视化BI方案即可,所以OLAP本文也就不多讲了。文章来源地址https://www.toymoban.com/news/detail-833451.html

到了这里,关于架构设计内容分享(二百零一):什么是数据仓库的架构?企业数据仓库架构如何建设?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 一百零一、Kettle——Kettle8.2.0本地连接Hive3.1.2(踩坑,亲测有效)

    这是目前遇到的最简单但最头疼的安装,因为是在公司之前用过的服务器上进行安装测试,加上又使用比较新的版本,结果踩了不少坑。Kettle连接Hive这个坑,从2023年4月11日下午开始,一致到2023年4月12日中午才弄好,不得不写篇博客记录一下这段难忘的经历。 真是郁闷了半天

    2024年02月07日
    浏览(47)
  • XUbuntu22.04之免费开源DesktopNaotu脑图(二百零七)

    简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏: Audio工程师进阶系列 【 原创干货持续更新中…… 】🚀 优质专栏: 多媒体系统工程师系列 【 原创干货持续更新中…… 】🚀 人生格言: 人生从来没有捷径

    2024年01月16日
    浏览(40)
  • XUbuntu22.04之删除多余虚拟网卡和虚拟网桥(二百零四)

    简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏: Audio工程师进阶系列 【 原创干货持续更新中…… 】🚀 优质专栏: 多媒体系统工程师系列 【 原创干货持续更新中…… 】🚀 人生格言: 人生从来没有捷径

    2024年02月04日
    浏览(47)
  • XUbuntu22.04之跨平台容器格式工具:MKVToolNix(二百零三)

    简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏: Audio工程师进阶系列 【 原创干货持续更新中…… 】🚀 优质专栏: 多媒体系统工程师系列 【 原创干货持续更新中…… 】🚀 人生格言: 人生从来没有捷径

    2024年02月04日
    浏览(41)
  • PCL点云处理之最小二乘空间直线拟合(3D) (二百零二)

    对于空间中的这样一组点:大致呈直线分布,散乱分布在直线左右, 我们可采用最小二乘方法拟合直线,更进一步地,可以通过点到直线的投影,最终得到一组严格呈直线分布的点,同时,这个结果也可以验证最小二乘拟合得到的直线参数是否正确,使用下面的代码可以得到

    2024年02月12日
    浏览(45)
  • 架构设计内容分享(四十一):100万级连接,爱奇艺WebSocket网关如何架构

    目录 100W级连接,爱奇艺WebSocket推送网关架构 1、旧方案存在的技术痛点 2、新方案的技术目标 3、新方案的技术选型 4、新方案的实现思路 4.1 系统架构 4.2 会话管理 4.3 监控与报警 5、新方案的性能压测 6、新方案的实际应用案例 7、总结 HTTP 协议属于一种无状态、基于 TCP 的请

    2024年01月23日
    浏览(49)
  • 架构设计内容分享(一百九十五):揭秘微服务容错处理技术

    目录 容错处理 01 超时控制 02 熔断机制 03 重试机制 04 负载均衡与故障转移 05 服务降级 微服务治理涉及多个方面,包括服务注册与发现、负载均衡、容错处理、服务配置管理等,这些技术共同确保微服务架构的稳定运行。 在微服务架构中,容错处理技术是确保系统高可用性

    2024年02月21日
    浏览(61)
  • 架构设计内容分享(一百三十六):Spring AI 项目简介

    目录 1、概览 2、Spring AI 的主要概念 2.1、高级的 Prompt 和 AiResponse 3、Spring AI 入门 4、Spring AI 实践 4.1、在 Spring Boot 中注入 AiClient 4.2、使用 PromptTemplate 配置查询 5、Error 处理 6、总结 Spring 通过 Spring AI 项目正式启用了 AI(人工智能)生成提示功能。本文将带你了解如何在 Spri

    2024年02月22日
    浏览(49)
  • 架构设计内容分享(一百三十三):ES+Redis+MySQL高可用,如何试实现?

    目录 背景: ES 高可用方案: ES 双中心主备集群架构 ES 流量隔离三集群架构 ES 集群深度优化提升 会员 Redis 缓存方案: ES 近一秒延时导致的 Redis 缓存数据不一致问题的解决方案 Redis 双中心多集群架构 高可用会员主库方案: MySQL 双中心 Partition 集群方案 会员主库平滑迁移方

    2024年02月22日
    浏览(49)
  • 数据仓库内容分享(十七):Doris实践分享:它做了哪些架构优化和场景优化?

    Apache Doris是一款开源的实时数据仓库,由百度旗下的技术团队开发。它具有高性能、高可靠性、易扩展等特点,能够满足大规模数据实时查询和分析的需求。目前,Apache Doris已经成为国内外众多企业的首选数据仓库解决方案,包括阿里巴巴、美团、京东、滴滴等知名企业。

    2024年02月21日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包