数据模型篇之阿里巴巴数据整合及管理体系

这篇具有很好参考价值的文章主要介绍了数据模型篇之阿里巴巴数据整合及管理体系。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

第9章 阿里巴巴整合及管理体系

  OneData的设计是为了建设统一的、规范化的数据接人层( ODS )和数据中间层( DWD和DWS ),通过数据服务和数据产品,完成服务于阿里巴巴的大数据系统建设 ,即数据公共层建设。提供标准化的( Standard )、共享的( Shared )、数据服务( Service )能力,降低数据互通成本,释放计算、存储、人力等资源,以消除业务和技术之痛。

1. OneData体系架构

阿里数据管理标准,大数据之路书籍阅读,人工智能,大数据,云计算

  • 业务板块

由于阿里巴巴集团业务生态庞大,所以根据业务的属性划分出几个相对独立的业务板块,业务板块之间的指标或业务重叠性较小。如电商业务板块涵盖淘系、 B2B系和 AliExpess系等。

  • 规范定义

规范定义指以维度建模作为理论基础 构建总线矩阵,划分和定义数据域、业务过程、维度、度量 原子指标、修饰类型、修饰词、时间周期、派生指标

阿里数据管理标准,大数据之路书籍阅读,人工智能,大数据,云计算

名词术语 解释
数据域 指面向业务分析,将业务过程或者维度进行抽象的集合。其中,业务过程可以概括为一 个个不可拆分的行为事件,在业务过程之下,可以定义指标;维度是指度数据域的环境,如买家下单事件,买家是维度。为保障整个体系的生命力,数据域是需要抽象提炼,并且长期维护和更新的,但不轻易变动。在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响地被包含进已有的数据域中和扩展新的数据域
业务过程 指企业的业务活动事件,如下单、支付、退款都是业务过程。请注意,业务过程是一个不可拆分的行为事件,通俗地讲,业务过程就是企业活动中的事件
时间周期 用来明确数据统计的时间范用或者时间点,如最近 30 天、自然周、截至当日等
修饰类型 是对修饰词的一种抽象划分。修饰类型从属于某个业务域,如日志域的访问终端类型涵盖无线端、 PC端等修饰词
修饰词 指除了统计维度以外指标的业务场景限定抽象。修饰词隶属于一种修饰类型,如在日志域的访问终端类型下,有修饰词 PC 端、无线端等
度量/原子指标 原子指标和度自含义相同,基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名词 ,如支付金额
维度 维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度也可以称为实体对象。维度属于一个数据域,如地理维度(其中包括国家、地区、省以及城市等级别的内容)、时间维度(其中包括年、季、月、周、日等级别的内容)
维度属性 维度属性隶属于一个维度,如地理维度里面的国家名称、同家 ID 、省份名称等都属于维度属性
派生指标 派生指标= 一个原子指标+多个修饰词(可选)+时间周期。可以理解为对原子指标业务统计范围的圈定。如原子指标:支付金额,最近1天海外买家支付金额则为派生指标(最近1天为时间周期,海外为修饰词,买家作为维度,而不作为修饰词)
  • 模型设计

(1)指导理论

维度建模理论:基于维度数据模型总线架构,构建一致性的维度和事实。

(2)模型层次
阿里数据管理标准,大数据之路书籍阅读,人工智能,大数据,云计算

① 操作数据层(ODS)
功能:同步;结构化;累积历史、清洗
② 公共维度模型层(DM):明细数据层(DWD)+汇总数据层(DWS)
功能:组合相关和相似数据;公共指标统一加工;建立一致性维度
③ 应用数据层( DS )
功能:个性化指标加工;基于应用的数据组装

(3)基本原则

高内聚和低辑合
核心模型与扩展模型分离
公共处理逻辑下沉及单一
成本与性能平衡
数据可回滚
一致性
命名清晰、可理解

2.模型实施

  • 业界常用模型实施过程

(1)Kimball 模型实施过程

高层模型
详细模型
模型审查、再设计和验证
提交 ETL 设计和开发
参考:Ralph Kimball, The DataWarehouse Lifecycle Toolkit

(2)Inmon 模型实施过程

三个层次:
ERD (Entity Relationship Diagram ,实体关系图)层
DIS (Data Item Set 数据项集)层
物理层(Physical Model ,物理模型)
参考:Inmon, Building the Data Warehouse

(3)其他模型实施过程

业务建模,生成业务模型
领域建模,生成领域模型
逻辑建模,生成逻辑模型
物理建模,生成物理模型

  • OneData模型实施过程
    (1)指导方针

首先,在建设大数据数据仓库时,要进行充分的业务调研和需求分析。
其次,进行数据总体架构设计,主要根据数据域对数据进行划分;按照维度建模理论,构建总线矩阵、抽出业务过程和维度。
再次,对报表需求进行抽象整理出相关指标体系,使用 OneData 工具完成指标规范定义和模型设计。
最后,就是代码研发和运维。

(2)实施工作流
OneDatade的实施过程是一个高度迭代和动态的过程,一般采用螺旋式实施方法。
阿里数据管理标准,大数据之路书籍阅读,人工智能,大数据,云计算

① 数据调研
业务调研
需求调研
②架构设计
数据域划分
构建总线矩阵
③ 规范定义
主要定义指标体系,包括原子指标、修饰词、时间周期和派生指标。
④ 模型设计
主要包括维度及属性的规范定义,维表、明细事实表和汇总事实表的模型设计。文章来源地址https://www.toymoban.com/news/detail-613530.html

到了这里,关于数据模型篇之阿里巴巴数据整合及管理体系的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 阿里巴巴内部:全技术栈PPT分享(架构篇+算法篇+大数据)

    我只截图不说话,PPT大全,氛围研发篇、算法篇、大数据、Java后端架构!除了大家熟悉的交易、支付场景外,支撑起阿里双十一交易1682亿元的“超级工程”其实包括以下但不限于客服、搜索、推荐、广告、库存、物流、云计算等。 Java核心技术栈:覆盖了JVM、锁、并发、Ja

    2024年01月17日
    浏览(52)
  • [Vue]从数据库中动态加载阿里巴巴矢量图标的两种方式

    记录一次在Vue中动态使用阿里巴巴矢量图标库 这是本人第一次使用阿里巴巴的矢量图标库,简单的导入和使用的话网上的教程很多,这里不多赘述,本人的需求是从数据库中加载出来并且显示到页面上,接下来简述一下如何实现。 以下代码均是本人实际推敲、测试可用后写

    2024年01月20日
    浏览(41)
  • 阿里巴巴开源的免费数据库工具Chat2DB

    Chat2DB 是一款由阿里巴巴开源的免费数据库工具,它为开发人员提供了一个强大且易于使用的平台,用于存储和查询数据。与传统的数据库工具相比,Chat2DB 具有以下特点和优势: 多数据库支持 :Chat2DB 可以与多种类型的数据库进行集成,包括关系型数据库(如MySQL、PostgreS

    2024年02月11日
    浏览(47)
  • Chat2DB:阿里巴巴开源的聊天数据管理工具--实践

    Chat2DB:阿里巴巴开源的聊天数据管理工具–实践 简介 ​ Chat2DB 是一款有开源免费的多数据库客户端工具,支持windows、mac本地安装,也支持服务器端部署,web网页访问。和传统的数据库客户端软件Navicat、DBeaver 相比Chat2DB集成了AIGC的能力,能够将自然语言转换为SQL,也可以将

    2024年02月09日
    浏览(42)
  • 【阿里巴巴1688API接口开发系列】数据采集获取,封装接口可加高并发,大数据中心项目

    首先以1688商品数据为例 item_get-获得1688商品详情 公共参数 名称 类型 必须 描述 key String 是 调用key(必须以GET方式拼接在URL中)注册Key和secret接入 secret String 是 调用密钥 api_name String 是 API接口名称(包括在请求地址中)[item_search,item_get,item_search_shop等] cache String 否 [yes,no]默认

    2024年02月13日
    浏览(37)
  • 第三代英特尔 至强 可扩展处理器(Ice Lake)和英特尔 深度学习加速助力阿里巴巴 Transformer 模型性能提升

    第三代英特尔® 至强® 可扩展处理器采用了英特尔10 纳米 + 制程技术。相比于第二代英特尔® 至强® 可扩展处理器,该系列处理器内核更多、内存容量和频率更高。阿里巴巴集团和英特尔的技术专家共同探索了这些能力对人工智能应用的意义,特别是在与英特尔® 深度学习加

    2024年02月16日
    浏览(32)
  • 推荐下阿里巴巴开源的数据库客户端工具Chat2DB

    github地址:https://github.com/alibaba/Chat2DB Chat2DB 是面向开发人员的免费多平台数据库工具。多种数据库一个工具。它用于查询、创建和管理数据库,数据库可以在本地、服务器或云端。支持 MySQL、PostgreSQL、Microsoft SQL Server、Oracle、H2等,未来我们会不断完善其他非关系型数据的支

    2024年02月11日
    浏览(66)
  • 阿里巴巴集团

    阿里巴巴集团控股有限公司 (简称:阿里巴巴集团) 是马云带领下的18位创始人于1999年在浙江省杭州市创立的公司。 [272]  阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算

    2024年02月03日
    浏览(54)
  • 溯源阿里巴巴的中台架构

    明朝可以说是中国封建王朝中最后一个由汉人统治的王朝,就算是最后清王朝也是不断的学习汉人的治国方略,但是学习最多的当然是明朝。 其实阿里巴巴的中台战略其实和明朝的历史还是蛮像的,这里小编就和大家好好的探讨一下。 今天先来从明朝的治国方略中去解析架

    2024年01月22日
    浏览(58)
  • Java阿里巴巴代码规范

    想学习架构师构建流程请跳转:Java架构师系统架构设计 我们介绍了让代码规范的方案,下面我们就来说一下阿里的代码规范文档 1.1.1 反例 这种操作很容易产生难以排查的NPE异常 1.1.2 正例 入参以及出参,和参数传递类型是一致的 SimpleDateFormat 是线程不安全的类,一般不要定

    2024年02月10日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包