构建数据中台的三要素:方法论、组织和技术

这篇具有很好参考价值的文章主要介绍了构建数据中台的三要素:方法论、组织和技术。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

知道要转型,要建设数据中台,却不知咋做,咋办?

现在有很多讲“如何建设数据中台”文章,观点各不相同:

  • 数据中台是数据建设方法论,按照数据中台设计方法和规范实施就可建成数据中台
  • 数据中台背后是数据部门组织架构变更,把原先分散的组织架构形成一个统一中台部门,就建成数据中台
  • 一些大数据公司说,他们可卖支撑数据中台建设的产品技术

盖房前,先得设计图纸,知道如何盖这房?然后还要有好用工具(如水泥搅拌机、钢筋切割机)帮你盖好这房。盖房子离不开一个靠谱施工队伍,这里面涉及很多角色(泥瓦工、木工、水电工等等),人须高效协作,才能盖出好房。

如把建数据中台比作盖房:

  • 设计图纸就是数据中台建设方法论
  • 工具是数据中台的支撑技术
  • 施工队伍就是数据中台的组织架构

本文以全局视角从宏观了解如何建设企业级数据中台。

1 数据中台建设方法论

2016年阿里提出数据中台建设核心方法论:OneData、OneService。很多公司都进行实践,但你很难找定义去描述这些方法论。

1.1 OneData

所有数据只加工一次。

构建数据中台的三要素:方法论、组织和技术

电商业务建设数据中台前,每个部门内部都有一些小数仓完成本部门数据分析需求。

有天,供应链团队接到一个数据需求,即计算“商品库存”指标,供应链的运营需根据每个商品的库存制订商品采购计划,部门的数据开发从业务系统同步数据,进行数据清洗、聚合、深度加工,最终,产出这个指标花1周时间。

恰逢大促,市场部门也需根据每个商品的库存,制订商品促销计划。该数据开发接到紧急需求(与供应链团队类似)从需求开发到上线,花费1周。同部门运营抱怨说,为啥数据需求开发这么慢,根本无法满足大促高频市场运营决策。对公司而言,等1周意味巨大损失,该促销商品没有促销,不该促销的却低价卖了。

如你是公司老板, 肯定问,既然供应链团队已计算出来商品库存数据,为什么市场部门不直接用,还要从头再计算一遍?这看似傻行为,却处处出现在日常数据建设。

数据中台就是要在整个电商业务形成一个公共数据层,消灭这些跨部门小数仓,实现数据复用,所以强调数据只加工一次,不会因为不同的应用场景,不同的部门数据重复加工。

如何才能实现数据只加工一次?

构建数据中台的三要素:方法论、组织和技术

如你构建了数据中台,但存在几万张表,又有几十个数据开发维护这些表,如何确保这些表管理效率? 建议你选择划

主题域

可将这几万张表划到不同主题域,如电商业务中,商品、交易、流量、用户、售后、配送、供应链都可作为主题域。好的主题域划分,相对稳定,尽可能覆盖绝大多数表。

还要对表的

命名规范化统一

表的名称中最好能够携带表的主题域、业务过程、分层及分区信息。如仓储域的一张入库明细表的规则命名:

构建数据中台的三要素:方法论、组织和技术

接着,构建全局的指标字典,确保所有表中相同指标的口径须一致(06文)。

构建数据中台的三要素:方法论、组织和技术

为实现模型的复用,数据中台适合分层设计,常见分层:ODS 原始数据层,DWD 明细数据层,DWS 轻度汇总数据层,ADS/DM 应用数据层/数据集市层。

最后,数据中台的数据须尽可能覆盖所有业务过程,数据中台每层的数据要尽可能完善,让数据使用者尽可能使用汇总后的数据。

OneData 体系的目标是构建统一的数据规范标准,让数据成为一种资产,而非成本。资产和成本差别在于:

  • 资产可沉淀,可被复用
  • 成本是消耗性质、临时、无法被复用

1.2 OneService

数据即服务,强调数据中台中的数据应通过API接口被访问。

为何数据要通过API被访问,而不通过API接口,直接提供数据表给用户?

如你是数据应用开发,当你要开发一个数据产品,先要把数据导到不同查询引擎:

  • 数据量小的,MySQL
  • 大的,可能HBase
  • 多维分析的,可能Greenplum
  • 实时性要求高的,要用Redis

总的来说,不同的查询引擎,应用开发需要定制不同的访问接口。

如你是数据开发:

  • 当某任务无法按时产出,发生异常时,想了解这个表可能影响下游哪些应用或报表,但却发现单纯依赖表与表的血缘无法触及应用,根本无法知道最后这些表被哪些应用访问
  • 当你想下线一张表,因不知道谁访问这张表,无法实施,最终造成“上线易,下线难”

而API接口:

  • 对应用开发屏蔽了底层数据存储,使用统一标准的API接口查询数据,提高数据接入速度
  • 对数据开发,提高数据应用的管理效率,建立表到应用的链路关系

2 如何实现数据服务化

构建数据中台的三要素:方法论、组织和技术

2.1 屏蔽异构数据源

数据服务要能支撑类型丰富的查询引擎,满足不同场景下数据的查询需求,常见如MySQL、HBase、Greenplum、Redis、ES等。

2.2 数据网关

要实现包括权限、监控、流控、日志在内的一系列管控能力,哪个应用的哪个页面访问了哪个模型,要做到实时跟踪,如有一些模型长时间没被访问,应下线。使用数据的每个应用都应通过accesskey、secretkey实现身份认证和接口权限管理。

访问日志可方便在访问出现问题时,加快排查速度。

2.3 逻辑模型

从用户视角出发,屏蔽底层的模型设计的实现,面向用户提供逻辑模型。什么是逻辑模型呢?熟悉数据库的同学应该知道,数据库中有一个视图的概念,视图本身并没有真实的数据,一个视图可以关联一张或者多张表,每次在查询的时候,动态地将不同表的查询结果聚合成视图的查询结果。逻辑模型可以类比视图,它可以帮助应用开发者屏蔽底层的数据物理实现,实现相同粒度的数据构造一个逻辑模型,简化了数据接入的复杂度。

性能和稳定性:由于数据服务侵入到用户的访问链路,所以对服务的可用性和性能都有很高的要求,数据服务必须是无状态的,可以做到横向扩展。

OneService 体系目标是提高数据共享能力,让数据被用得好、爽。

3 数据中台支撑技术

构建数据中台的三要素:方法论、组织和技术

这个图完整地描述了数据中台支撑技术体系,底层以Hadoop为代表的大数据计算、存储基础设施,提供大数据运行所须的计算、存储资源。都属基础设施范畴:

  • HDFS为代表的分布式文件系统
  • Yarn/Kubernates为代表的资源调度系统
  • Hive、Spark、Fink为代表的分布式计算引擎

若把数据中台比作数据工厂,它们就是工厂的水、电。

在Hadoop之上:

  • 浅绿色,原有大数据平台范畴内的工具产品,覆盖从数据集成、数据开发、数据测试到任务运维的整套工具链产品。同时包括基础的监控运维系统、权限访问控制系统和项目用户的管理系统。由于多人协作,所以还有流程协作与通知中心
  • 灰色,数据中台核心组成:数据治理模块。它对应的方法论就是OneData 体系。以元数据中心为基础,在统一了企业所有数据源的元数据基础上,提供了包括数据地图、数仓设计、数据质量、成本优化以及指标管理在内的5个产品,分别对应的就是数据发现、模型、质量、成本和指标的治理
  • 深绿色,数据服务,它是数据中台的门户,对外提供了统一的数据服务,对应的方法论就是OneService。数据服务向下提供了应用和表的访问关系,使数据血缘可以延申到数据应用,向上支撑了各种数据应用和服务,所有的系统通过统一的API接口获取数据。

在数据服务之上,是面向不同场景的数据产品和应用,包括面向非技术人员的自助取数系统;面向数据开发、分析师的自助分析系统;面向敏捷数据分析场景的BI产品;活动直播场景下的大屏系统;以及用户画像相关的标签工厂。

这套产品技术支撑体系,覆盖了数据中台建设的整个过程,配合规范化实施,你就可以搭建出一个数据中台,关于具体的细节我会在实现篇中逐一分析讲解,这里你只需要知道这个框架就可以了。

4 组织架构

在网易电商数据中台建设之前,各个部门都会存在一些小的数仓,那么你有没有想过,为什么会存在这些分散的小数仓? 归根结底是因为建设这些数仓的人分散在各个业务部门。所以,如果你要建设数据中台,单纯有方法论和支撑技术还不够,还必须要有一个独立于业务部门的中台团队。

数据中台提供的是一个跨业务部门共享的公共数据能力,所以,承担数据中台建设职责的部门一定是一个独立于业务线的部门。这个部门的负责人应该直接向公司的CTO汇报工作,当然这个也要取决于数据中台建设的层次,例如在网易内,有云音乐、严选等多个产品线,数据中台的建设层次是在产品级别的,也就是说,云音乐有一个数据中台,严选有一个数据中台,所以严选的数据中台应该向严选的CTO汇报。

而独立部门的最大风险是与业务脱节,所以我们对数据中台的组织定位是:懂业务,能够深入业务,扎根业务。数据中台要管理所有的指标,而每个业务线之间的指标既有差异,也有交叉,要理解指标的口径定义,就必须要了解业务的过程。同时,当我们要制定一些新的指标时,必须要了解各个业务线新的业务目标,指标的本质还是为业务目标服务的。

啥样的组织架构适合数据中台建设?

构建数据中台的三要素:方法论、组织和技术

  • 数据产品部门:负责数据中台、数据产品的体系规划、产品设计、规范制定、应用效果跟进,指标口径的定义和维护(有的部门是由分析师管理)。
  • 数据平台部门:负责研发支撑数据中台构建的产品,例如指标系统、元数据中心、数据地图等。
  • 数据开发团队:负责维护数据中台的公共数据层,满足数据产品制定的数据需求。
  • 应用开发团队:负责开发数据应用产品,比如报表系统、电商中的供应链系统、高层看板、经营分析。

而且,中台组织的绩效目标一定是要与业务落地价值绑定的,比如在电商中,我们提供了供应链决策系统,有智能补货的功能,会根据商品的库存,各个地区的历史销售情况,生产加工周期,自动生成补货决策,由人工审核以后,直接推送给采购系统。那我们评估价值时,我们会拿由系统自动生成的采购计划占整体采购计划的比例来衡量数据的应用价值。

最后,数据中台的组织架构改革涉及原有各部门利益,所以这个是数据中台构建最难又不得不做的地方,必须要取得高层领导的支持和重视。

5 总结

数据中台建设的三板斧:方法论、支撑技术和组织架构。

  • 适合数据中台的组织架构是建设数据中台的第一步,数据中台组织一定是独立的部门,同时要避免与业务脱节,深入业务,要与业务目标绑定。
  • 数据中台支撑技术大规模落地,需要有成熟的系统工具作为支撑,同时要注意这些系统工具之间的联动和打通。
  • 数据中台的方法论可以借鉴,但是不能完全照搬,每个公司的数据应用水平和当前遇到的问题都不相同,可以针对这些问题,分阶段制定数据中台的建设计划,选择性的应用一些技术,例如当前最主要的问题是数据质量问题,那就应该优先落地数据质量中心,提升质量。

6 如何建设数据中台?

数据中台的建设绝对不是为了建中台而建中台,数据中台的建设一定要结合落地场景,可以先从从一些小的场景开始,但是规划一定是要有顶层设计。

构建数据中台的三要素:方法论、组织和技术

FAQ

哪些数据中台建设的方法论和支撑技术是适合你当前的公司的,如果你们要做数据中台,你所在的组织架构要做哪些变动。

本文由博客一文多发平台 OpenWrite 发布!文章来源地址https://www.toymoban.com/news/detail-577270.html

到了这里,关于构建数据中台的三要素:方法论、组织和技术的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 领域建模之数据模型设计方法论

    本文通过实际业务需求场景建模案例,为读者提供一种业务模型向数据模型设计的方法论,用于指导实际开发中如何进行业务模型向数据模型转化抽象,并对设计的数据模型可用性、扩展性提供了建议性思考。通过文章,读者可以收获到业务模型向数据模型抽象可参考的一种

    2024年02月09日
    浏览(58)
  • 构建数据中台的组织架构

    1.TOGAF企业架构标准 TOGAF是一套企业架构标准。企业架构是指整个公司或企业的软件和其他技术的整体观点和方法。企业架构又细分为业务架构、应用架构、数据架构、技术架构几个方向。 其中业务架构的定义是“定义业务战略和组织,关键业务流程及治理和标准”。因为数

    2024年02月02日
    浏览(38)
  • 数据仓库性能测试方法论与工具集

    目录 目录 数据仓库 v.s. 传统数据库 数据仓库性能测试案例 性能指标 测试方案 测试场景 测试数据集 测试用例 性能指标 测试脚本工具 基准环境准备 硬件环境 软件环境 测试操作步骤 Cloudwave 执行步骤 导入数据集 TestCase 1. 执行 13 条标准 SQL 测试语句 TestCase 2. 执行多表联合

    2024年02月12日
    浏览(48)
  • MySQL数据库IO性能优化方法论

    作者:禅与计算机程序设计艺术 随着互联网信息化的发展,网站日益繁荣,用户对网站访问速度要求越来越高。如何提升网站数据库IO性能从而实现快速响应?本文将从数据库的优化角度出发,结合实际应用场景,进行系统地剖析、归纳和总结,为读者提供一个系统性、完整

    2024年02月06日
    浏览(55)
  • 领域建模之数据模型设计方法论 | 京东云技术团队

    本文通过实际业务需求场景建模案例,为读者提供一种业务模型向数据模型设计的方法论,用于指导实际开发中如何进行业务模型向数据模型转化抽象,并对设计的数据模型可用性、扩展性提供了建议性思考。通过文章,读者可以收获到业务模型向数据模型抽象可参考的一种

    2024年02月09日
    浏览(44)
  • 什么是主数据管理?企业主数据管理方法论

    主数据又被称为黄金数据,其价值高也非常重要。对企业来说,主数据的重要性如何强调都不为过,主数据治理是企业数据治理中最为重要的一环。主数据管理的内容包括  主数据管理标准、主数据应用标准  和  主数据集成服务标准  三大类。 主数据管理的作用和意义主要

    2024年02月13日
    浏览(40)
  • MATLAB实战应用-【数据处理篇】数据清洗(从方法论到实战应用)

    目录 前言 数据清洗需要达到什么要求 如何规范数据 一、解决数据的完整性问题:

    2023年04月08日
    浏览(48)
  • 分布式数据存储建设方法论——从HDFS架构优化与实践分析

    作者:禅与计算机程序设计艺术 随着互联网、云计算、大数据等新一代信息技术的出现和普及,数据量的激增、数据安全性的需求以及数据的分布式储存需求日益成为各大公司和组织面临的难题。传统的单体架构模式已经无法应付如此复杂的业务场景,因此,分布式数据存储

    2024年02月11日
    浏览(60)
  • GPT-4科研实践:数据可视化、统计分析、编程、机器学习数据挖掘、数据预处理、代码优化、科研方法论

    查看原文GPT4科研实践技术与AI绘图 GPT对于每个科研人员已经成为不可或缺的辅助工具,不同的研究领域和项目具有不同的需求。 例如在科研编程、绘图领域 : 1、编程建议和示例代码:  无论你使用的编程语言是Python、R、MATLAB还是其他语言,都可以为你提供相关的代码示例。

    2024年02月07日
    浏览(63)
  • 搜索方法论

    搜索技巧: 1. “”:不拆分。当我们查找的内容为一个词组或者多个汉字,那么我们用双引号把他们括起来再进行查找,此时搜索到的结果最少也最精确。 2. -干扰词(中间有个空格) 3. +确定词(中间有个空格)  4. filetype:文件格式 效果就是寻

    2024年02月12日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包