数据治理——滴滴大数据成本治理实践

这篇具有很好参考价值的文章主要介绍了数据治理——滴滴大数据成本治理实践。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

    原文大佬的这篇本文主要介绍滴滴大数据在成本治理方面的实践。有些内容是有借鉴意义的,这些摘抄下来用作沉淀学习。如有侵权,请告知~

一、滴滴大数据成本治理总体框架

1.1 数据体系

数据治理——滴滴大数据成本治理实践,# 数据治理系列,大数据,数据仓库

  从上图所示:最底层是以数据引擎为基础的数据存储,分为离线计算、实时计算、OLAP、NoSQL、日志检索和数据通道六个部分。

 在数据计算层,滴滴自研了一站式数据开发平台——“数据梦工厂”,主要包含离线开发、实时开发、任务调度、同步中心等一系列开发组件。数仓的同学和数据分析同学利用数据梦工厂进行数据的清洗与加工、构建其各自业务线的数据仓库。

 在数据服务层,滴滴自研了一站式数据应用消费平台——“数易”,用来满足各类看数、取数、用数的场景。

  最上层,数据科学的同学利用已加工好的数据进行决策支持、业务分析和数据挖掘等算法类场景的工作。 

  管理整套的数据体系、是通过以“元数据”为中心建设的两个产品,“数据地图”和“资产管理平台”。

  治理工作,围绕五个核心方向展开,分别是成本、安全、质量、模型和价值。去年整个团队的工作重心,主要围绕数据安全方面。今年的重心则是成本治理。接下来,对成本治理方面的工作实践进行介绍。

1.2 大数据资产管理平台

数据治理——滴滴大数据成本治理实践,# 数据治理系列,大数据,数据仓库

   滴滴大数据资产管理平台主要以六个分数来衡量使用数据的“好”与“坏”,分为计算健康分、存储健康分、安全健康分、质量健康分、模型健康分和价值健康分。根据这六个维度分数的几何平均,算出一个总分 DataRank 分,来衡量总体使用数据“好”与“坏”的程度。成本治理主要是提升计算健康分和存储健康分。

   使用大数据资产管理平台进行成本管理,主要是对引擎(Hadoop、ES、Flink、Click House、Kafka、Hbase),和以“数据梦工厂”和“数易“为核心的两个数据中台产品,提供成本计费、账单分析和成本治理相关能力。

数据治理——滴滴大数据成本治理实践,# 数据治理系列,大数据,数据仓库

1.3 大数据成本治理总体框架

   滴滴的“资产管理平台”于 2019 年初上线,当时只提供了 Hadoop 计算和存储的两种治理能力。在上线之前,整个集团的 Hadoop 存储量,以一条缓慢上涨的曲线,逐渐增长。平台上线之后,这条曲线逐渐拉平,说明通过治理的动作,抵消了业务增长带来的用量上涨。这个阶段称为治理 1.0 阶段。随着平台的发展,我们遇到两个问题,第一个问题是越来越难找出相对容易的治理项;第二个问题是治理工作的成果和价值,很难被说清楚。所以常被业务质疑,也影响了同学们治理的积极性。所以我们在 2022 年投入精力做定价,再做成本看清,再进行成本治理能力的建设,这就是成本治理 2.0 阶段。

数据治理——滴滴大数据成本治理实践,# 数据治理系列,大数据,数据仓库

  一个产品的硬件成本主要来自于三大方面:服务器、网络和该产品所使用的中间件资源(比如 MySQL、MQ 等)。此外,还有维护该产品,所消耗的人力维护成本,这四大块构成了产品的总成本。有了产品的总成本,要看这个产品今年需要达到的利润目标,是达到收支平衡即可,还是要有要留有一定的利润空间。将成本乘以(1+ 利润率),就可以预估出产品的预计总收入。随后要对产品收入进行拆分,确定通过哪些定价项来收费。拆分定价项的难点是,需要预估该产品今年的总用量。预估过大会造成成本损失,预估过小则会造成利润损失。

数据治理——滴滴大数据成本治理实践,# 数据治理系列,大数据,数据仓库

   有了产品定价,便可开展成本看清的能力建设。底层来源于元数据,主要分为存储元数据和计算元数据两块。存储元数据基本为各个引擎的Metastore。计算元数据基本来源于各个引擎运行时的日志。将拿到的元数据同步至离线数仓,进行清洗加工处理。

  最终在app层,形成计算,存储,安全,质量,模型,价值6个数据域,其中与成本相关的是计算和存储两部分。将所消耗的计算和存储的明细按个人、项目、组织、账户四个维度进行汇总,可看到这四个维度下具体的用量情况。对这些数据进行汇总,可得到财务结算的账单,对账单进行下钻分析可发现异动点。

数据治理——滴滴大数据成本治理实践,# 数据治理系列,大数据,数据仓库

   用户的成本等于单价*用量。单价是引擎测算得出的,用量是用户实际使用的。对单价治理,需要引擎层进行技术优化。对用量治理,需要用户开展治理工作。

  引擎的优化主要分为计算和存储。计算方面,主要为通过各种技术手段提升 CPU 的利用率,包括峰值和均值,或通过混部的技术来更多地压榨机器资源。存储治理,一般是将冷热数据分区存储,因为冷数据的单价比热数据更低。同时可以引入一些压缩技术,将数据进行压缩存储。

数据治理——滴滴大数据成本治理实践,# 数据治理系列,大数据,数据仓库

    用户做治理的前提是要有一套完善的用量管控的逻辑。滴滴内部有两套逻辑,第一个是按账户进行拆分,该拆分逻辑主要用于财务结算。另一个是按组织架构进行拆分,该拆分逻辑主要用于追踪和跟进成本治理的进度与目标,其优势是便于找到相关的接口人。同时,由于组织架构存在上下级的汇报关系,可使得成本治理工作的推动更加顺畅。

   按账户拆分,一个成本账户会有多个项目,需要做一个换算,把真正使用的预算金额换算成每个项目具体可以用的总体用量,再对每个项目的用量进行管控,如果项目用量超出规划用量,则需先治理再申请额外用量。遇到特殊情况,比如某一业务非常重要,没有时间做治理,那么走较高层级的审批,审批通过之后才可以放开继续用量申请。

数据治理——滴滴大数据成本治理实践,# 数据治理系列,大数据,数据仓库

   用户治理具体分为两块,一是“资产管理平台”要做的事,二是用户要做的事。

 “资产管理平台”需要找出更多可被用户治理的资源。首先需要接入各类元数据,主要包括运行时的信息、资源的基础信息、血缘信息和访问信息。运行时的信息,主要为各个引擎的运行时日志、审计日志和 GC 日志等。资源的基础信息,为该资源的创建人、创建时间、所属项目等。血缘信息和访问信息,是判断下游是否有访问,可以被删除的重要依据。平台在离线层计算出可以被治理的资源,主要分为“存储待治理资源”和“计算待治理资源”,将这些待治理的资源进行打包,形成治理工单,推送给用户。

  用户根据今年的预算目标和治理目标,对治理工单确定治理节奏,并可查看治理的收益。

数据治理——滴滴大数据成本治理实践,# 数据治理系列,大数据,数据仓库

二、Hadoop 成本治理实践

    Hadoop 的定价主要参考四个维度,第一个是 Hadoop 的历史单价,第二个是服务器效率优化目标,第三个是预估当年 Hadoop 所需用量,第四个是期望利润。基于这四个维度,将定价项拆分为计算和存储两块。存储定价项,分为常规存储、冷存储和文件数;计算定价项,为任务运行时消耗的核数*运行时长。确定 Hadoop 定价项之后,开展看清成本的能力建设。

数据治理——滴滴大数据成本治理实践,# 数据治理系列,大数据,数据仓库

    最底层也是需要接入 Hadoop 的元数据。存储元数据主要来自于 Metastore 和 FSimage,两者记录了表及路径的详细信息。计算元数据主要来源于各类日志,详细记录了任务运行时的各类状态。将存储和计算元数据同步到 ODS 层,进行清洗加工,形成计算和存储两个数据域。再对其按个人、项目、组织、账户四个维度进行汇总。汇总后的数据,形成财务结算的账单,对其进行下钻分析,可知晓 Hadoop 的费用具体消耗在哪些计算任务与存储上。同时可看清所消耗的费用和用量的具体值及环比,以及待节省的空间。

数据治理——滴滴大数据成本治理实践,# 数据治理系列,大数据,数据仓库

    滴滴内部将 Hadoop 可被治理的资产,分为“无效资产”和“有效资产”。“无效资产”是指这些数据资产确定不会被使用,但可能由于没有被关注,仍然存放在那里,占用额外的存储与计算资源。“有效资产”是指这些资源还在被用户使用,只是使用的效率较低,需要对其进行优化。

   对“无效资产”进行治理,底层接入四类日志,Hadoop 审计日志,Spark 审计日志,任务 GC 日志,HDFS 审计日志。将这些日志同步到 ODS 层进行清洗、加工和解析,可得到“存储待治理推荐项”和“计算待治理推荐项”。“存储待治理推荐项”主要有生命周期调整、空表空路径和无效访问等。“计算待治理推荐项”主要有数据倾斜、暴力扫描,参数不合理、高耗任务和无效计算等。

   有效资产治理主要包括两方面,第一方面是重复模型的治理,主要依赖于字段血源的能力。第二方面是全量小时分区表的改造。由于历史原因,当时业务需要按小时来建立分区,可随着业务的发展,原先的需求已经不存在。将其改造成按天调度的表,可节省 23 倍的资源,收益非常大。“无效资产”的治理需要依赖用户的配合,将计算出的待治理资源形成治理工单,通过『治理工作台』分发给治理用户,通过工单流转方式来完成治理动作。

数据治理——滴滴大数据成本治理实践,# 数据治理系列,大数据,数据仓库

  针对数据倾斜这一治理项,需要两类引擎日志:Spark 执行日志和 Hadoop 执行日志。对这两类日志进行解析,得到三个指标,task 运行时的时长,task 处理的数据条数,task 处理的数据字节大小。对三个指标进行计算,计算公式:所有 task 运行的最大值除以所有 task 运行的中位数,可分别得到三个倾斜率。这三个倾斜率,赋予不同的权重就可以得到该任务的倾斜率。根据倾斜率可以判断任务是否发生了数据倾斜。判断条件是所有 task 运行的最大时间大于 15 分钟,且计算出的执行时间倾斜率大于 5。同时满足这两个条件,认为任务发生了数据倾斜。

   解决数据倾斜一般有三种方案第一种,造成数据倾斜的原因是数据分布不均匀,比如存在热点 k,空值比较多的情况。解决的方法就是将热点k,尤其是空值提前进行处理,比如排除,或者用随机k代替空值。第二种,发生数据倾斜的原因是大表join小表,造成 k的分布不均。解决方案之一是用 map join将小表广播;另外,也可以适当增加并发度,比如通过 repartition进行重新分区。还有其他一些数据倾斜的方案,主要是参数调整,针对的是数据倾斜不太严重的情况,比如调整广播的大小,或者是对内存进行调适。

数据治理——滴滴大数据成本治理实践,# 数据治理系列,大数据,数据仓库

  针对参数不合理这一治理项,如运行的 Spark 或者 Hadoop 任务,用户需要设置相关参数,如何判断用户设置的参数是否合理,我们总结出一套参数推荐的规则。首先拉取该任务运行时 GC 日志,对 GC 日志进行解析,解析后对特征进行匹配,特征主要是 GC 率和所消耗的内存。有了特征之后,会调用一个参数规则表,根据调参表对参数进行优化。将优化后的参数值推送给用户,用户判断是否进行参数调整。调参表是我们内部总结得出的,我们认为GC率大于 20%,说明当前运行的任务,内存是不足的,需要对内存进行适当的调整。如果内存在 4G 到 22 之间,认为当前内存是偏小的,需要调大当前的内存值;如果内存值已经比较大了,比如在 24G 到 30G,这时再增大内存的收益也许不大了,需要适当地降低并发数,让每一个运行的线程尽可能分配到更多的内存。

   对于降内存的操作,若GC率小于 0.08,说明当前设置的内存过大,因为任务几乎不发生 GC,需要对内存进行适当的缩小。我们希望整个 task 运行的平均 GC 率在 0.08-0.2 之间,这是一个相对健康的区间,且要确保任务运行时没有发生抖动。该项治理上线后,每天节省内存约 1TB。

数据治理——滴滴大数据成本治理实践,# 数据治理系列,大数据,数据仓库

   进行治理操作,最终的落脚点都是对一个资源进行下线、停用或者删除。这三类操作,最容易引发线上故障,从而造成稳定性问题。判断这三类操作是否可以进行,主要判断该资源是否在被使用。这时需要用到“血缘信息“和”访问信息“。接下来介绍如何构建表级血缘构建表级血缘主要来源于四部分:

首先是 SQL 解析。我们使用的是开源的 Antlr,将 SQL 转化成一个抽象语法树,随后对这个语法树进行解析,可得到表 A 到表 B 的血缘关系。

第二是路径解析。若任务跑在 Yarn 上,会有 HDFS 输入路径与输出路径的映射关系,再结合元数据信息,便能拿到输入路径与输入表、输出路径与输出表的对应关系。这样就可以得到表 A 到表 B 的血缘关系。

第三是运行时 LogicalPlan 的解析。SQL 任务跑在 Spark 上,Spark 会将输入的 SQL 转化成一棵抽象语法树,随后再转化成逻辑计划,这些都是在内存里面完成的。将内存里面的逻辑计划,以 Json 格式输出,随后对该 Json 进行解析,便得到表 A 到表 B 的血缘关系。

第四是任务调度间的 tag 依赖。任务之间的调度会有依赖关系,比如,表 A 产出后,生成 tag 标记,表示表 A 已产出。表B的执行依赖表 A 的产出,当表 B 获取到表 A 生产 tag,便可开始执行。通过解析该 tag,可得到表 A 到表 B 的血缘关系。

最后对这四种方式获得的血缘信息求并集,得到最全面的血缘关系。之所以要取并集,是因为每种解析方式,都存在自身的局限性。

SQL 解析,由于用户总会写一些奇奇怪怪的 SQL,导致 SQL 解析无法做到 100% 正确。Yarn 路径解析,该方式 100% 正确,但总有一些特殊的任务不是通过 yarn 提交的,因此这些特殊的任务也就不能被覆盖到。对于运行时 LogicalPlan,主要解决临时资源,比如临时表和临时 UDF 的血缘匹配。配置 tag 的方式,完全依赖于用户的配置,如果用户不配置 tag 依赖或者 tag 依赖配置错误,也会导致血缘信息的错误。

将这四个解析方式的结果求并集,最终正确率达到了 99. 97%。

数据治理——滴滴大数据成本治理实践,# 数据治理系列,大数据,数据仓库

相比血缘信息,访问信息的获取较为简单,通过解析 HDFS 审计日志,即可得到每个资源被访问的情况。

将血缘信息和访问信息相结合,并在产品上给到用户醒目的提示,确保用户对资源进行下线、删除等操作的安全。做到治理工作的长治久安。

数据治理——滴滴大数据成本治理实践,# 数据治理系列,大数据,数据仓库

三、实践经验

做数据治理,需要有自上而下的成本目标与组织保障,否则难以推动。组织保障的最上层是集团的预算委员会,主要负责制定每个事业部,今年整体的预算目标,将目标派发给事业部的成本负责人。事业部的成本负责人,领到今年的预算目标,需对目标进行拆分,具体到今年要完成的治理优化数量,同时成本负责人向预算委员会,汇报治理工作的进展。事业部的负责人将拆分后的优化目标派发给各个团队的成本治理接口人,治理接口人根据治理目标,拆分出治理任务,将治理任务分配给资源的归属人,由其完成治理动作。同时成本治理接口人需要向事业部的成本负责人汇报治理进展。

开展成本治理工作,最终的执行者都是一线具体的资源归属同学,他们每天的工作任务压力已经是较大的。若还需抽出额外的精力,做成本治理工作,往往推动较难,这也是治理工作的难点之一。将“被迫治理”转为“积极治理”,在滴滴每年会通过运营活动的方式,营造氛围。如开展《数据治理大赛》,将个人或者团队的治理完成率进行排名,对排名较高的个人或团队进行奖励。希望能为枯燥的治理工作带来一点娱乐性,进而激发大家的治理积极性。

数据治理——滴滴大数据成本治理实践,# 数据治理系列,大数据,数据仓库

参考文章:

滴滴大数据成本治理实践文章来源地址https://www.toymoban.com/news/detail-839464.html

到了这里,关于数据治理——滴滴大数据成本治理实践的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据治理-数据仓库环境

            数据仓库环境包括一系列组织起来以满足企业需求的架构组件,从源系统流动到数据暂存区,数据可以在这里被清晰,当数据集成并存储在数据仓库或操作数据存储中时,可以对其进行补充丰富。在数据仓库中,可以通过数据集市或数据立方体访问数据,生成各种

    2024年02月07日
    浏览(29)
  • 数据治理-数据仓库和商务智能

            数据仓库建设的主要驱动力是运营支持职能、合规需求和商务智能活动。 支持商务智能活动 赋能商业分析和高效决策 基于数据洞察寻找创新方法。 聚焦业务目标 以终为始 全局性的思考和设计,局部性的行动和建设 总结并持续优化 提升透明度和自助服务 与数据仓

    2024年02月10日
    浏览(27)
  • 数据治理实践 | 网易某业务线的计算资源治理

    本文从计算资源治理实践出发,带大家清楚认识计算资源治理到底该如何进行,并如何应用到其他项目中。 由于数据治理层面可以分多个层面且内容繁多(包括模型合规、数据质量、数据安全、计算/存储资源、数据价值等治理内容),因此需要单独拆分为6个模块单独去阐述

    2023年04月19日
    浏览(35)
  • 银行数据治理:数据质量管理实践

    现代商业银行日常经营活动中积累了大量数据,这些数据除了支持银行前台业务流程运转之外,越来越多地被用于决策支持领域,风险控制、产品定价、绩效考核等管理决策过程也都需要大量高质量数据支持。银行日常经营决策过程的背后,实质是数据的生产、传递和利用过

    2024年02月09日
    浏览(33)
  • 阿里云-数据仓库-全链路大数据开发治理平台-DataWorks的数字世界

    上文我讲到 阿里云-数据仓库-数据分析开发神器-ODPS ,今天我带领大家一起走进神器的成长环境及它的数据世界。 DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。 它是数据工场

    2024年02月03日
    浏览(32)
  • 信息安全-数据安全-字节大数据平台安全与权限治理实践

    导读: 本次分享题目为字节跳动大数据平台安全与权限治理实践,文章会围绕下面四点展开: 字节大数据安全体系现状和难点 细粒度权限管控和治理 资产保护能力 数据删除能力 分享嘉宾|许从余 火山引擎 数据平台产品经理 编辑整理|杨佳慧 出品社区|DataFun 第一部分首

    2024年02月09日
    浏览(33)
  • 构建企业数据安全的根基:深入解析数据安全治理能力评估与实践框架

    随着数字化转型深入各行各业,数据安全已成为企业不可或缺的重要议题。在这一背景下,有效的数据安全治理框架成为确保企业数据安全的基石。 中国互联网协会于 2021 年发布 T/SC-0011-2021《数据安全治理能力评估方法》,推出了国内首个数据安全治理能力建设及评估框架,

    2024年02月22日
    浏览(31)
  • 大宗商品贸易集团数据治理实践,夯实数字基座 | 数字化标杆

    某大型央企是首批全国供应链创新与应用示范企业,在“十四五”规划期内以聚焦供应链管理核心主业作为主要战略发展方向。供应链运营管理以大宗商品贸易为主,其交易往往具有交易量巨大、交易环节复杂、风险交易难识别、风险客商难管控等痛点。 随着集团数字化转型

    2024年02月05日
    浏览(28)
  • 车企数据治理实践案例,实现数据生产、消费的闭环链路 | 数字化标杆

    随着业务飞速发展,某汽车制造企业业务系统数量、复杂度和数据量都在呈几何级数的上涨,这就对于企业IT能力和IT架构模式的要求越来越高。加之企业大力发展数字化营销、新能源车等业务,希望通过持续优化客户体验,创造可持续发展的数字化转型之路。 为更好应对数

    2024年02月05日
    浏览(60)
  • 中国信通院联合腾讯安全发布《数据安全治理与实践白皮书》

    6月26日,由中国通信标准化协会和中国信息通信研究院联合主办的“2023大数据产业发展大会”在北京启幕,大会发布了多项中国信息通信研究院及相关机构在数智化领域最新研究和实践成果。 腾讯云安全总经理李滨出席了数据安全高质量发展论坛,分享了腾讯云自身数据安

    2024年02月12日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包