阿里云DataWorks介绍

这篇具有很好参考价值的文章主要介绍了阿里云DataWorks介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

🍓前几篇博客中,我们讲到阿里云的MaxComputer,今天我们继续学习阿里云的DataWorks,对DataWorks的学习计划是写2章。对外往期内容感兴趣的小伙伴可以参考下面的内容👇:

  • hadoop专题: hadoop系列文章.
  • spark专题: spark系列文章.
  • 阿里云系列: 阿里云MaxComputer SQL学习之DDL.
  • 阿里云系列: 阿里云MaxComputer SQL学习之DML.
  • 阿里云系列: 阿里云MaxComputer SQL学习之内置函数.

🍑本文是DataWorks系列的第一章,关于DataWorks的简介部分,主要介绍大数据开发与治理平台DataWorks的功能概念。

关于DataWorks的实战部分,也在同一天完成了,一起发出来:

  • 阿里云系列: 阿里云DataWorks学习之平台实践.

1. DataWorks简介

DataWorks(数据工场)是阿里云重要的PaaS平台产品,它提供全面托管的工作流服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。主要包括下面几个部分:

  • 全面任务托管:具有强大的调度能力,提供完全的托管服务。
  • 多种任务类型:数据同步、OPDS SQL 、MR、SHELL、机器学习。
  • 可视化开发:提供可视化的代开发、工作流设计界面。
  • 监控报警:可视化的任务监控,任务监控短信报警。

1.1 DataWorks在大数据架构中的位置

如图:DataWorks集成了数据开发、任务调度、数据管理的功能。
dataworks,阿里云大数据实践,阿里云,云计算,hadoop,大数据,DataWorks

1.2 DataWorks功能架构

如图:DataWorks将大数据处理的一套流程都集成起来,方便开发业务的流畅运行。
dataworks,阿里云大数据实践,阿里云,云计算,hadoop,大数据,DataWorks

1.3 DataWorks的核心功能

  1. 数据集成:主要用于离线/实时数据同步。提供复杂网络下、丰富的异构数据源之间高速稳定的数据移动及同步能力。
  2. 数据开发:对MaxComputer中的数据进行加工、分析与挖掘等处理,发现其价值。
  3. 数据应用:MaxComputer 中的数据进行加工处理后,应用各种场景,如数据提取、数据交换、数据报表、数据分析。
  4. 数据服务:提供为企业搭建统一的数据服务总线,帮助企业统一管理对外对内的API服务。提供快速将数据表生成API的能力,同时支持快速注册现有API至数据服务平台,进行统一的管理和发布。
  5. 数据治理:多种数据处理视角下的数据治理流程与工具引导,满足数据生产、数据使用、数据管理场景下的主要数据治理需求,如数据质量、数据地图、安全中心、数据保护伞。
  6. 任务运维:各种数据处理任务的发布、监管、运维。

2. DataWorks的应用

2.1 数据处理部分

2.1.1 数据输入(数据同步)

数据同步是数据流程处理的第一步:如图
dataworks,阿里云大数据实践,阿里云,云计算,hadoop,大数据,DataWorks
数据集成有以下几个特点:

  • 仅支持结构化的数据
  • 支持单地域内及部分跨地域的相互同步、交换
  • 完成数据同步,本身不提供数据流的消费方式

通常来说,数据同步都是将业务系统中产生的业务数据定期导入到工作区,通过工作流任务的加工处理后,再将计算结果定期导入到指定的数据源中,供进一步展示或者使用。

2.1.2 数据开发

数据开发是在数据集成之后的工作,在大数据处理中的位置如下:
dataworks,阿里云大数据实践,阿里云,云计算,hadoop,大数据,DataWorks
数据开发模式采用项目>解决方案>业务流程三级结构,按照业务种类将相关的不同类型的节点任务组织在一起。

  • 项目:权限组织的基本单位,用来控制用户的开发、运维等权限。
  • 解决方案:可以定义组合一些业务流程为一个解决方案。一个方案可以包含多个流程;解决方案之间可以复用相同的流程;组织完成的解决方案可以沉浸式开发。
  • 业务流程:对业务的抽象实体,以业务的角度来组织数据代码开发,业务流程可以被多个解决方案复用。

开发流程如下:这里展示的是odps sql的开发流程,其他的开发流程大同小异。
dataworks,阿里云大数据实践,阿里云,云计算,hadoop,大数据,DataWorks

2.1.3 任务运维

数据开发完成的任务部署到生产调度,调度系统每天运行着大量的数据处理任务,任务之间依赖复杂,保证任务按时正常运行。任务运维在大数据处理的部分如下:
dataworks,阿里云大数据实践,阿里云,云计算,hadoop,大数据,DataWorks
DataWorks的任务运维是在运维中心模块进行,主要包括的功能:
dataworks,阿里云大数据实践,阿里云,云计算,hadoop,大数据,DataWorks
智能监控模块是DataWorks任务运行的监控及分析系统,根据监控规则和任务运行的情况,智能监控决策是否报警、何时报警、如何报警、以及报警给给谁,智能监控会自动选择最合理的报警时间,报警方式以及报警对象。

2.2 数据管理

DataWorks的数据管理通过数据地图功能实现对数据的统一管理和血缘的跟踪。数据地铁以数据搜索为基础,提供表使用说明、数据类目、数据血缘、字段血缘等工具,帮助数据表的使用者和拥有者更好地管理数据、协作开发。
dataworks,阿里云大数据实践,阿里云,云计算,hadoop,大数据,DataWorks

数据地图

3. 总结

这一部分DataWorks的介绍主要偏向于理论,大家只要记得DataWorks是一个集成各种大数据处理功能的平台即可。

4. 参考资料

《阿里云全球培训中心》
《阿里云DataWorks使用手册》文章来源地址https://www.toymoban.com/news/detail-811777.html

到了这里,关于阿里云DataWorks介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 阿里云ascm账号创建及dataworks/oss授权操作

    云平台管理员fsdc_admin登录ascm 企业—角色管理-创建自定义角色 2.1名称及管理权限设置 查看用户、查看用户AccessKey 2.2应用权限设置 查看Bucket 查看MaxCompute项目 2.3菜单权限设置 对象存储OSS 大数据计算MaxComputer 点击创建角色 企业—用户管理-创建 查看初始密码: dw授权范围:

    2024年02月05日
    浏览(42)
  • DataWorks概述

    DataWorks 是基于MaxCompute计算引擎的一站式开发工场,帮助企业快速完成数据集成、开发、治理、质量、安全等全套数据研发工作。 1.数据集成 能够支持多种异构数据源之间数据高速稳定的数据移动及数据同步。 2.可视化数据开发 帮助用户获得更加清晰的开发逻辑,SQL智能编辑

    2023年04月09日
    浏览(42)
  • 2023-DataWorks数仓开发手册收藏版

      1.1 数据仓库架构    目前,本数据仓库主要分为 ods,dim,dwd,dws,ads五层,按照数据流入流出的过程,数据仓库架构可分为:源数据, 数据仓库, 数据应用,具体架构如下: 源数据 :该部分数据主要是从生产数据库,线下手工数据和日志数据,集成到dataworks中,形成了数仓的

    2024年02月11日
    浏览(37)
  • 阿里云大数据——搭建企业级数据分析平台

    目录 1、数据分析介绍 1.1数据分析基本介绍 1.2数据分析目的 1.3数据分析平台组成部分 1.4数据分析平台对应的场景 2、阿里云数加介绍 2.1数加是什么? 2.2“数加”是阿里云大数据的核心能力 2.3数加平台发展历程 3、常用的数加产品 3.1数加产品框架图 3.2数据分析平台常用的数

    2023年04月11日
    浏览(96)
  • 阿里云大数据实战记录4:生产环境添加列

    添加列的时候,要注意 引擎类型 ,可以根据以下操作查看引擎类型。 如果有权限查看配置相关内容,也可以点配置里查看。(目前我没有该权限,也不知道都有什么内容~~) 为什么要注意引擎类型呢?因为不同的引擎,意味着不同的配置,对应的语法也是不同的,比如mys

    2023年04月09日
    浏览(34)
  • 阿里云大数据工程师(ACP)认证考试大纲

      阿里云大数据专业认证(ACP 级-Alibaba Cloud CertificationProfessional)是面向使用阿里云大数据产品的架构、开发、运维类人员的专业技术认证,主要涉及阿里云大数据类的几款核心产品,包括大数据计算服务MaxCompute、数据工场DataWorks、数据集成、Quick BI、机器学习 PAI等。通

    2024年02月03日
    浏览(56)
  • 阿里云大数据分析师(ACP)认证,该如何备考?

    阿里云认证是基于核心技术及岗位的权威认证, 阿里云针对不同产品类别、用户成长阶段、生态岗位,精心打造不同的认证考试。 个人:证明您在对应技术领域的专业度,能够基于阿里云产品解决实际问题。获得更多阿里云生态下的就业机会。 公司:通过阿里云认证培养、

    2023年04月09日
    浏览(64)
  • 阿里云大数据ACA及ACP复习题(121~140)

    121.数据清洗(Data Cleaning)是用于检测和纠正(或删除)记录集,表或数据库中的不准确或损坏的记录。下列选项中,对数据清洗描述正确的是(ABC) A:数据清洗可以检测表中的不准确或损坏的记录 B:数据清洗可以识别不正确,不完整,不相关,不准确或其他有问题(“脏”)的数据

    2024年01月18日
    浏览(46)
  • 阿里云大数据实战记录9:MaxCompute RAM 用户与授权

    先抛一个问题: 作为 maxcompute 的管理员,拥有较高的权限,为什么访问不了设置了敏感列的数据? 这个问题是我最近遇到的一个难题之一。 一开始我以为作为 maxcompute 管理员,应该可以“畅通无阻”,却没想到,敏感列迟迟无法访问,中间做了很多功夫,读了很多官方文档

    2024年02月10日
    浏览(58)
  • 阿里云大数据实战记录8:拆开 json 的每一个元素,一行一个

    商业场景中,经常会出现新的业务,继而产生新的业务数据,这也难免会导致一些数据被孤立,所以便需要对数据进行同步整合。在清洗数据的过程中,难免也会出现同一个 SQL 逻辑需要使用不同的平台各自支持的一套 SQL 语言来实现。 本文介绍的就是一个同样的 SQL 逻辑,通

    2024年02月10日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包