阿里云Dataworks平台应用

这篇具有很好参考价值的文章主要介绍了阿里云Dataworks平台应用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

总体应用流程

应用流程图:

阿里云Dataworks平台应用

角色

开发、部署/运维、运维三种角色

涉及模块

数据集成模块、数据开发模块、发布管理模块、运维中心模块

数据处理

包括:数据输入、数据开发、数据输出(数据集成+数据开发模块);代码发布(发布管理模块);生产调度、生产运维(运维中心模块)

        数据输入

        就是数据的收集和数据存储,是数据开发的基础,首先要将不同业务系统的数据,分析要用到的数据同步到MaxCompute平台上来,这样才能利用MaxCompute海里数据存储和处理能力对数据处理加工和分析。、

        数据开发

        指的是数据的相关处理、清洗、加工、数据分析、统计、数据发掘等等。

        数据输出

        就是数据应用。就是加工好的数据通过数据提取、数据展现、数据分享等多种形式发挥价值作用

        代码发布

        数据处理的程序代码、自定义函数、涉及的数据表、调度配置等需要从开发环境发布部署到线上环境

        生产调度

        数据分析过程通过调度系统、运维中心调度运行。

用阿里云数据平台Dataworks进行数据分析的几个必要步骤:服务开通、数据输入、数据开发、任务运维。

服务开通

服务开通的流程图:

阿里云Dataworks平台应用

 服务开通是阿里云大数据应用的前提。也就是首先开通相关的服务产品。

已阿里云公有云为例:

服务产品购买

用阿里云账号登录阿里云平台、购买MaxCompute资源、创建工作空间、为了安全建议使用子账号来进行操作(因此需要创建子账号),为子账号添加权限,添加到项目中来。

阿里云Dataworks平台应用

通过MaxCompute控制台创建工作空间

阿里云Dataworks平台应用

点击创建项目,进入创建工作空间的操作界面

阿里云Dataworks平台应用

输入基本信息:工作空间名称、显示名称、选配模式。然后在点击创建项目,然后进入MaxCompute配置页面。

阿里云Dataworks平台应用

 配置MaxCompute项目的配置信息,涉及到:名称、付费模式、MaxCompute的数据类型(当前包括1.0数据类型和2.0数据类型,和Hive兼容类型,根据自己的需要选配),然后单击确认创建即可完成MaxCompute的创建。

基于DataWorks控制台创建DataWorks工作空间

DataWorks的工作空间就是MaxCompute的项目的概念,工作空间是DataWorks管理工作任务、成员、分配角色和权限的基本单元。前提是开通阿里云账号,使用主账号登录DataWorks控制台,在概览页面的快速入口进入创建项目空间的操作界面。具体配置如图所示

阿里云Dataworks平台应用

选择计算引擎:新建项目一般选择MaxCompute,选择DataWorks的服务,如果数据集成的需求则需要开通数据集成来实现数据同步;数据开发、数据运维、数据管理的功能默认是开通的。

输入工作空间的名称,设置高级配置是否启用调度功能,是否能够下载select的结果,以及其它的相关配置信息,点击确认即可创建工作空间。

创建工作空间中模式选择:

阿里云Dataworks平台应用

 简单模式:一个DataWorks空间对应一个MaxCompute项目,无法设置开发和生产环境,只能进行简单的开发,无法对数据开发的流程以及表的权限进行强控制,他的优势就是使用方便,提交代码后无需发布即可进入调度系统周期上执行产生结果,他的风险是开发角色不经过任何审批随时新增和修改代码并提交至调度系统,给生产环境带来了不稳定因素。同时当面对MaxCompute开发引擎开发者默认拥有当前MaxCompute项目所有表的读写权限,开发角色的用户可以随意对表进行增删改操作,存在着安全风险。

标准模式:一个DataWorks空间对应两个MaxCompute项目,可以设置开发和生产两种环境。提升了代码开发的规范,并能够对表的权限进行严格的控制,禁止随意操作生产环境的表,保证生产表的数据安全。所有代码仅支持在开发环境就行编辑,无法修改生产环境的代码。提交任务以后任务会进入开发环境调度系统,此时实际调度仅仅是测试使用,如果需要自动调度运行任务的首先要发布任务至生产环境,发布任务前需要项目管理人员或运维角色人员进行审批通过才能发布成功。开发的代码要到生产系统需要提交、发布、审批三个阶段。

添加项目成员

  阿里云Dataworks平台应用1)创建新用户

2)将用户添加到项目空间去,并选配对应的角色权限(项目管理员、开发、运维、部署、访客、安全管理员)

3)工作空间的创建者默认空间管理员,创建的RAM用户,赋完权限后就可以使用操作项目空间了

  

数据输入

数据输入是数据处理的第一步,简单讲就是数据同步:将分析所需要的数据导入大数据平台。隶属数据集成模块,可以根据不同情况采用不同方式将数据导入到MaxCompute平台。

数据集成

阿里云Dataworks平台应用

1)数据集成是稳定高效、弹性伸缩的数据同步平台。

2)致力于提供复制的网络环境下、丰富的异构数据源之间告诉稳定的数据移动及同步能力

数据集成的限制:

1)支持且仅支持构化、半结构化、无结构化数据同步,需要注意的是无结构化的数据如txt文件,要求同步前必须将数据抽象为结构化数据,也就是说数据集成只能传输抽象成逻辑二维表的数据同步,不支持同步完全非结构化的数据

4)支持单地域内及部分跨地域的相互同步、交换

5)完成数据同步(传输),本身不提供数据流的消费方式。 

数据集成主要用于离线批量数据同步

数据集成数据传输通道(channel)通过定义数据来源和去向的数据源和数据集提供一套抽象化数据抽取插件Reader 、数据写入插件Writer,基于此框架设计一套简化版的中间数据传输格式。从而实现任何结构化数据源之间的数据传输。

目前数据集成也支持实时同步

在此暂不过多介绍,后续补充

数据集成的配置

数据集成配置支持向导模式和脚本模式支持数据的开发

暂时介绍向导模式,脚本模式后续考虑补充

阿里云Dataworks平台应用

 通过配置数据的来源和去向可以完成外部数据同步都MaxCompute,或MaxCompute同步到外部数据、也可以外部数据之间的同步。

数据的同步任务属于某一个具体的业务流程,也就是数据集成是某个业务流程中的一个数据处理节点。

同步任务的简单步骤

阿里云Dataworks平台应用

分为四个步骤:配置数据源、创建同步任务、运行同步任务、查看结果

配置数据源(新增数据源)

阿里云Dataworks平台应用

注意:在开发过程中,需由项目管理员在【项目管理->数据源配置】来新增数据源供开发使用 

创建同步任务

阿里云Dataworks平台应用

可以新建一个业务流程,也可以在已有的业务流程下的数据集成节点创建同步任务

字段映射:根据两个表的字段名称进行映射,或者根据两个表同行进行映射,注意数据类型的匹配,也可以手动编辑进行映射。

通道控制:

        任务通道最大并发数:从源并行读取并行写入数据存储段的最大线程数。

        同步速率:可以选择不限流,也可以设置同步速率,设置同步速率可以保护读取端数据库,避免抽取速度过大给源库造成太大压力。结合源库的配置合理配置同步速率。

运行同步任务

四种运行方式:直接运行、调度运行、补数运行和测试节点运行

阿里云Dataworks平台应用

 查看同步任务结果

阿里云Dataworks平台应用

使用MaxCompute客户端方式同步数据

阿里云Dataworks平台应用

 通过tunnel客户端的命令上传、下载数据

阿里云Dataworks平台应用

需要注意

1)支持文件或一级目录上传

2)每次上传只支持数据上传至一个表或表的分区

3)上传数据给有分区的表时候一定要指定分区,分级分区一定要指定末级分区

4)只支持单个文件的下载

5)下载对分区的之前规则和上传是一致的

DataWorks自身支持上传本地文本文件

DataWorks支持上传本地的文本文件至工作空间的表中,数据开发界面有上传按钮,支持.cvs .txt .log类型文件。

阿里云Dataworks平台应用

数据开发

数据开发就是数据同步到MaxCompute后,在DataWorks开发业务流程,实现数据加工处理逻辑。测试后,将开发的流程代码打包,教友部署/运维人员发布。

整个开发过程涉及到数据的开发、代码的发布。DataWorks的应用到数据开发模块和发布管理模块

阿里云Dataworks平台应用

 数据总体的开发过程

阿里云Dataworks平台应用

数据开发模式采用三级结构:项目>解决方案>业务流程。按照业务类型将相关的不同节点任务组织在一起。

DataWorks的开发体系

项目:

解决方案:

业务流程

建表

阿里云Dataworks平台应用

 数据开发流程

阿里云Dataworks平台应用

选择或新建业务流程

新建或选择已有的ODPS SQL节点

双击打开ODPS SQL节点,编写符合语法的SQL代码

在当前界面测试运行、检查语法、错误逻辑、输出结果

如果需要调度执行,还需要后面的步骤:

配置节点的调度信息、依赖关系

保存提交节点任务

发布到生产交由调度系统在生产环境执行SQL任务。 

数据开发工具MaxCompute SQL

阿里云Dataworks平台应用

 MaxCompute SQL的数据类型

阿里云Dataworks平台应用

 基础类型:

        1.0版 (bigint、string、double、decimal、datetime、boolean)

        2.0版 新增 (int、smllint、varchar、float等)

复杂数据类型:array、map、struct

可以使用Hive兼容的版本,设置 set odps.sql.hive.compatible=true

MaxCompute SQL 快速建表CTAS(create as)

阿里云Dataworks平台应用

MaxCompute SQL 分区操作 Partition

阿里云Dataworks平台应用

MaxCompute SQL表的声明周期

阿里云Dataworks平台应用

MaxCompute SQL的多路输出

就是将一张表中数据插入到多张表中

阿里云Dataworks平台应用

 MaxCompute SQL的Map Join操作

阿里云Dataworks平台应用

 数据开发工具-定义函数UDF

除了使用内置函数外,用户可以通过创建自定义函数来满足不同的计算需求。

阿里云Dataworks平台应用

 UDF的分类

1)UDF

2)UDTF

3)UDAF(聚合函数)

UDF的开发流程

阿里云Dataworks平台应用

数据开发工具MapReduce

阿里云Dataworks平台应用

 阿里云Dataworks平台应用

数据开发工具Graph

 MaxCompute Graph的介绍阿里云Dataworks平台应用

Graph开发使用流程

阿里云Dataworks平台应用

 数据开发工具选择原则

阿里云Dataworks平台应用

任务运维

流程所处位置

阿里云Dataworks平台应用

 任务运维分两类:生产调度、生产运维

运维中心

阿里云Dataworks平台应用

 运维中心包括:运维大屏、实时任务运维、周期任务运维、手动任务运维、智能监控和智能诊断

(周期、手动)运维可执行的操作

阿里云Dataworks平台应用

 任务实例运维

阿里云Dataworks平台应用

智能监控

阿里云Dataworks平台应用

 文章来源地址https://www.toymoban.com/news/detail-462587.html

 

到了这里,关于阿里云Dataworks平台应用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 阿里云ascm账号创建及dataworks/oss授权操作

    云平台管理员fsdc_admin登录ascm 企业—角色管理-创建自定义角色 2.1名称及管理权限设置 查看用户、查看用户AccessKey 2.2应用权限设置 查看Bucket 查看MaxCompute项目 2.3菜单权限设置 对象存储OSS 大数据计算MaxComputer 点击创建角色 企业—用户管理-创建 查看初始密码: dw授权范围:

    2024年02月05日
    浏览(41)
  • [RocketMQ] Producer发送消息的总体流程 (七)

    单向发送: 把消息发向Broker服务器, 不管Broker是否接收, 只管发, 不管结果。 同步发送: 把消息发向Broker服务器, 如果Broker成功接收, 可以得到Broker的响应。 异步发送: 把消息发向Broker服务器, 如果Broker成功接收, 可以得到Broker的响应。异步所以发送消息后, 不用等待, 等到Broker服

    2024年02月11日
    浏览(42)
  • 机器学习技术(三)——机器学习实践案例总体流程

    前面学习了一些基础知识,但还没有步入机器学习算法。通过两个案例,来掌握机器学习模型的训练与评估、机器学习模型搭建的总体流程以及特征处理、决策树模型、交叉检验、网格搜索等常用数据挖掘方法的知识。 1、决策树对鸢尾花分类 1.数据来源 本道题目使用数据集

    2024年02月12日
    浏览(67)
  • NFT交易系统平台开发流程解析 探索元宇宙应用场景

    元宇宙是近年来爆火的词语,也是互联网从web2.0时代向web3.0时代跨越的体现。 怎么理解元宇宙? 元宇宙是指虚拟世界,包括虚拟人物、虚拟IP、虚拟场景、虚拟消费......是伴随区块链、人工智能、虚拟现实技术发展下,区别于现实世界的产物。 当下,元宇宙深受品牌营销和

    2023年04月08日
    浏览(48)
  • Kafka3.0.0版本——消费者(消费者总体工作流程图解)

    角色划分:生产者、zookeeper、kafka集群、消费者、消费者组。如下图所示: 生产者发送消息给leader,followerr主动从leader同步数据,一个消费者可以消费某一个分区数据或者一个消费者可以消费多个分区数据。如下图所示: 每个分区的数据只能由消费者组中一个消费者消费。如下

    2024年02月09日
    浏览(51)
  • Uniapp申请APP版应用签名、打包、并在微信开放平台申请移动应用的全流程攻略

    Jdk下载链接 证书别名 和 应用名称 可替换成自己的软件名称. 但要记得保存好相关信息 keytool -genkey -alias 证书别名 -keyalg RSA -keysize 2048 -validity 36500 -keystore 应用名称 .keystore 自定义Android包名: 原始默认Android包名为 uni.UNIxxxxxxx 这种类型, 需要去除 uni,推荐改为 com.xxxxx.UNIxxxxx

    2024年02月15日
    浏览(38)
  • 从零开始,我的第一个物联网平台搭建好了,ESP8266+DHT11+阿里云平台+IOT StudioWEB应用开发,实现网页实时查看设备上报的信息,控制开关

        记录下自己做的第一个物联网项目,真正从零开始,断断续续花了2个月时间看各种视频,网站学习有关物联网的知识,期间碰到过好多问题,没有人指导,都得靠自己慢慢研究,有时会很迷茫,没有方向,但还得坚持下去,当经过自己的努力解决一个个问题时,会很兴奋

    2024年01月19日
    浏览(85)
  • AI大模型在效率工具、内容平台、商业流程自动化、机器人、操作系统、智能设备等场景的应用

    随着人工智能技术的快速发展,越来越多的公司开始利用AI大模型来解决各种问题和挑战。AI大模型是指参数量巨大、拥有训练好的模型的人工智能系统,通常需要大量的数据和计算资源进行训练。本文将介绍AI大模型在效率工具、内容平台、商业流程自动化、机器人、操作系

    2024年02月07日
    浏览(40)
  • 基于 ARM+FPGA+AD平台的多类型同步信号采集仪开发及试验验证(二)板卡总体设计

    2.2 板卡总体设计 本章开发了一款基于 AD7193+RJ45 的多类型传感信号同步调理板卡,如图 2.4 所 示,负责将传感器传来的模拟电信号转化为数字信号,以供数据采集系统采集,实现了 单通道自由切换传感信号类型与同步采集多类型传感信号的功能(包含桥式电路信号、 IEPE 传感

    2024年02月06日
    浏览(56)
  • 基于区块链的不动产登记电子证照应用服务系统设计方案---3.总体设计

    3.1.1 充分利用已有基础,链上链下协同工作 目前,全国2853个县区都已经基于不动产登记信息系统,完成不动登记日常业务化运行。部分省、市基于不动产登记信息系统或本省、市一体化政务服务平台电子证照系统启动了不动产权电子证书证明的颁发、管理和共享应用。全国

    2024年03月11日
    浏览(72)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包