数仓学习---15、数据仓库工作流调度

这篇具有很好参考价值的文章主要介绍了数仓学习---15、数据仓库工作流调度。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、数据仓库工作流调度

1.1 调度工具部署

工具部署链接

1.2 新数据生成

1.2.1 用户行为日志

1、启动日志采集通道,包括Kafka、Flume等
(1)启动Zookeeper

zk.sh start

(2)启动Kafka

kf.sh start

(3)启动Flume

f1.sh start
f2.sh start

2、修改日志模拟器配置文件
修改hadoop102和hadoop103两台节点中的/opt/module/applog/application.yml文件,修改mock.date参数如下。

mock.date: "2020-06-15"

3、执行日志生成脚本

lg.sh

4、观察HDFS上是否有2020-06-15的日志数据生成

1.2.2 业务数据

1、修改Maxwell配置文件
(1)修改/opt/module/maxwell/config.properties文件

vim /opt/module/maxwell/config.properties

(2)修改mock_date参数设置如下

mock_date=2020-06-15

2、启动增量表采集通道,包括Maxwel、Kafka、Flume等
(1)启动Maxwell

mxw.sh start

注意:若Maxwell当前正在运行,为确保上述mock参数生效,需重启Maxwell。
(2)启动Flume

f3.sh start

(3)修改业务数据模拟器配置文件中的mock_date参数

mock.date=2020-06-15

(4)执行业务数据生成命令

java -jar gmall2020-mock-db-2021-10-10.jar 

(5)观察HDFS上增量表是否有2020-06-15的数据生成

1.3 工作流调度实操

由于DolphinScheduler集群模式启动进程较多,对虚拟机内存要求较高。故下面提供两种方式,可根据虚拟机内存情况进行选择。

1.3.1 DolphinScheduler集群模式

1、启动DolphinScheduler

dolphinscheduler/bin/start-all.sh 

2、使用普通用户登录
3、向DolphinScheduler资源中心上传工作流所需脚本
(1)创建文件夹
数仓学习---15、数据仓库工作流调度,数仓学习,学习,数据仓库,大数据
(2)上传工作流所需脚本
将工作流所需的所有脚本上传到资源中心scripts路径下,结果如下
数仓学习---15、数据仓库工作流调度,数仓学习,学习,数据仓库,大数据
4、向DolphinScheduler的WorkerServer节点分发脚本依赖的组件
由于工作流要执行的脚本需要调用Hive、DataX等组件,故在DolphinScheduler的集群模式下,需要确保每个WorkerServer节点都有脚本所依赖的组件。

 xsync /opt/module/hive/
 xsync /opt/module/spark/
 xsync /opt/module/datax/

5、创建工作流
(1)在gmall项目下创建工作流
数仓学习---15、数据仓库工作流调度,数仓学习,学习,数据仓库,大数据
(2)各任务节点配置如下

mysql_to_hdfs_full
数仓学习---15、数据仓库工作流调度,数仓学习,学习,数据仓库,大数据
hdfs_to_ods_db
数仓学习---15、数据仓库工作流调度,数仓学习,学习,数据仓库,大数据
hdfs_to_ods_log
数仓学习---15、数据仓库工作流调度,数仓学习,学习,数据仓库,大数据
ods_to_dwd
数仓学习---15、数据仓库工作流调度,数仓学习,学习,数据仓库,大数据
ods_to_dim
数仓学习---15、数据仓库工作流调度,数仓学习,学习,数据仓库,大数据
dwd_to_dws_1d
数仓学习---15、数据仓库工作流调度,数仓学习,学习,数据仓库,大数据
dws_1d_to_dws_nd
数仓学习---15、数据仓库工作流调度,数仓学习,学习,数据仓库,大数据
dws_1d_to_dws_td
数仓学习---15、数据仓库工作流调度,数仓学习,学习,数据仓库,大数据
dws_to_ads
数仓学习---15、数据仓库工作流调度,数仓学习,学习,数据仓库,大数据
hdfs_to_mysql
数仓学习---15、数据仓库工作流调度,数仓学习,学习,数据仓库,大数据
(3)各节点依赖关系如下
数仓学习---15、数据仓库工作流调度,数仓学习,学习,数据仓库,大数据
(4)保存工作流
数仓学习---15、数据仓库工作流调度,数仓学习,学习,数据仓库,大数据
注意:定时调度时,全局参数值应设置为$[yyyy-MM-dd-1]或者空值。
7、上线工作流
数仓学习---15、数据仓库工作流调度,数仓学习,学习,数据仓库,大数据
8、执行工作流
数仓学习---15、数据仓库工作流调度,数仓学习,学习,数据仓库,大数据
数仓学习---15、数据仓库工作流调度,数仓学习,学习,数据仓库,大数据文章来源地址https://www.toymoban.com/news/detail-612266.html

到了这里,关于数仓学习---15、数据仓库工作流调度的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • PyTorch Lightning:通过分布式训练扩展深度学习工作流

              欢迎来到我们关于 PyTorch Lightning 系列的第二篇文章!在上一篇文章中,我们向您介绍了 PyTorch Lightning,并探讨了它在简化深度学习模型开发方面的主要功能和优势。我们了解了 PyTorch Lightning 如何为组织和构建 PyTorch 代码提供高级抽象,使研究人员和从业者能够

    2024年02月11日
    浏览(37)
  • 深度学习模型部署(六)TensorRT工作流and入门demo

    官方给出的步骤: 总结下来可以分为两大部分: 模型生成:将onnx经过一系列优化,生成tensorrt的engine模型 选择batchsize,选择精度precision,模型转换 模型推理:使用python或者C++进行推理 生成trt模型: 然后就坐等输出模型,我们可以根据log信息看一下tensorRT都干了什么: 得到

    2024年03月13日
    浏览(40)
  • 数据工作流中的安全和隐私保护:技术和最佳实践

    作者:禅与计算机程序设计艺术 随着大数据的爆炸性增长、应用场景日益丰富、用户隐私权保护意识日渐增强等因素的影响,对数据处理过程中的安全和隐私保护问题越来越受到重视。如何充分实现数据集中存储、传输、加工等环节中的安全防护,是一个非常关键的问题。在

    2024年02月14日
    浏览(42)
  • 中东 Shopify 如何使用 Bytebase 构建一站式数据库开发工作流

    Salla 是一家 2016 年成立,位于沙特麦加的自建站电商平台。 作为中东 Shopify,其最大的特点是支持阿拉伯语建站,并且提供更多适应中东地区特点的本地化服务。截止目前,已有 47,000 家店铺入驻 Salla,商品销售总额达到了 43 亿美元,近三年保持了接近 100% 的增速。 与 Sall

    2024年02月09日
    浏览(40)
  • PowerAutomate工作流实现将Sharepoint列表中的数据复制到任意站点的某个列表

            本次的工作流案例是实现将Sharepoint列表中的数据复制到任意站点的列表,要实现的目标是:当列表A中创建或修改数据时,工作流会获取该数据并复制到列表B中,同样列表A中的数据发生修改时,列表B中存在的数据同步发生修改。 下面以两个列表进行举例,列表

    2024年02月11日
    浏览(35)
  • 【工作流】Activiti工作流简介以及Spring Boot 集成 Activiti7

    什么是工作流? 工作流指通过计算机对业务流程进行自动化管理,实现多个参与者按照预定义的流程去自动执行业务流程。 文章源码托管:https://github.com/OUYANGSIHAI/Activiti-learninig Activiti5是由Alfresco软件在2010年5月17日发布的业务流程管理(BPM)框架,它是覆盖了业务流程管理、

    2024年02月08日
    浏览(43)
  • 云原生离线工作流编排利器 -- 分布式工作流 Argo 集群

    作者:庄宇 在现代的软件开发和数据处理领域,批处理作业(Batch)扮演着重要的角色。它们通常用于数据处理,仿真计算,科学计算等领域,往往需要大规模的计算资源。随着云计算的兴起,阿里云批量计算和 AWS Batch 等云服务提供了管理和运行这些批处理作业的平台。 随

    2024年01月24日
    浏览(73)
  • 设计模式学习笔记 - 设计模式与范式 -行为型:8.状态模式:游戏、工作流引擎中常用的状态机是如何实现的?

    本章学习状态模式。在实际的开发中,状态模式并不是很常用,但是在能够用到的场景里,它可以发挥很大的作用。从这一点上看,它有点像我们之前讲到的组合模式。 状态模式一般用来实现状态机,而状态机常用在游戏、工作流引擎等系统开发中。不过,状态机的实现方式

    2024年04月10日
    浏览(40)
  • Camunda 7工作流引擎 API 以及与Springboot集成实现工作流配置全纪录

    项目中需要用到工作流引擎来设计部分业务流程,框架选型最终选择了 Camunda7,关于 Camunda以及 Activity 等其他工作流 引擎的介绍及对比不再介绍,这里只介绍与现有Springboot项目的集成以及具体使用及配置 流程(PROCESS): 通过工具建模最终生成的BPMN文件,里面有整个流程的定

    2024年02月10日
    浏览(48)
  • Git 工作流设计

    前言 常用的工作流有四种 集中式工作流 功能分支流 git flow 工作流 forking 工作流 集中式工作流 集中式工作流,多个功能(feat),bug修复(fix) 在一个分支上开发,极容易出现代码从冲突 功能分支流 新的功能或者bug fork出一个新的分支,在该分支上开发 功能在分支开发完后再合

    2024年02月05日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包