DolphinScheduler 3.1.0 海豚集群运维使用问题记录

这篇具有很好参考价值的文章主要介绍了DolphinScheduler 3.1.0 海豚集群运维使用问题记录。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


海豚框架官方文档

海豚常见问题

DolphinScheduler 3.1.0 海豚集群运维使用问题记录

常用命令:

命令 含义
bin/start-all.sh 集群群起
bin/stop-all.sh 集群群停
bin/status-all.sh 查看状态
dolphinscheduler-daemon.sh start/stop master-server 单独启动或者停止master-server
dolphinscheduler-daemon.sh start/stop worker-server 单独启动或者停止worker-server
dolphinscheduler-daemon.sh start/stop api-server 单独启动或者停止api-server
dolphinscheduler-daemon.sh start/stop alert-server 单独启动或者停止alert-server(告警)

使用问题

1. 认证问题

**修改几个配置 common.properties文件

resource.hdfs.root.user=hdfs
resource.hdfs.fs.defaultFS=hdfs://nameservice1:8020
hadoop.security.authentication.startup.state=true
java.security.krb5.conf.path=/etc/krb5.conf
login.user.keytab.username=rtassets@CINDASC.COM
login.user.keytab.path=/home/rtassets/rtassets.keytab

**Hdfs下建个目录/user/dolphinscheduler/ 所属用户给rtassets

**复制hdfs 与 core 文件到dolphinscheduler conf目录下


2. 时区问题

DolphinScheduler 3.1.0 海豚集群运维使用问题记录


3. jdk问题导致的认证问题

Hive -e ‘select 1’
不加载还能跑,加载了就跑不了了

DolphinScheduler 3.1.0 海豚集群运维使用问题记录
DolphinScheduler 3.1.0 海豚集群运维使用问题记录

4. 海豚调度sqoop任务问题

(1. 海豚不允许脚本有空行出现

资源中心的shell脚本不允许有空行存在,挺鸡肋的。不如直接在工作流中配置shell节点,然后直接将脚本内容写在里面,那个地方没有要求,而且之后新的版本做了优化,有编辑提示的功能。

(2. 脚本调脚本:权限不足

+sudo -u ‘有权限的用户’

(3. 直接执行某个表的sqoop同步任务:

DolphinScheduler 3.1.0 海豚集群运维使用问题记录

cd /opt/cloudera/parcels/CDH/lib/sqoop/lib

ln -s ../../../jars/hadoop-common-3.0.0-cdh6.3.2.jar hadoop-common-3.0.0-cdh6.3.2.jar


find . -name "*.jar"| awk '{print "jar -tf "$1}'| sh -x | grep -i "mapreduce/InputFormat.class"

ln -s ../../../jars/hadoop-mapreduce-client-core-3.0.0-cdh6.3.2.jar hadoop-mapreduce-client-core-3.0.0-cdh6.3.2.jar

ln -s ../../../jars/hadoop-mapreduce-client-jobclient-3.0.0-cdh6.3.2.jar hadoop-mapreduce-client-jobclient-3.0.0-cdh6.3.2.jar

ln -s ../../../jars/hadoop-mapreduce-client-common-3.0.0-cdh6.3.2.jar hadoop-mapreduce-client-common-3.0.0-cdh6.3.2.jar

(4. sudo权限不足

现有 用户不知道为什么无法执行, 之前ois系统还可以执行,重新定义工作流以后也不行了

配置sudo 权限 没有用

改脚本:
sudo -u用户 sh xxxx.sh


5. 海豚配置hive/impala数据源问题

(1.海豚连接hive数据源配置

DolphinScheduler 3.1.0 海豚集群运维使用问题记录

Hive开启了认证配置,url没有
DolphinScheduler 3.1.0 海豚集群运维使用问题记录

连接参数设置
{“principal”:“hive/cdh209@HADOOP.COM”}

DolphinScheduler 3.1.0 海豚集群运维使用问题记录

缺少exec-包

ln -s /opt/cloudera/parcels/CDH/jars/hive-exec-2.1.1-cdh6.3.2.jar hive-exec-2.1.1-cdh6.3.2.jar

(2. 配置完数据源报错,执行对应sql报错

报错:can’t find udf function resource

查看work日志:
a. 报错:No valid credentials provided (Mechanism level: Failed to find any Kerberos tgt

认证过期,重启dolphinscheduler。

worker节点缺少hive-exec.jar


6. 告警测试出现的问题

(1. 查看告警所在服务器日志: cdh 213,告警模块未启动

DolphinScheduler 3.1.0 海豚集群运维使用问题记录

缺: JDK
去213创建对应的目录

scp -r /dsg/dataxone/jdk/jdk1.8.0_281 dsg@cdh213:/dsg/dataxone/jdk/
Vim /etc/profile 的JAVA_HOME
Source /etc/profile
DolphinScheduler 3.1.0 海豚集群运维使用问题记录
DolphinScheduler 3.1.0 海豚集群运维使用问题记录

告警模块启起来了

告警所需环境jar包(各节点master,worker,api,alsert服务都要同步)
DolphinScheduler 3.1.0 海豚集群运维使用问题记录

(2. 缺少hdfs相关配置文件

DolphinScheduler 3.1.0 海豚集群运维使用问题记录

(3. 设置告警实例,告警组

海豚告警配置

DolphinScheduler 3.1.0 海豚集群运维使用问题记录

DolphinScheduler 3.1.0 海豚集群运维使用问题记录

(4. 集群停掉发出的邮件

DolphinScheduler 3.1.0 海豚集群运维使用问题记录

(5. 集群停掉发出的邮件

DolphinScheduler 3.1.0 海豚集群运维使用问题记录

(6. 任务只有在运行时才可以填相关告警

DolphinScheduler 3.1.0 海豚集群运维使用问题记录


7. 海豚配置oracle、sqlserver数据源

需要填写ip,端口号,用户,密码,数据库名(实例名)
服务名或SID:选择SID或者服务名都可以


8. 疯狂打印日志

cp /etc/hadoop/conf/core-site.xml ./

cp /etc/hadoop/conf/hdfs-site.xml ./

chown dolphinscheduler:dolphinscheduler hdfs-site.xml

hown dolphinscheduler:dolphinscheduler core-site.xml

./zookeeper-client -server cdh207:2181,cdh208:2181,cdh209:2181

deleteall /dolphinscheduler

修改配置: api-server/conf
python-gateway:
enabled: false

修改zookeeper 内存大小
1G -> 2G

查看zookeeper节点master 有个null的删了

DolphinScheduler 3.1.0 海豚集群运维使用问题记录
DolphinScheduler 3.1.0 海豚集群运维使用问题记录

最后去海豚的元数据库, 发现t_ds_process_instance 这张表 112,115…等任务实例的工作流已经被删除,这些任务对应的工作流是source_to_stg*,于是操作数据库删除,然后重启
Mater节点即可

delete from dolphinscheduler.t_ds_process_instance where name like “source_to_stg%”;

bash ./bin/dolphinscheduler-daemon.sh stop master-server
bash ./bin/dolphinscheduler-daemon.sh start master-server


9. 执行任务报错: 没有驱动

DolphinScheduler 3.1.0 海豚集群运维使用问题记录

  1. Worker节点 :Master/libs 目录下放一下oracle 驱动包
    Worker/libs 目录下放一下oracle 驱动包

ln -s /opt/cloudera/parcels/CDH/lib/sqoop/lib/ojdbc6.jar ojdbc6.jar

所有 Sqoop lib包下放sqoop - oracle 驱动包

  1. 然后重启dolphinscheduler即可

10. 依赖定时失败

DolphinScheduler 3.1.0 海豚集群运维使用问题记录

  1. B 工作流的任务依赖 A工作流的任务
    B的定时任务要稍微晚一点

  2. 依赖节点要设置失败重试机制
    重启10次,每次间隔3分钟


11. 认证每天过期

写个crontab 定时任务重新生成
10 9,10 * * * kinit -kt /opt/module/dolphinscheduler-3.0.0_cluster/dolphinscheduler.keytab dolphinscheduler@HADOOP.COM


12. Sql节点仅支持一个sql,且前置sql设置参数不生效

有个sql报资源不足的错误
DolphinScheduler 3.1.0 海豚集群运维使用问题记录

Yarn页面日志:

DolphinScheduler 3.1.0 海豚集群运维使用问题记录

set yarn.nodemanager.vmem-pmem-ratio=3.0;
set mapreduce.map.memory.mb=2048;
set mapreduce.reduce.memory.mb=2048;


13. no Bean Vakudation provider could be found.

Ds刚启起来就挂掉了
DolphinScheduler 3.1.0 海豚集群运维使用问题记录
DolphinScheduler 3.1.0 海豚集群运维使用问题记录

DolphinScheduler 3.1.0 海豚集群运维使用问题记录

最后删除各个模块下hive-jdbc-standalone.jar 解决了


14. 加载资源文件失效

DolphinScheduler 3.1.0 海豚集群运维使用问题记录

由于认证问题

重启集群


15.多人使用同一个用户存在bug

经过验证,多人同时进入dsg用户,不会出现被挤掉的情况,但是如果其中有一个人退出dsg用户,那么所有人都会掉出至登陆页面。


16.DEPENDENT节点mysql元数据显示bug

在我们工作流之间通过DEPENDENT节点间接配置的串行任务中,依赖节点检测不到被依赖节点执行成功的状态或者失败的状态,那么任务实例中它们就会一直显示正在执行,但是实际上它们没有执行,这里是海豚的一个bug。没有什么影响就是一个显示问题,如果要删除,只能在元数据库mysql里删除。
DolphinScheduler 3.1.0 海豚集群运维使用问题记录文章来源地址https://www.toymoban.com/news/detail-432644.html

到了这里,关于DolphinScheduler 3.1.0 海豚集群运维使用问题记录的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 海豚调度 DolphinScheduler(2.x和3.x版本) 本地环境搭建,方便本地调式代码

    💡 本系列文章是 DolphinScheduler 由浅入深的教程,涵盖搭建、二开迭代、核心原理解读、运维和管理等一系列内容。适用于想对 DolphinScheduler了解或想要加深理解的读者。 祝开卷有益。 大数据学习指南 DolphinScheduler 的开源版本有不少的 BUG,所以在公司生产使用的话,需要做二

    2024年02月11日
    浏览(36)
  • 告别手动调度,海豚调度器 3.1.x 集群部署让你轻松管理多机!

    转载自第一片心意 由于海豚调度器官网的集群部署文档写的较乱,安装过程中需要跳转到很多地方进行操作,所以自己总结了一篇可以直接跟着从头到尾进行操作的文档,以方便后续的部署、升级、新增节点、减少节点的相关操作。 JDK:下载JDK (1.8+),安装并配置 JAVA_HOME 环

    2024年04月24日
    浏览(23)
  • Apache DolphinScheduler-3.2.0集群部署教程

    Apache DolphinScheduler官网:https://dolphinscheduler.apache.org/zh-cn Apache DolphinScheduler使用文档:https://dolphinscheduler.apache.org/zh-cn/docs/3.2.0 截止2024-01-19,最新版本:3.2.0 部署版本:apache-dolphinscheduler-3.2.0-bin.tar.gz 主机名 ip 部署服务 hadoop31 192.168.0.31 MasterServer、WorkerServer、ApiServer hadoop32 19

    2024年03月11日
    浏览(36)
  • dolphinscheduler部署排错记录

    问题出现场景: ​ 在部署完ui, worker, master, api四个模块之后,随手建了一个工作流,点击运行的时候,在master节点上出现这个报错。 发送方发送的消息和接收方接收的消息格式不一致,导致报的这个错,但是程序在本地环境上打包成镜像是可以正常跑流程的,部署到K8S之后

    2024年01月21日
    浏览(25)
  • Apache DolphinScheduler 如何实现自动化打包+单机/集群部署?

    Apache DolphinScheduler 是一款开源的分布式任务调度系统,旨在帮助用户实现复杂任务的自动化调度和管理。DolphinScheduler 支持多种任务类型,可以在单机或集群环境下运行。下面将介绍如何实现 DolphinScheduler 的自动化打包和单机/集群部署。 所需环境:maven、jdk 执行以下shell完成

    2024年02月09日
    浏览(24)
  • DolphinScheduler的Master节点掉线问题排查

    问题描述:周一早上,发现DolphinScheduler的任务执行时间停留在了上周五,再一看,Master节点全部掉线。 解决步骤: 1.重启DolphinScheduler,提示dolphinscheduler-master-server-hadoop001.out 和 dolphinscheduler-master-server-hadoop002.out 没权限。 2.给dolphinscheduler-master-server-hadoop001.out 和 dolphinschedu

    2024年02月11日
    浏览(26)
  • 【大数据-调度工具】dolphinscheduler安装和遇到的问题

    安装步骤按照官网安装即可 官网:DolphinScheduler | 文档中心 (apache.org) 版本:3.1.5 Q1.大文件无法上传 问题描述: 在资源中心中上传文件选择完大文件夹之后,选择确认之后确认按钮转了几圈圈之后就没反应了,对应服务器上使用ds登录的用户资源目录也没有对应的文件。 问题

    2024年02月07日
    浏览(36)
  • Apache DolphinScheduler中ZooKeeperCDH不兼容问题的解决方案

    看到Apache DolphinScheduler社区群有很多用户反馈和讨论这块问题,针对不兼容的问题,不仅需要自己重新编译各一个新包,而且因为默认是使用zk-3.8的配置,所以会出现不兼容问题。使用zk-3.4配置即可适配3.4.x 上述命令解释 指定多线程编译,可以增加~ 拓展 Maven中-DskipTests和-D

    2024年02月19日
    浏览(30)
  • 【RabbitMQ】集群和运维

    对于无状态应用(如普通的微服务)很容易实现负载均衡、高可用集群。而对于有状态的系统(如数据库等)就比较复杂。 1. 业界实践: 主备模式:单活,容量对等,可以实现故障转移。使用独立存储时需要借助复制、镜像同步等技术,数据会有延迟、不一致等问题(CAP定

    2024年01月18日
    浏览(22)
  • ETCD集群运维

    在以上的任意一个节点 etcd默认配置在本地网络下通常能够运行的很好,因为延时很低。然而在跨数据中心部署etcd或网络延时很高时,etcd的心跳间隔和选举超时时间等参数需要根据实际情况进行调整。 网络并不是导致延时的唯一来源,不论Follower还是Leader,请求和响应都受磁

    2024年02月11日
    浏览(26)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包