用DolphinScheduler轻松实现Flume数据采集任务自动化！

7月前作者：海豚调度分类：Toy博客阅读(52) 违法举报

这篇具有很好参考价值的文章主要介绍了用DolphinScheduler轻松实现Flume数据采集任务自动化！。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

转载自天地风雷水火山泽

目的

因为我们的数仓数据源是Kafka，离线数仓需要用Flume采集Kafka中的数据到HDFS中。
在实际项目中，我们不可能一直在Xshell中启动Flume任务，一是因为项目的Flume任务很多，二是一旦Xshell页面关闭Flume任务就会停止，这样非常不方便，因此必须在后台启动Flume任务。
所以经过测试后，我发现海豚调度器也可以启动Flume任务。

海豚调度Flume任务配置

（一）Flume在Linux中的路径

（二）Flume任务文件在Linux中的位置以及任务文件名

（三）在海豚中配置运行脚本

#!/bin/bash
source /etc/profile

/usr/local/hurys/dc_env/flume/flume190/bin/flume-ng agent -n a1 -f /usr/local/hurys/dc_env/flume/flume190/conf/statistics.properties

注意：/usr/local/hurys/dc_env/flume/flume190/为Flume在Linux中的安装，根据自己安装路径进行调整
（四）海豚任务配置好后就可以启动海豚任务

（五）在HDFS对应文件夹中验证是否采集到数据

可以看到，Flume采集Kafka数据成功写入到HDFS中，成功实现用Apache DolphinScheduler执行Flume任务的目的！
原文链接：
https://blog.csdn.net/tiantang2renjian/article/details/136399112

本文由白鲸开源提供发布支持！文章来源地址https://www.toymoban.com/news/detail-856794.html

到了这里，关于用DolphinScheduler轻松实现Flume数据采集任务自动化！的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Flume采集端口数据kafka消费

1.flume单独搭建 2.Flume采集端口数据kafka消费

2024年02月06日
浏览(49)
Flume采集数据到Kafka操作详解

目录一、创建一个Kafka主题二、配置Flume 三、开启Flume 四、开启Kafka消费者五、复制文件到Flume监控的source目录下六、查看Flume是否能够成功采集七、采集后查看Kafka消费者主题八、采集数据错误解决办法 1.Ctrl+C关闭flume 2.删除出错的topic并重新创建 3.删除对应Flume文件中指定

2024年02月09日
浏览(62)
Flume学习-采集端口数据存入kafka

启动zookeeper、kafka并创建kafka主题 2、创建flume-kafka.conf配置文件用于采集socket数据后存入kafka 在flume文件夹中的conf下新建flume-kafka.conf配置文件设置监听本地端口10050 netcat发送的socket数据，讲采集到的数据存入kafka的hunter主题中 3、启动flume ./bin/flume-ng ：启动Flume-ng二进制文件。

2024年02月03日
浏览(46)
1、电商数仓（用户行为采集平台）数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume

数据仓库（ Data Warehouse ），是为企业制定决策，提供数据支持的。可以帮助企业，改进业务流程、提高产品质量等。数据仓库的输入数据通常包括：业务数据、用户行为数据和爬虫数据等。业务数据：就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、

2024年02月12日
浏览(45)
Sqoop与Flume的集成：实时数据采集

将Sqoop与Flume集成是实现实时数据采集和传输的重要步骤之一。Sqoop用于将数据从关系型数据库导入到Hadoop生态系统中，而Flume用于数据流的实时采集、传输和处理。本文将深入探讨如何使用Sqoop与Flume集成，提供详细的步骤、示例代码和最佳实践，以确保能够成功实现实时数据

2024年01月23日
浏览(51)
（十九）大数据实战——Flume数据采集框架安装部署

本节内容我们主要介绍一下大数据数据采集框架flume的安装部署，Flume 是一款流行的开源分布式系统，用于高效地采集、汇总和传输大规模数据。它主要用于处理大量产生的日志数据和事件流。Flume 支持从各种数据源（如日志文件、消息队列、数据库等）实时采集数据，并将

2024年02月10日
浏览(46)
【flume实时采集mysql数据库的数据到kafka】

最近做了flume实时采集mysql数据到kafka的实验，做个笔记，防止忘记！！！建议从头看到尾，因为一些简单的东西我在前面提了，后面没提。 Kafka搭建：https://blog.csdn.net/cjwfinal/article/details/120803013 flume搭建：https://blog.csdn.net/cjwfinal/article/details/120441503?spm=1001.2014.3001.5502 编写配置

2024年02月03日
浏览(60)
Flume采集数据到HDFS配置参数详细解析

Flume采集数据到HDFS配置参数详细解析配置解析: channel:管道;一个sink只能有一个管道,但一根管道可以有多个sink type : hdfs path:写入hdfs的路径,需要包含文件系统标识,比如:hdfs://192.168.40.101:9000/flume/%Y-%m-%d/ (可以使用flume提供的日期及%{host}表达式) filePrefix: 写入hdfs的文件名前缀,可以

2024年02月02日
浏览(55)
（二十）大数据实战——Flume数据采集的基本案例实战

本节内容我们主要介绍几个Flume数据采集的基本案例，包括监控端口数据、实时监控单个追加文件、实时监控目录下多个新文件、实时监控目录下的多个追加文件等案例。完成flume数据监控的基本使用。监控端口数据 ①需求说明 - 使用 Flume 监听一个端口，收集该端口数据，并

2024年02月10日
浏览(43)
大数据之使用Flume监听端口采集数据流到Kafka

前言题目：一、读题分析二、处理过程 1.先在Kafka中创建符合题意的Kafka的topic 创建符合题意的Kafka的topic 2.写出Flume所需要的配置文件 3.启动脚本然后启动Flume监听端口数据并传到Kafka 启动flume指令启动脚本，观察Flume和Kafka的变化三、重难点分析总结本题

2024年02月08日
浏览(59)