（二十二）大数据实战——Flume数据采集之故障转移案例实战

1年前作者：北溟溟分类：Toy博客阅读(8)违法举报

这篇具有很好参考价值的文章主要介绍了（二十二）大数据实战——Flume数据采集之故障转移案例实战。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

本节内容我们完成Flume数据采集的故障转移案例，使用三台服务器，一台服务器负责采集nc数据，通过使用failover模式的Sink处理器完成监控数据的故障转移，使用Avro的方式完成flume之间采集数据的传输。整体架构如下：

（二十二）大数据实战——Flume数据采集之故障转移案例实战,大数据,大数据,flume

正文

①在hadoop101服务器的/opt/module/apache-flume-1.9.0/job目录下创建job-nc-flume-avro.conf配置文件，用于监控nc并传输到avro sink

- job-nc-flume-avro.conf配置文件

# Name the components on this agent
a1.sources = r1
a1.channels = c1
a1.sinkgroups = g1
a1.sinks = k1 k2
# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444
a1.sinkgroups.g1.processor.type = failover
a1.sinkgroups.g1.processor.priority.k1 = 5
a1.sinkgroups.g1.processor.priority.k2 = 10
a1.sinkgroups.g1.processor.maxpenalty = 10000
# Describe the sink
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hadoop102
a1.sinks.k1.port = 4141
a1.sinks.k2.type = avro
a1.sinks.k2.hostname = hadoop103
a1.sinks.k2.port = 4142
# Describe the channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinkgroups.g1.sinks = k1 k2
a1.sinks.k1.channel = c1
a1.sinks.k2.channel = c1

（二十二）大数据实战——Flume数据采集之故障转移案例实战,大数据,大数据,flume

②在hadoop102服务器的/opt/module/apache-flume-1.9.0/job目录下创建job-avro-flume-console102.conf配置文件，用于监控avro source数据到控制台

- job-avro-flume-console102.conf配置文件

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = avro
a1.sources.r1.bind = hadoop102
a1.sources.r1.port = 4141
# Describe the sink
a1.sinks.k1.type = logger
# Describe the channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

（二十二）大数据实战——Flume数据采集之故障转移案例实战,大数据,大数据,flume

③ 在hadoop103服务器的/opt/module/apache-flume-1.9.0/job目录下创建job-avro-flume-console103.conf配置文件，用于监控avro source数据到控制台

- job-avro-flume-console103.conf配置文件

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = avro
a1.sources.r1.bind = hadoop103
a1.sources.r1.port = 4142
# Describe the sink
a1.sinks.k1.type = logger
# Describe the channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

（二十二）大数据实战——Flume数据采集之故障转移案例实战,大数据,大数据,flume

④启动hadoop102上的flume任务job-avro-flume-console102.conf

- 命令：

bin/flume-ng agent -c conf/ -n a1 -f job/job-avro-flume-console102.conf -Dflume.root.logger=INFO,console

（二十二）大数据实战——Flume数据采集之故障转移案例实战,大数据,大数据,flume

⑤启动hadoop103上的flume任务job-avro-flume-console103.conf

- 命令：

bin/flume-ng agent -c conf/ -n a1 -f job/job-avro-flume-console103.conf -Dflume.root.logger=INFO,console

（二十二）大数据实战——Flume数据采集之故障转移案例实战,大数据,大数据,flume

⑥启动hadoop101上的flume任务job-nc-flume-avro.conf

- 命令：

bin/flume-ng agent -c conf/ -n a1 -f job/job-nc-flume-avro.conf -Dflume.root.logger=INFO,console

（二十二）大数据实战——Flume数据采集之故障转移案例实战,大数据,大数据,flume

⑦使用nc向本地44444监控端口发送数据

- 由于hadoop103中的sink avro优先级高于hadoop102中的sink avro，故hadoop103接收到了nc发送的数据

- 此时将hadoop103中的flume任务停止，继续通过nc发送数据，hadoop102的sink avro替换hadoop103中的flume任务继续接收数据打印到控制台

- 此时在将hadoop103中的flume监控恢复，继续通过nc发送数据，数据继续通过hadoop103中的sink avro接收数据

结语

至此，关于Flume数据采集之故障转移案例实战到这里就结束了，我们下期见。。。。。。文章来源地址https://www.toymoban.com/news/detail-706014.html

到了这里，关于（二十二）大数据实战——Flume数据采集之故障转移案例实战的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

（十九）大数据实战——Flume数据采集框架安装部署
本节内容我们主要介绍一下大数据数据采集框架flume的安装部署，Flume 是一款流行的开源分布式系统，用于高效地采集、汇总和传输大规模数据。它主要用于处理大量产生的日志数据和事件流。Flume 支持从各种数据源（如日志文件、消息队列、数据库等）实时采集数据，并将
2024年02月10日
浏览(6)
一百七十二、Flume——Flume采集Kafka数据写入HDFS中（亲测有效、附截图）
作为日志采集工具Flume，它在项目中最常见的就是采集Kafka中的数据然后写入HDFS或者HBase中，这里就是用flume采集Kafka的数据导入HDFS中 kafka_2.13-3.0.0.tgz hadoop-3.1.3.tar.gz apache-flume-1.9.0-bin.tar.gz # cd /home/hurys/dc_env/flume190/conf # vi evaluation.properties ### Name agent, source, channels and sink ali
2024年02月09日
浏览(4)
大数据项目实战——基于某招聘网站进行数据采集及数据分析（二）
第二章搭建大数据集群环境了解虚拟机的安装和克隆熟悉虚拟机网络配置和 SSH 服务配置掌握 Hadoop 集群的搭建熟悉 Hive 的安装掌握 Sqoop 的安装搭建大数据集群环境是开发本项目的基础。本篇将通过在虚拟机中构建多个Linux操作系统的方式来搭建大数据集群环境。 Hadoop本
2024年02月11日
浏览(6)
大数据项目实战——基于某招聘网站进行数据采集及数据分析（三）
第三章数据采集掌握 HDFS API 的基本使用熟悉 HttpClent 爬虫的使用方法本篇主要对要采集的数据结构进行分析以及创建编写数据采集程序的环境，为最终编写数据采集程序做准备。在爬取网站数据前要先通过分析网站的源码结构制定爬虫程序的编写方式，以便能获取准确的
2024年02月11日
浏览(8)
大数据项目实战——基于某招聘网站进行数据采集及数据分析（一）
掌握项目需求和目标了解项目架构设计和技术选型了解项目环境和相关开发工具理解项目开发流程在人力资源管理领域，网络招聘近年来早已凭借其范围广、信息量大、时效性强、流程简单而效果显著等优势，成为企业招聘的核心方式。随着大数据渐渐融入人类社会生活的
2024年02月02日
浏览(12)
（二十四）大数据实战——Flume数据流监控之Ganglia的安装与部署
本节内容我们主要介绍一下Flume数据流的监控工具Ganglia。Ganglia是一个开源的分布式系统性能监控工具。它被设计用于监视大规模的计算机群集（包括集群、网格和云环境），以便收集和展示系统和应用程序的性能数据。Ganglia 可以轻松地扩展到数千台计算机节点，并支持跨多
2024年02月08日
浏览(6)
【数据采集与预处理】流数据采集工具Flume
目录一、Flume简介（一）Flume定义（二）Flume作用二、Flume组成架构三、Flume安装配置（一）下载Flume （二）解压安装包（三）配置环境变量（四）查看Flume版本信息四、Flume的运行（一）Telnet准备工作（二）使用Avro数据源测试Flume （三）使用netcat数据源测试Flume 五、F
2024年01月21日
浏览(9)
Flume 数据采集
1 . 2 . 1 集群进程查看脚本（1）在/home/bigdata_admin/bin目录下创建脚本xcall.sh [bigdata_admin@hadoop102 bin]$ vim xcall.sh （2）在脚本中编写如下内容（3）修改脚本执行权限 [bigdata_admin@hadoop102 bin ]$ chmod 777 xcall.sh （4）启动脚本 [bigdata_admin@hadoop102 bin ]$ xcall.sh jps 1 . 2.2 H adoop 安装 1）安
2024年02月11日
浏览(7)
【大数据之路7】数据采集工具 Flume 的使用
2023年06月15日
浏览(8)
Flume采集端口数据kafka消费
1.flume单独搭建 2.Flume采集端口数据kafka消费
2024年02月06日
浏览(9)