（二十一）大数据实战——Flume数据采集之复制和多路复用案例实战

1年前作者：北溟溟分类：Toy博客阅读(8)违法举报

这篇具有很好参考价值的文章主要介绍了（二十一）大数据实战——Flume数据采集之复制和多路复用案例实战。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

本节内容我们完成Flume数据采集的一个多路复用案例，使用三台服务器，一台服务器负责采集本地日志数据，通过使用Replicating ChannelSelector选择器，将采集到的数据分发到另外俩台服务器，一台服务器将数据存储到hdfs，另外一台服务器将数据存储在本机，使用Avro的方式完成flume之间采集数据的传输。整体架构如下：

（二十一）大数据实战——Flume数据采集之复制和多路复用案例实战,大数据,大数据,flume

正文

①在hadoop101服务器的/opt/module/apache-flume-1.9.0/job目录下创建job-file-flume-avro.conf配置文件，用于监控hive日志并传输到avro sink

- job-file-flume-avro.conf配置文件

# Name the components on this agent
a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1 c2
# 将数据流复制给所有 channel
a1.sources.r1.selector.type = replicating
# Describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /tmp/hadoop/hive.log
a1.sources.r1.shell = /bin/bash -c
# Describe the sink
# sink 端的 avro 是一个数据发送者
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hadoop102
a1.sinks.k1.port = 4141
a1.sinks.k2.type = avro
a1.sinks.k2.hostname = hadoop103
a1.sinks.k2.port = 4142
# Describe the channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
a1.channels.c2.type = memory
a1.channels.c2.capacity = 1000
a1.channels.c2.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1 c2
a1.sinks.k1.channel = c1
a1.sinks.k2.channel = c2

（二十一）大数据实战——Flume数据采集之复制和多路复用案例实战,大数据,大数据,flume

②在hadoop102服务器的/opt/module/apache-flume-1.9.0/job目录下创建job-avro-flume-hdfs.conf配置文件，将监控数据传输到hadoop的hdfs系统

- job-avro-flume-hdfs.conf配置文件

# Name the components on this agent
a2.sources = r1
a2.sinks = k1
a2.channels = c1
# Describe/configure the source
# source 端的 avro 是一个数据接收服务
a2.sources.r1.type = avro
a2.sources.r1.bind = hadoop102
a2.sources.r1.port = 4141
# Describe the sink
a2.sinks.k1.type = hdfs
a2.sinks.k1.hdfs.path = hdfs://hadoop101:8020/flume2/%Y%m%d/%H
#上传文件的前缀
a2.sinks.k1.hdfs.filePrefix = flume2-
#是否按照时间滚动文件夹
a2.sinks.k1.hdfs.round = true
#多少时间单位创建一个新的文件夹
a2.sinks.k1.hdfs.roundValue = 1
#重新定义时间单位
a2.sinks.k1.hdfs.roundUnit = hour
#是否使用本地时间戳
a2.sinks.k1.hdfs.useLocalTimeStamp = true
#积攒多少个 Event 才 flush 到 HDFS 一次
a2.sinks.k1.hdfs.batchSize = 100
#设置文件类型，可支持压缩
a2.sinks.k1.hdfs.fileType = DataStream
#多久生成一个新的文件
a2.sinks.k1.hdfs.rollInterval = 30
#设置每个文件的滚动大小大概是 128M
a2.sinks.k1.hdfs.rollSize = 134217700
#文件的滚动与 Event 数量无关
a2.sinks.k1.hdfs.rollCount = 0
# Describe the channel
a2.channels.c1.type = memory
a2.channels.c1.capacity = 1000
a2.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a2.sources.r1.channels = c1
a2.sinks.k1.channel = c1

（二十一）大数据实战——Flume数据采集之复制和多路复用案例实战,大数据,大数据,flume

③在hadoop103服务器的/opt/module/apache-flume-1.9.0/job目录下创建job-avro-flume-dir.conf配置文件，将监控数据传输到/opt/module/apache-flume-1.9.0/flume3目录下

- job-avro-flume-dir.conf配置文件

# Name the components on this agent
a3.sources = r1
a3.sinks = k1
a3.channels = c2
# Describe/configure the source
a3.sources.r1.type = avro
a3.sources.r1.bind = hadoop103
a3.sources.r1.port = 4142
# Describe the sink
a3.sinks.k1.type = file_roll
a3.sinks.k1.sink.directory = /opt/module/apache-flume-1.9.0/flume3
# Describe the channel
a3.channels.c2.type = memory
a3.channels.c2.capacity = 1000
a3.channels.c2.transactionCapacity = 100
# Bind the source and sink to the channel
a3.sources.r1.channels = c2
a3.sinks.k1.channel = c2

（二十一）大数据实战——Flume数据采集之复制和多路复用案例实战,大数据,大数据,flume

- 创建数据存储目录/opt/module/apache-flume-1.9.0/flume3

（二十一）大数据实战——Flume数据采集之复制和多路复用案例实战,大数据,大数据,flume

④启动hadoop集群

（二十一）大数据实战——Flume数据采集之复制和多路复用案例实战,大数据,大数据,flume

⑤启动hadoop102上的flume任务job-avro-flume-hdfs.conf

- 命令：

bin/flume-ng agent -c conf/ -n a2 -f job/job-avro-flume-hdfs.conf -Dflume.root.logger=INFO,console

（二十一）大数据实战——Flume数据采集之复制和多路复用案例实战,大数据,大数据,flume

⑥启动hadoop103上的flume任务job-avro-flume-dir.conf

- 命令：

bin/flume-ng agent -c conf/ -n a3 -f job/job-avro-flume-dir.conf -Dflume.root.logger=INFO,console

（二十一）大数据实战——Flume数据采集之复制和多路复用案例实战,大数据,大数据,flume

⑦启动hadoop101上的flume任务job-file-flume-avro.conf

- 命令：

bin/flume-ng agent -c conf/ -n a1 -f job/job-file-flume-avro.conf -Dflume.root.logger=INFO,console

（二十一）大数据实战——Flume数据采集之复制和多路复用案例实战,大数据,大数据,flume

⑧启动hive

（二十一）大数据实战——Flume数据采集之复制和多路复用案例实战,大数据,大数据,flume

⑨查看监控结果

- 查看hdfs

- 查看存储目录/opt/module/apache-flume-1.9.0/flume3下的文件

结语

至此，关于Flume数据采集之复制和多路复用案例实战到这里就结束了，我们下期见。。。。。。文章来源地址https://www.toymoban.com/news/detail-706601.html

到了这里，关于（二十一）大数据实战——Flume数据采集之复制和多路复用案例实战的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

（十九）大数据实战——Flume数据采集框架安装部署
本节内容我们主要介绍一下大数据数据采集框架flume的安装部署，Flume 是一款流行的开源分布式系统，用于高效地采集、汇总和传输大规模数据。它主要用于处理大量产生的日志数据和事件流。Flume 支持从各种数据源（如日志文件、消息队列、数据库等）实时采集数据，并将
2024年02月10日
浏览(8)
大数据项目实战——基于某招聘网站进行数据采集及数据分析（二）
第二章搭建大数据集群环境了解虚拟机的安装和克隆熟悉虚拟机网络配置和 SSH 服务配置掌握 Hadoop 集群的搭建熟悉 Hive 的安装掌握 Sqoop 的安装搭建大数据集群环境是开发本项目的基础。本篇将通过在虚拟机中构建多个Linux操作系统的方式来搭建大数据集群环境。 Hadoop本
2024年02月11日
浏览(8)
大数据项目实战——基于某招聘网站进行数据采集及数据分析（三）
第三章数据采集掌握 HDFS API 的基本使用熟悉 HttpClent 爬虫的使用方法本篇主要对要采集的数据结构进行分析以及创建编写数据采集程序的环境，为最终编写数据采集程序做准备。在爬取网站数据前要先通过分析网站的源码结构制定爬虫程序的编写方式，以便能获取准确的
2024年02月11日
浏览(10)
大数据项目实战——基于某招聘网站进行数据采集及数据分析（一）
掌握项目需求和目标了解项目架构设计和技术选型了解项目环境和相关开发工具理解项目开发流程在人力资源管理领域，网络招聘近年来早已凭借其范围广、信息量大、时效性强、流程简单而效果显著等优势，成为企业招聘的核心方式。随着大数据渐渐融入人类社会生活的
2024年02月02日
浏览(13)
（二十四）大数据实战——Flume数据流监控之Ganglia的安装与部署
本节内容我们主要介绍一下Flume数据流的监控工具Ganglia。Ganglia是一个开源的分布式系统性能监控工具。它被设计用于监视大规模的计算机群集（包括集群、网格和云环境），以便收集和展示系统和应用程序的性能数据。Ganglia 可以轻松地扩展到数千台计算机节点，并支持跨多
2024年02月08日
浏览(9)
【数据采集与预处理】流数据采集工具Flume
目录一、Flume简介（一）Flume定义（二）Flume作用二、Flume组成架构三、Flume安装配置（一）下载Flume （二）解压安装包（三）配置环境变量（四）查看Flume版本信息四、Flume的运行（一）Telnet准备工作（二）使用Avro数据源测试Flume （三）使用netcat数据源测试Flume 五、F
2024年01月21日
浏览(14)
Flume 数据采集
1 . 2 . 1 集群进程查看脚本（1）在/home/bigdata_admin/bin目录下创建脚本xcall.sh [bigdata_admin@hadoop102 bin]$ vim xcall.sh （2）在脚本中编写如下内容（3）修改脚本执行权限 [bigdata_admin@hadoop102 bin ]$ chmod 777 xcall.sh （4）启动脚本 [bigdata_admin@hadoop102 bin ]$ xcall.sh jps 1 . 2.2 H adoop 安装 1）安
2024年02月11日
浏览(8)
【大数据之路7】数据采集工具 Flume 的使用
2023年06月15日
浏览(11)
Flume采集端口数据kafka消费
1.flume单独搭建 2.Flume采集端口数据kafka消费
2024年02月06日
浏览(12)
Flume学习-采集端口数据存入kafka
启动zookeeper、kafka并创建kafka主题 2、创建flume-kafka.conf配置文件用于采集socket数据后存入kafka 在flume文件夹中的conf下新建flume-kafka.conf配置文件设置监听本地端口10050 netcat发送的socket数据，讲采集到的数据存入kafka的hunter主题中 3、启动flume ./bin/flume-ng ：启动Flume-ng二进制文件。
2024年02月03日
浏览(12)