（二十三）大数据实战——Flume数据采集之采集数据聚合案例实战

1年前作者：北溟溟分类：Toy博客阅读(7)违法举报

这篇具有很好参考价值的文章主要介绍了（二十三）大数据实战——Flume数据采集之采集数据聚合案例实战。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

本节内容我们主要介绍一下Flume数据采集过程中，如何把多个数据采集点的数据聚合到一个地方供分析使用。我们使用hadoop101服务器采集nc数据，hadoop102采集文件数据，将hadoop101和hadoop102服务器采集的数据聚合到hadoop103服务器输出到控制台。其整体架构如下：

（二十三）大数据实战——Flume数据采集之采集数据聚合案例实战,大数据,flume,大数据

正文

①在hadoop101服务器的/opt/module/apache-flume-1.9.0/job/group1目录下创建job-nc-flume-avro.conf配置文件，用于监控nc发送的数据，通过avro sink传输到avro source

- job-nc-flume-avro.conf配置文件

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /opt/module/apache-flume-1.9.0/a.log
a1.sources.r1.shell = /bin/bash -c
# Describe the sink
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hadoop103
a1.sinks.k1.port = 4141
# Describe the channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

（二十三）大数据实战——Flume数据采集之采集数据聚合案例实战,大数据,flume,大数据

②在hadoop102服务器的/opt/module/apache-flume-1.9.0/job/group1目录下创建job-file-flume-avro.conf配置文件，用于监控目录/opt/module/apache-flume-1.9.0/a.log的数据，通过avro sink传输到avro source

- job-file-flume-avro.conf配置文件

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /opt/module/apache-flume-1.9.0/a.log
a1.sources.r1.shell = /bin/bash -c
# Describe the sink
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hadoop103
a1.sinks.k1.port = 4141
# Describe the channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

（二十三）大数据实战——Flume数据采集之采集数据聚合案例实战,大数据,flume,大数据

③在hadoop103服务器的/opt/module/apache-flume-1.9.0/job/group1目录下创建job-avro-flume-console.conf配置文件，用户将avro source聚合的数据输出到控制台

- job-avro-flume-console.conf配置文件

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = avro
a1.sources.r1.bind = hadoop103
a1.sources.r1.port = 4141
# Describe the sink
# Describe the sink
a1.sinks.k1.type = logger
# Describe the channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

（二十三）大数据实战——Flume数据采集之采集数据聚合案例实战,大数据,flume,大数据

④ 在hadoop103启动job-avro-flume-console.conf任务

- 命令：

bin/flume-ng agent -c conf/ -n a1 -f job/group1/job-avro-flume-console.conf -Dflume.root.logger=INFO,console

（二十三）大数据实战——Flume数据采集之采集数据聚合案例实战,大数据,flume,大数据

⑤在hadoop101启动job-nc-flume-avro.conf任务

- 命令：

bin/flume-ng agent -c conf/ -n a1 -f job/group1/job-nc-flume-avro.conf -Dflume.root.logger=INFO,console

（二十三）大数据实战——Flume数据采集之采集数据聚合案例实战,大数据,flume,大数据

⑥在hadoop102启动job-file-flume-avro.conf任务

- 命令：

bin/flume-ng agent -c conf/ -n a1 -f job/group1/job-file-flume-avro.conf -Dflume.root.logger=INFO,console

（二十三）大数据实战——Flume数据采集之采集数据聚合案例实战,大数据,flume,大数据

⑦使用nc工具向hadoop101发送数据

- nc发送数据

- hadoop103接收到数据

⑧在hadoop102的a.log中写入数据

- 写入数据

- hadoop103接收到数据

结语

flume数据聚合就是为了将具有相同属性的数据聚合到一起，便于管理、分析、统计等。至此，关于Flume数据采集之采集数据聚合案例实战到这里就结束了，我们下期见。。。。。。文章来源地址https://www.toymoban.com/news/detail-699335.html

到了这里，关于（二十三）大数据实战——Flume数据采集之采集数据聚合案例实战的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

（十九）大数据实战——Flume数据采集框架安装部署
本节内容我们主要介绍一下大数据数据采集框架flume的安装部署，Flume 是一款流行的开源分布式系统，用于高效地采集、汇总和传输大规模数据。它主要用于处理大量产生的日志数据和事件流。Flume 支持从各种数据源（如日志文件、消息队列、数据库等）实时采集数据，并将
2024年02月10日
浏览(6)
大数据项目实战——基于某招聘网站进行数据采集及数据分析（二）
第二章搭建大数据集群环境了解虚拟机的安装和克隆熟悉虚拟机网络配置和 SSH 服务配置掌握 Hadoop 集群的搭建熟悉 Hive 的安装掌握 Sqoop 的安装搭建大数据集群环境是开发本项目的基础。本篇将通过在虚拟机中构建多个Linux操作系统的方式来搭建大数据集群环境。 Hadoop本
2024年02月11日
浏览(6)
大数据项目实战——基于某招聘网站进行数据采集及数据分析（三）
第三章数据采集掌握 HDFS API 的基本使用熟悉 HttpClent 爬虫的使用方法本篇主要对要采集的数据结构进行分析以及创建编写数据采集程序的环境，为最终编写数据采集程序做准备。在爬取网站数据前要先通过分析网站的源码结构制定爬虫程序的编写方式，以便能获取准确的
2024年02月11日
浏览(8)
大数据项目实战——基于某招聘网站进行数据采集及数据分析（一）
掌握项目需求和目标了解项目架构设计和技术选型了解项目环境和相关开发工具理解项目开发流程在人力资源管理领域，网络招聘近年来早已凭借其范围广、信息量大、时效性强、流程简单而效果显著等优势，成为企业招聘的核心方式。随着大数据渐渐融入人类社会生活的
2024年02月02日
浏览(12)
（二十四）大数据实战——Flume数据流监控之Ganglia的安装与部署
本节内容我们主要介绍一下Flume数据流的监控工具Ganglia。Ganglia是一个开源的分布式系统性能监控工具。它被设计用于监视大规模的计算机群集（包括集群、网格和云环境），以便收集和展示系统和应用程序的性能数据。Ganglia 可以轻松地扩展到数千台计算机节点，并支持跨多
2024年02月08日
浏览(6)
【数据采集与预处理】流数据采集工具Flume
目录一、Flume简介（一）Flume定义（二）Flume作用二、Flume组成架构三、Flume安装配置（一）下载Flume （二）解压安装包（三）配置环境变量（四）查看Flume版本信息四、Flume的运行（一）Telnet准备工作（二）使用Avro数据源测试Flume （三）使用netcat数据源测试Flume 五、F
2024年01月21日
浏览(9)
Flume 数据采集
1 . 2 . 1 集群进程查看脚本（1）在/home/bigdata_admin/bin目录下创建脚本xcall.sh [bigdata_admin@hadoop102 bin]$ vim xcall.sh （2）在脚本中编写如下内容（3）修改脚本执行权限 [bigdata_admin@hadoop102 bin ]$ chmod 777 xcall.sh （4）启动脚本 [bigdata_admin@hadoop102 bin ]$ xcall.sh jps 1 . 2.2 H adoop 安装 1）安
2024年02月11日
浏览(7)
【大数据之路7】数据采集工具 Flume 的使用
2023年06月15日
浏览(8)
Flume采集端口数据kafka消费
1.flume单独搭建 2.Flume采集端口数据kafka消费
2024年02月06日
浏览(9)
Flume学习-采集端口数据存入kafka
启动zookeeper、kafka并创建kafka主题 2、创建flume-kafka.conf配置文件用于采集socket数据后存入kafka 在flume文件夹中的conf下新建flume-kafka.conf配置文件设置监听本地端口10050 netcat发送的socket数据，讲采集到的数据存入kafka的hunter主题中 3、启动flume ./bin/flume-ng ：启动Flume-ng二进制文件。
2024年02月03日
浏览(7)