flume的安装与配置

这篇具有很好参考价值的文章主要介绍了flume的安装与配置。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一.安装部署

在安装前先确保Hadoop是启动状态。

1.下载flume安装包

自行去官网下载即可Download — Apache Flume,我下载的是flume1.11.0

安装配置flume,flume,大数据,hadoop

2.上传安装包并解压

安装配置flume,flume,大数据,hadoop

 上传后解压

tar -zxvf apache-flume-1.11.0-bin.tar.gz -C /opt/server

3.进入flume目录,修改conf下的flume-env.sh,配置JAVA_HOME

cd /opt/server/apache-flume-1.11.0-bin/conf
# 先复制一份flume-env.sh.template文件
cp flume-env.sh.template flume-env.sh
# 修改
vim flume-env.sh
export JAVA_HOME=/opt/server/jdk1.8.0_212

安装配置flume,flume,大数据,hadoop

 二.采集Nginx日志数据至HDFS

1.安装Nginx

yum install epel-release
yum update
yum -y install nginx

以下是Nginx的一些基本命令:

systemctl start nginx #开启nginx服务
systemctl stop nginx #停止nginx服务
systemctl restart nginx #重启nginx服务

Nginx服务器默认占用80端口,开启Nginx后去浏览器输入虚拟机ip:80查看如果有如下页面说明开启

安装配置flume,flume,大数据,hadoop

 网站日志文件位置:

cd /var/log/nginx

 可访问文件位置查看日志:

安装配置flume,flume,大数据,hadoop

 2.编写配置文件

将flume下的lib文件夹下的guava-11.0.2.jar删除以兼容Hadoop3.1.3,flume1.11.0

cd /opt/server/apache-flume-1.11.0-bin/lib

然后将Hadoop中的jar包复制到flume文件夹中,这里根据自己的flume位置和Hadoop位置进行修改

cp /opt/hadoop/hadoop/share/hadoop/common/*.jar /opt/server/apache-flume-1.11.0-bin/lib
cp /opt/hadoop/hadoop/share/hadoop/common/lib/*.jar /opt/server/apache-flume-1.11.0-bin/lib
cp /opt/hadoop/hadoop/share/hadoop/hdfs/*.jar /opt/server/apache-flume-1.11.0-bin/lib

安装配置flume,flume,大数据,hadoop

有需要覆盖的jar包直接按y覆盖即可

接下来创建配置文件,taildir-hdfs.conf用于监控 /var/log/nginx 目录下的日志文件

先cd /opt/server/apache-flume-1.11.0-bin/conf

然后vim taildir-hdfs.conf粘贴以下内容

a3.sources = r3
a3.sinks = k3
a3.channels = c3
# Describe/configure the source
a3.sources.r3.type = TAILDIR
a3.sources.r3.filegroups = f1
# 此处支持正则
a3.sources.r3.filegroups.f1 = /var/log/nginx/access.log
# 用于记录文件读取的位置信息
a3.sources.r3.positionFile = /opt/server/apache-flume-1.11.0-bin/tail_dir.json
# Describe the sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path = hdfs://server:8020/user/tailDir
a3.sinks.k3.hdfs.fileType = DataStream
# 设置每个文件的滚动大小大概是 128M,默认值:1024,当临时文件达到该大小(单位:bytes)时,滚动
成目标文件。如果设置成0,则表示不根据临时文件大小来滚动文件。
a3.sinks.k3.hdfs.rollSize = 134217700
# 默认值:10,当events数据达到该数量时候,将临时文件滚动成目标文件,如果设置成0,则表示不根据
events数据来滚动文件。
a3.sinks.k3.hdfs.rollCount = 0
# 不随时间滚动,默认为30秒
a3.sinks.k3.hdfs.rollInterval = 10
# flume检测到hdfs在复制块时会自动滚动文件,导致roll参数不生效,要将该参数设置为1;否则HFDS文
件所在块的复制会引起文件滚动
a3.sinks.k3.hdfs.minBlockReplicas = 1
# Use a channel which buffers events in memory
a3.channels.c3.type = memory
a3.channels.c3.capacity = 1000
a3.channels.c3.transactionCapacity = 100
# Bind the source and sink to the channel
a3.sources.r3.channels = c3
a3.sinks.k3.channel = c3

hdfs://server:8020/user/tailDir中的server改为自己的主机名,虚拟机可以改为自己的虚拟机ip地址

三.查看自己的版本并启动flume

1.查看版本

首先

cd /opt/server/apache-flume-1.11.0-bin

然后输入以下命令查看flume版本

bin/flume-ng version

若可以显示如下界面,则说明安装成功

安装配置flume,flume,大数据,hadoop

 2.启动flume

同样是在/opt/server/apache-flume-1.11.0-bin下输入

bin/flume-ng agent -c ./conf -f ./conf/taildir-hdfs.conf -n a3-Dflume.root.logger=INFO,console

安装配置flume,flume,大数据,hadoop文章来源地址https://www.toymoban.com/news/detail-716898.html

到了这里,关于flume的安装与配置的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop生态圈中的Flume数据日志采集工具

    数据采集一般指的是将数据采集到大数据环境下进行持久化、海量化的保存,目的主要是为了我们后期的大数据处理(数据统计分析、数据挖掘等等)沉底数据基础。 不同的来源的数据我们一般有不同的数据采集方式 1、数据来源于我们的RDBMS关系型数据库:Sqoop数据迁移工具

    2024年02月08日
    浏览(46)
  • CDH大数据平台 14Cloudera Manager Console之flume安装和配置(markdown新版)

    💖个人主页:@与自己作战 💯作者简介: CSDN@博客专家 、 CSDN@大数据领域优质创作者 、 CSDN@内容合伙人 、 阿里云@专家博主 🆘希望大佬们多多支持,携手共进 📝 如果文章对你有帮助的话,欢迎评论💬点赞👍收藏📂加关注 ⛔ 如需要支持请私信我 , 💯 必支持

    2024年02月02日
    浏览(47)
  • 【数仓】通过Flume+kafka采集日志数据存储到Hadoop

    【数仓】基本概念、知识普及、核心技术 【数仓】数据分层概念以及相关逻辑 【数仓】Hadoop软件安装及使用(集群配置) 【数仓】Hadoop集群配置常用参数说明 【数仓】zookeeper软件安装及集群配置 【数仓】kafka软件安装及集群配置 【数仓】flume软件安装及配置 【数仓】flum

    2024年03月17日
    浏览(59)
  • 大数据环境搭建 Hadoop+Hive+Flume+Sqoop+Azkaban

    Hadoop:3.1.0 CentOS:7.6 JDK:1.8 这里网上教程很多,就不贴图了 【内存可以尽量大一些,不然Hive运行时内存不够】 创建tools目录,用于存放文件安装包 将Hadoop和JDK的安装包上传上去 创建server目录,存放解压后的文件 解压jdk 配置环境变量 配置免密登录 配置映射,配置ip地址和

    2024年02月09日
    浏览(43)
  • 大数据开发之电商数仓(hadoop、flume、hive、hdfs、zookeeper、kafka)

    1.1.1 数据仓库概念 1、数据仓库概念: 为企业制定决策,提供数据支持的集合。通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制成本,提高产品质量。 数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包括对数据的:清洗、

    2024年01月22日
    浏览(64)
  • 基于Hadoop的豆瓣电影的数据抓取、数据清洗、大数据分析(hdfs、flume、hive、mysql等)、大屏可视化

    项目介绍 有需要整个项目的可以私信博主,提供部署和讲解,对相关案例进行分析和深入剖析 环境点击顶部下载 = 本研究旨在利用Python的网络爬虫技术对豆瓣电影网站进行数据抓取,并通过合理的数据分析和清洗,将非结构化的数据转化为结构化的数据,以便于后续的大数

    2024年02月11日
    浏览(50)
  • flume的安装与配置

    在安装前先确保Hadoop是启动状态。 自行去官网下载即可Download — Apache Flume,我下载的是flume1.11.0  上传后解压 3.进入flume目录,修改conf下的flume-env.sh,配置JAVA_HOME 以下是Nginx的一些基本命令: Nginx服务器默认占用80端口,开启Nginx后去浏览器输入虚拟机ip:80查看如果有如下页面

    2024年02月08日
    浏览(40)
  • 安装配置flume(超详细)

    安装配置flume 1、下载flume的gz包 (百度网盘连接:链接:https://pan.baidu.com/s/1VeelyVBttwLMRS-2LGzp8w?pwd=wanh  提取码:wanh(永久生效)) 2、解压:tar -zxvf apache-flume-1.7.0-bin.tar.gz 3、为了方便和美观,将其改名为flume。 mv apache-flume-1.7.0-bin/ flume 4、查看执行文件 5、配置环境: [root@H

    2023年04月08日
    浏览(32)
  • 大数据集群搭建全部过程(Vmware虚拟机、hadoop、zookeeper、hive、flume、hbase、spark、yarn)

    1.网关配置(参照文档) 注意事项:第一台虚拟机改了,改为centos 101 ,地址为192.168.181.130 网关依然是192.168.181.2,但是一定要注意,它在D盘的文件名称是Hadoop 101,后面重新搭建的会命名文件夹为hadoop 101,hadoop 102和hadoop 103,然后发到一个总的文件夹hadoop_03里面去 VMnet8的IP地址一定

    2024年02月02日
    浏览(100)
  • 大数据存储技术(1)—— Hadoop简介及安装配置

    目录 一、Hadoop简介 (一)概念 (二)Hadoop发展历史 (三)Hadoop三大发行版本 (四)Hadoop的优势  二、Hadoop的组成  (一)Hadoop1.x和Hadoop2.x的区别​编辑 (二)Hadoop的三种运行模式 (三)HDFS架构概述 (四)YARN架构概述 (五)MapReduce架构概述 (六)大数据技术生态体系 

    2024年02月04日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包