一百九十一、Flume——Flume配置文件各参数含义(持续完善中)

这篇具有很好参考价值的文章主要介绍了一百九十一、Flume——Flume配置文件各参数含义(持续完善中)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、目的

在实际项目的开发过程中,不同Kafka主题的数据规模、数据频率,需要配置不同的Flume参数,而这一切的调试、配置工作,都要建立在对Flume配置文件各参数含义的基础上

二、Flume各参数及其含义

(一)filePrefix

1、含义:写入hdfs的文件名前缀,可以使用flume提供的日期及%{host}表达式

2、默认值为FlumeData

(二)fileSuffix

1、含义:写入hdfs的文件名后缀,比如.lzo .log .txt

(三)inUsePrefix(一般不用管)

1、含义:临时文件的文件名前缀,hdfs sink会先往目标目录中写临时文件,再根据相关规则重命名成最终目标文件

(四)inUseSuffix(一般不用管)

1、含义:临时文件的文件名后缀

2、默认值:.tmp

(五)rollInterval

1、含义:hdfs sink间隔多长将临时文件滚动成最终目标文件,单位:秒

2、默认值:30s

3、如果设置成0,则表示不根据时间来滚动文件

4、注意:滚动(roll)指的是,hdfs sink将临时文件重命名成最终目标文件,并新打开一个临时文件来写入数据

(六)rollSize

1、含义:当临时文件达到该大小(单位:bytes)时,滚动成目标文件

2、默认值:1024byte

3、 如果设置成0,则表示不根据临时文件大小来滚动文件

(七)rollCount

1、含义:当events数据达到该数量时候,将临时文件滚动成目标文件

2、默认值:10

3、如果设置成0,则表示不根据events数据来滚动文件

(八)idleTimeout

1、含义:当目前被打开的临时文件在该参数指定的时间(秒)内,没有任何数据写入,则将该临时文件关闭并重命名成目标文件

2、默认值:0

(九)batchSize

1、含义:每个批次刷新到HDFS上的events数量

2、默认值:100

(十)codeC

1、含义:文件压缩格式,包括:gzip, bzip2, lzo, lzop, snappy

(十一)fileType

1、含义:文件格式,包括:SequenceFile, DataStream,CompressedStream;默认值:SequenceFile

2、当使用DataStream时候,文件不会被压缩,不需要设置hdfs.codeC

3、当使用CompressedStream时候,必须设置一个正确的hdfs.codeC值

(十二)maxOpenFiles

1、含义:最大允许打开的HDFS文件数,当打开的文件数达到该值,最早打开的文件将会被关闭

2、默认值:5000

(十三)minBlockReplicas

1、含义:写入HDFS文件块的最小副本数

2、默认值:HDFS副本数(一般不修改,HDFS副本数默认为3)

3、 该参数会影响文件的滚动配置,一般将该参数配置成1,才可以按照配置正确滚动文件

(十四)writeFormat

1、含义:写sequence文件的格式

2、包含:Text, Writable(默认)

(十五)callTimeout

1、含义:执行HDFS操作的超时时间(单位:毫秒)

2、默认值:10000 (10s)

(十六)threadsPoolSize

1、含义:hdfs sink启动的操作HDFS的线程数

2、默认值:10

(十七)rollTimerPoolSize

1、含义:hdfs sink启动的根据时间滚动文件的线程数

2、默认值:1

(十八)kerberosPrincipal

1、含义:HDFS安全认证kerberos配置

(十九)kerberosKeytab

1、含义:HDFS安全认证kerberos配置

(二十)proxyUser

1、含义:代理用户

(二十一)channel

1、含义:管道

2、一个sink只能有一个管道,但一根管道可以有多个sink

(二十二)type

1、含义:类型

2、Source类型

一百九十一、Flume——Flume配置文件各参数含义(持续完善中),Flume,flume,大数据

3、Sink类型

一百九十一、Flume——Flume配置文件各参数含义(持续完善中),Flume,flume,大数据

4、Channel类型

一百九十一、Flume——Flume配置文件各参数含义(持续完善中),Flume,flume,大数据

(二十三)path

1、含义:写入hdfs的路径,需要包含文件系统标识,比如:hdfs://hurys23:8020/user/hive/warehouse/hurys_dc_ods.db/ods_turnratio/day=%Y-%m-%d/

2、可以使用flume提供的日期及%{host}表达式

(二十四)round

1、含义:是否启用时间上的”舍弃”,这里的”舍弃”,类似于”四舍五入”

2、如果启用,则会影响除了%t的其他所有时间表达式

3、默认值:false

(二十五)roundValue

1、含义:时间上进行“舍弃”的值

2、默认值:1

(二十六)roundUnit

1、含义:时间上进行”舍弃”的单位,包含:second,minute,hour

2、默认值:seconds

(二十七)timeZone

1、含义:时区

2、默认值:Local Time

(二十八)useLocalTimeStamp

1、含义:是否使用当地时间

2、默认值:flase

(二十九)closeTries

1、含义:hdfs sink关闭文件的尝试次数

2、默认值:0

3、如果设置为1,当一次关闭文件失败后,hdfs sink将不会再次尝试关闭文件,这个未关闭的文件将会一直留在那,并且是打开状态

4、如果设置为0,当一次关闭失败后,hdfs sink会继续尝试下一次关闭,直到成功

(三十)retryInterval

1、含义:hdfs sink尝试关闭文件的时间间隔

2、如果设置为0,表示不尝试,相当于于将hdfs.closeTries设置成1

3、默认值:180(秒)

(三十一)serializer

1、含义:序列化类型

2、其他还有:avro_event或者是实现了EventSerializer.Builder的类名

3、默认值:TEXT

(三十二)设置3个round相关参数用来控制多久生成一个文件

    #是否按照时间滚动文件夹
    a1.sinks.k1.hdfs.round = true
    #多少时间单位创建一个新的文件夹
    a1.sinks.k1.hdfs.roundValue = 10
    #重新定义时间单位
    a1.sinks.k1.hdfs.roundUnit = second

(三十三)设置时间戳、刷新频率以及文件类型

    #是否使用本地时间戳
    a1.sinks.k1.hdfs.useLocalTimeStamp = true
    #积攒多少个 Event 才 flush 到 HDFS 一次
    a1.sinks.k1.hdfs.batchSize = 100
    #设置文件类型,可支持压缩
    a1.sinks.k1.hdfs.fileType = DataStream

(三十四)设置下方三个条件,任意一个达到都会生成一个新的文件

    #多久生成一个新的文件
    a1.sinks.k1.hdfs.rollInterval = 60
    #设置每个文件的滚动大小大概是 1M
    a1.sinks.k1.hdfs.rollSize = 1024000
    #文件的滚动与 Event 数量无关
    a1.sinks.k1.hdfs.rollCount = 0

三、Flume配置文件案例

### Name agent, source, channels and sink alias
a1.sources = s1
a1.channels = c1
a1.sinks = k1

### define kafka source
a1.sources.s1.type = org.apache.flume.source.kafka.KafkaSource

# Maximum number of messages written to Channel in one batch
a1.sources.s1.batchSize = 5000

# Maximum time (in ms) before a batch will be written to Channel The batch will be written whenever the first of size and time will be reached.
a1.sources.s1.batchDurationMillis = 2000

# set kafka broker address
a1.sources.s1.kafka.bootstrap.servers = 192.168.0.27:9092

# set kafka consumer group Id and offset consume
# 官网推荐1.9.0版本只设置了topic,但测试后不能正常消费,需要添加消费组id(自己写一个),并定义偏移量消费方式
a1.sources.s1.kafka.consumer.group.id = evaluation_group
a1.sources.s1.kafka.consumer.auto.offset.reset = earliest

# set kafka topic
a1.sources.s1.kafka.topics = topic_b_evaluation


### defind hdfs sink

a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://hurys23:8020/user/hive/warehouse/hurys_dc_ods.db/ods_queue/day=%Y-%m-%d/
a1.sinks.k1.hdfs.filePrefix = queue
a1.sinks.k1.hdfs.fileSuffix = .log
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = second
a1.sinks.k1.hdfs.rollSize = 10240000
a1.sinks.k1.hdfs.rollCount = 0
a1.sinks.k1.hdfs.rollInterval = 0
a1.sinks.k1.hdfs.idleTimeout = 60
a1.sinks.k1.hdfs.minBlockReplicas = 1


### define channel from kafka source to hdfs sink
# memoryChannel:快速,但是当设备断电,数据会丢失
# FileChannel:速度较慢,即使设备断电,数据也不会丢失
a1.channels.c1.type = file
# 这里不单独设置checkpointDir和dataDirs文件位置,参考官网不设置会有默认位置
# channel store size
a1.channels.c1.capacity = 100000
# transaction size
a1.channels.c1.transactionCapacity = 10000


### 绑定source、channel和sink
a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1文章来源地址https://www.toymoban.com/news/detail-721617.html

到了这里,关于一百九十一、Flume——Flume配置文件各参数含义(持续完善中)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • C++之weak_ptr与shared_ptr智能指针实例(一百九十五)

    简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏: Audio工程师进阶系列 【 原创干货持续更新中…… 】🚀 人生格言: 人生从来没有捷径,只有行动才是治疗恐惧和懒惰的唯一良药. 更多原创,欢迎关注:An

    2024年02月09日
    浏览(48)
  • 一百九十八、Java——IDEA项目中有参构造、无参构造等快捷键(持续梳理中)

    由于IDEA项目中有很多快捷键,可以很好的提高开发效率,因此整理一下 快捷键:psvm alt + insert + Constructor alt + insert + Getter and Setter 在 env.fromElements(1, 2, 4, 67, 189) 后面,         .var+回车 持续梳理中!

    2024年02月06日
    浏览(42)
  • 每天一个数据分析题(二百九十六)

    订单详情表是以每一笔订单的每一件商品为最小业务记录单位进行记录的,那么可能成为订单详情表的主键字段的是? A. 订单编号 B. 产品编号 C. 订单ID D. 订单编号+产品编号 题目来源于CDA模拟题库 点击此处获取答案 cda数据分析考试:点击进入

    2024年04月27日
    浏览(27)
  • 一百七十三、Flume——Flume写入HDFS后的诸多小文件问题

    在用Flume采集Kafka中的数据写入HDFS后,发现写入HDFS的不是每天一个文件,而是一个文件夹,里面有很多小文件,浪费namenode的宝贵资源 在Flume任务的配置文件设置 a1.sinks.k1.hdfs.rollSize = 0   a1.sinks.k1.hdfs.rollCount = 0   而不是 a1.sinks.k1.hdfs.round=true a1.sinks.k1.hdfs.roundValue=10 a1.sinks.k1

    2024年02月09日
    浏览(30)
  • Flume采集数据到HDFS配置参数详细解析

    Flume采集数据到HDFS配置参数详细解析 配置解析: channel:管道;一个sink只能有一个管道,但一根管道可以有多个sink type : hdfs path:写入hdfs的路径,需要包含文件系统标识,比如:hdfs://192.168.40.101:9000/flume/%Y-%m-%d/ (可以使用flume提供的日期及%{host}表达式) filePrefix: 写入hdfs的文件名前缀,可以

    2024年02月02日
    浏览(39)
  • 一百四十一、Kettle——kettle8.2在Windows本地开启carte服务以及配置子服务器

    在kettle建好共享资源库后,为了给在服务器上部署kettle的carte服务躺雷,先在Windows本地测试一下怎么玩carte服务 kettle版本是8.2             pdi-ce-8.2.0.0-342     kettle本地安装路径是D:javakettlepdi-ce-8.2.0.0-342 Carte是Kettle自带的调度及监控工具,是一种内置的轻量级的web服务,支

    2024年02月10日
    浏览(41)
  • 一百五十一、Kettle——Linux上安装的kettle8.2开启carte服务以及配置子服务器

    kettle8.2在Linux上安装好可以启动界面、并且可以连接MySQL、Hive、ClickHouse等数据库后,准备在Linux上启动kettle的carte服务 kettle的Linux运行的carte服务文件是carte.sh 文件路径是/opt/install/data-integration/pwd 1、修改主节点配置文件 [root@hurys22 pwd]# vi  carte-config-master-8080.xml  注意:修改8

    2024年02月13日
    浏览(45)
  • 一百七十二、Flume——Flume采集Kafka数据写入HDFS中(亲测有效、附截图)

    作为日志采集工具Flume,它在项目中最常见的就是采集Kafka中的数据然后写入HDFS或者HBase中,这里就是用flume采集Kafka的数据导入HDFS中 kafka_2.13-3.0.0.tgz hadoop-3.1.3.tar.gz apache-flume-1.9.0-bin.tar.gz # cd  /home/hurys/dc_env/flume190/conf # vi  evaluation.properties ### Name agent, source, channels and sink ali

    2024年02月09日
    浏览(34)
  • Flume基础知识(十一):Flume自定义接口

    1)案例需求 使用 Flume 采集服务器本地日志,需要按照日志类型的不同,将不同种类的日志发往不同的分析系统。 2)需求分析 在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要 发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Mul

    2024年02月03日
    浏览(29)
  • PCL点云处理之Gicp配准(附代码,实验结果)(九十一)

    ICP 算法最早由 Arun 等于 1987 年提出,这种点集与点集坐标系匹配的算法被证明是解决复杂配准问题的关键方法。GICP 点云融合算法与 ICP 算 法目标一致,但实现有所区别。ICP 的理论推导严谨,但对点云要求比较严格,在实验中可能无法做到两个点集一一对应(实际上,很多时

    2024年02月13日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包