一百七十三、Flume——Flume写入HDFS后的诸多小文件问题-Toy模板网

这篇具有很好参考价值的文章主要介绍了一百七十三、Flume——Flume写入HDFS后的诸多小文件问题。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、目的

在用Flume采集Kafka中的数据写入HDFS后，发现写入HDFS的不是每天一个文件，而是一个文件夹，里面有很多小文件，浪费namenode的宝贵资源

一百七十三、Flume——Flume写入HDFS后的诸多小文件问题,Flume,flume,hdfs,大数据

在Flume任务的配置文件设置

a1.sinks.k1.hdfs.rollSize = 0
a1.sinks.k1.hdfs.rollCount = 0

一百七十三、Flume——Flume写入HDFS后的诸多小文件问题,Flume,flume,hdfs,大数据

而不是

a1.sinks.k1.hdfs.round=true

a1.sinks.k1.hdfs.roundValue=10

a1.sinks.k1.hdfs.roundUnit=minute

将rollSize和rollCount设置为0，表示不根据临时文件大小和event数量来滚动文件（滚动文件即指将HDFS上生成的以.tmp结尾的临时文件转换为实际存储文件）

还有说可以调大rollSize的参数，比如调至102400,表示100KB。滚动文件的单位是byte。

还是在Flume任务的配置文件设置

a1.sinks.k1.hdfs.minBlockReplicas=1

我测试过，本来每5分钟就会有104.54 KB和1.63 KB的两个文件，因为有两个数据源。

一百七十三、Flume——Flume写入HDFS后的诸多小文件问题,Flume,flume,hdfs,大数据

在配置文件里加入这个a1.sinks.k1.hdfs.minBlockReplicas=1后，那个小文件1.63 KB就消失了。

所以这个方法还是有效的，但是对我来说就有点问题，就把它给去掉了，还是用方法一

Flume虽然安装简单，但是使用起来却非常不简单，使用过程中需要优化的配置服务很多，需要进一步研究总结！文章来源地址https://www.toymoban.com/news/detail-706591.html

到了这里，关于一百七十三、Flume——Flume写入HDFS后的诸多小文件问题的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！