hadoop的hdfs中避免因节点掉线产生网络风暴-Toy模板网

这篇具有很好参考价值的文章主要介绍了hadoop的hdfs中避免因节点掉线产生网络风暴。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

hadoop的hdfs中避免因节点掉线产生网络风暴

控制节点掉线RPC风暴的参数
三个参数都是hdfs-site.xml中参数，具体可以参考apache hadoop官网，其实块的复制速度有两个方面决定，一是namenode分发任务的速度，二则是datanode之间进行复制的速度。前者可以理解成入口，后者可以当成出口。
1.入口参数：从namenode层面控制任务分发，这个参数修改必须重启namenode，不需要重启datanode.

dfs.namenode.replication.work.multiplier.per.iteration 
这个参数apache hadoop默认值2，cdh集群默认值10

这个参数决定了当NN与DN进行心跳（3s）发送任务列表时，告诉每个DN可以进行复制的block数量。比如集群有500个节点，这个值设置为10，那么一次心跳namnode可以发送datanode复制的数据块数量是10*500=5000块。假如一个节点掉线/退役有800000块block需要复制，则namenode需要多长时间可以将待复制块的任务分发完给datanode呢。
极限计算的结果：

任务分发时间=待复制block总数/(集群活跃dn*参数值)*心跳时间
time=800000/(500*10)=160次心跳*3s/每次心跳=480s=8分钟

所以节点越多，会分发任务越快,分发速度跟节点数和这个参数都成正比

2.出口参数：相比上面从nanode任务分发控制，下面两个使用datanode层面控制，这两个参数也需要重启namenode

1.dfs.namenode.replication.max-streams

apache hadoop默认值是2，cdh集群默认20。

这个参数含义是控制datanode节点进行数据复制的最大线程数，从上面我们知道block的复制优先级分成5种。这个参数控制不包含最高优先级的块复制。即除最高优先级的复制流限制

2.dfs.namenode.replication.max-streams-hard-limit

这个值apache hadoop默认值2，cdh集群默认值40

这个参数含义是控制datanode所有优先级块复制的流个数，包含最高优先级；一般上面和上面两个参数互相的配合使用。文章来源地址https://www.toymoban.com/news/detail-681143.html

到了这里，关于hadoop的hdfs中避免因节点掉线产生网络风暴的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

hadoop的hdfs中避免因节点掉线产生网络风暴

hadoop的hdfs中避免因节点掉线产生网络风暴

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2