如何对HDFS进行节点内(磁盘间)数据平衡-Toy模板网

这篇具有很好参考价值的文章主要介绍了如何对HDFS进行节点内(磁盘间)数据平衡。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

当HDFS的DataNode节点挂载多个磁盘时，往往会出现两种数据不均衡的情况：

1.不同DataNode节点间数据不均衡；

2.挂载数据盘的磁盘间数据不均衡。

特别是这种情况：当DataNode原来是挂载了几个数据盘，当磁盘占用率很高之后，再挂载新的数据盘。由于Hadoop 2.x 版本并不支持HDFS的磁盘间数据均衡，因此，会造成老数据磁盘占用率很高，新挂载的数据盘几乎很空。在这种情况下，挂载新的数据盘就失去了扩容HDFS数据盘的意义。

如果想要解决节点内多块磁盘数据不均衡的现象，就要借助DiskBalancer。Hadoop3，默认就支持磁盘间数据均衡，本文档主要介绍在CDP中如何进行HDFS磁盘扩容并在节点内进行Balancer。

1.登陆CM界面，进入HDFS点击配置，搜索“hdfs-site.xml”添加以下内容后并重启HDFS服务

dfs.disk.balancer.enabled=true

hdfs重新平衡,hdfs,hadoop,大数据

2.使用系统的hdfs.keytab进行认证，一般在/var/run/cloudera-scm-agent/process/1952-hdfs-JOURNALNODE 目录下等，或者自己生成，首选CDH系统自动生成的keytab，自己生成的不一定能用

kinit -kt hdfs.keytab hdfs/c1.liuhao.com
klist

hdfs重新平衡,hdfs,hadoop,大数据

3.典型的磁盘平衡器任务涉及三个步骤（通过HDFS的diskbalancer 命令）：plan, execute 和 query。第一步，HDFS客户端从NameNode上读取指定DataNode的的必要信息以生成执行计划：

hdfs重新平衡,hdfs,hadoop,大数据

磁盘平衡执行计划生成的文件内容格式是Json的，并且存储在HDFS之上。在默认情况下，这些文件是存储在 /system/diskbalancer 目录下面。

hdfs diskbalancer -query c1.liuhao.com

4.可以通过下面的命令在DataNode上执行这个生成的计划：

hdfs diskbalancer -execute /system/diskbalancer/2021-Oct-20-21-42-55/c1.liuhao.com.plan.json

hdfs重新平衡,hdfs,hadoop,大数据

5.以上命令将JSON里面的计划提交给DataNode，而DataNode会启动一个名为BlockMover的线程中执行这个计划。我们可以使用 query 命令来查询DataNode上diskbalancer任务的状态：

hdfs diskbalancer -query c1.liuhao.com

hdfs重新平衡,hdfs,hadoop,大数据

这个意思是计划正在执行

hdfs重新平衡,hdfs,hadoop,大数据

上面结果输出的PLAN_DONE表示disk-balancing task已经执行完成。为了验证磁盘平衡器的有效性，我们可以使用df -h 命令来查看各个磁盘的空间使用率：

6.如果集群节点磁盘不均衡，可以在CM界面打开进行均衡文章来源地址https://www.toymoban.com/news/detail-595835.html

到了这里，关于如何对HDFS进行节点内(磁盘间)数据平衡的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

如何对HDFS进行节点内(磁盘间)数据平衡