大数据开发之Hive案例篇14：某个节点HDFS块比较多

这篇具有很好参考价值的文章主要介绍了大数据开发之Hive案例篇14：某个节点HDFS块比较多。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一. 问题描述

今天早上到公司，突然收到CDH集群某个节点的存储量的告警，如下图所示:
大数据开发之Hive案例篇14：某个节点HDFS块比较多

从图中可以看出，每个节点的HDFS空间是相同的，大多节点HDFS使用量在40%左右，而出问题的这个节点居然直逼80%，鉴于之前问题出现过多次，且每次都是利用空余时间使用HDFS的rebalance进行解决的，此处需要找出具体问题，规避此类问题。

二. 解决方案

2.1 查看节点安装的组件

大数据开发之Hive案例篇14：某个节点HDFS块比较多

2.2 排查HDFS配置

初步排查了一下各个节点的HDFS配置，暂未发现问题，且各个节点HDFS的配置是通过 Cloudera Manager进行配置的，配置也相同，不存在某个节点的HDFS相关配置出现问题，进而出现个别节点资源使用率高的情况。

2.3 排查Yarn配置

2.3.1 首先查看下nodemanager的日志

对比出问题的节点和正常的节点，从审计日志量来看，出问题的节点审计日志明显比正常节点多。
大数据开发之Hive案例篇14：某个节点HDFS块比较多

审计日志内容均是申请AM的，现在的问题是为什么cdh10节点的AM比其他节点多那么多?
大数据开发之Hive案例篇14：某个节点HDFS块比较多

2.3.2 查看container分配情况

正在运行container:
从下面截图来看，未发现啥异常情况。
大数据开发之Hive案例篇14：某个节点HDFS块比较多

从历史分配情况来看:
对比了cdh10和cdh7，发现近7天分配的container是均匀的。
大数据开发之Hive案例篇14：某个节点HDFS块比较多

大数据开发之Hive案例篇14：某个节点HDFS块比较多

2.3.3 查看调度机制

那么此时可以这么理解，当集群处于空闲时，突然来了一个任务，那么此时因为所有container的优先级相同，优先选择的就是本节点的container，而第一个container 用于启动作业的AM进程，这也就对应了之前的，chd10节点申请AM会比其他节点多很多。
大数据开发之Hive案例篇14：某个节点HDFS块比较多