深度学习烦人的基础知识(2)---Nvidia-smi功率低，util高---nvidia_smi参数详解

这篇具有很好参考价值的文章主要介绍了深度学习烦人的基础知识(2)---Nvidia-smi功率低，util高---nvidia_smi参数详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

问题

如下图所示，GPU功率很低，Util占用率高。这个训练时不正常的！
深度学习烦人的基础知识(2)---Nvidia-smi功率低，util高---nvidia_smi参数详解,深度学习,深度学习,人工智能,Nvidia-smi,python

现象解释

Pwr是指GPU运行时耗电情况，如图中GPU满载是300W，目前是86W与GPU2的空载情况功率相等。说明GPU没有在真正运行。

GPU-Util高说明它的核心被占用了，占用率为100%。

打个比方，把GPU看做是人。三个人，一个在举重，一个人在跑步，一个人在走路。他们都在运动，都是忙碌的，也就是GPU-Util占用高。但是很显然举重的，对外做功高，跑步的做功低，走路的最差，也就是GPU的耗电情况。详细此述

结论：像是这种情况，说明GPU被占用了，但是没有实际工作，也就是人员到位了，在等活干，很有可能是进程等待问题，或者进程锁死了。

解决方案

定位问题，方法很多，比如：打印输出，看程序卡死在哪步，即可定位。
网上找解决方案。
如果是在运行多卡训练，容易卡死的地方有：

磨刀不误砍柴工–nvidia-smi参数解读

如下所示，其表格中，有这么多参数，且参数名与值的其位置是一一对应的。我用不同颜色进行标识，同一种颜色的方框和箭头，标识出参数名和其值的位置关系。
深度学习烦人的基础知识(2)---Nvidia-smi功率低，util高---nvidia_smi参数详解,深度学习,深度学习,人工智能,Nvidia-smi,python

参数名	含义	例子
GPU	显卡的本地设备号，对应值为0，1，2，3…几块显卡就有几个数
Name	显卡型号名
Persistence-M	Persistence-M是一种显卡运行模式，值为on或off，代表是否开或关
Fan	与散热风扇转数有关，用百分数显示，越高说明转数越高
temp	GPU核心温度，过热就有危险了，显卡要烧坏了，单位是摄氏度，如45C就是45度
Perf
Pwr：Usage/Cap	GPU目前耗电多少瓦，Cap是额定功率，Usage表示当前功率，86W/300W表示满载300W，目前86W
Bus-ID	显卡总线的ID，总线是用来传输数据和指令的，是显卡与CPU，内存等硬件传输数据的线路
Disp.A	不知道
Memory-Usage	显存占用情况，大家都知道，不说了
GPU-Util	GPU中计算核心目前的占用率