linux（centos7)离线安装A100显卡驱动cuda/cudnn 以及解决docker not select device driver...gpu

这篇具有很好参考价值的文章主要介绍了linux（centos7)离线安装A100显卡驱动cuda/cudnn 以及解决docker not select device driver...gpu。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1.确认GPU型号和操作系统版本，本示例中以A100以及操作系统为Centos 7.9进行操作。
准备GPU驱动和CUDA 11.2软件包，在nvidia官网进行驱动包和CUDA包下载
链接: link
linux离线安装cuda,linux,docker,运维
linux系统均选择 Linux 64-bit
CUDA Toolkit选择最新版本
如您需要老版本CUDA，请前往老版本CUDA下载
本示例中使用CUDA 11.2。

访问nvidia官网，下载CUDA，cuda的链接为：https://developer.nvidia.com/cuda-downloads
选择runfile文件来安装。
linux离线安装cuda,linux,docker,运维

2.检查服务器GPU识别情况

3.安装GPU驱动之前需要在操作系统下查看GPU卡是否能够完全识别,如不能识别需要进行重新插拔、对调测试等步骤进行硬件排查。

查看到所有的GPU

   lspci | grep -i nvidia

linux离线安装cuda,linux,docker,运维
4.老版本软件包卸载（可选）

GPU驱动卸载

/usr/bin/nvidia-uninstall

CUDA卸载方法：

/usr/local/cuda/bin/cuda-uninstaller

6.禁用系统自带的nouveau模块

检查nouveau模块是否加载，已加载则先禁用

 lsmod | grep nouveau

7.安装gcc、g++编译器

cuda安装samples测试程序进行make时需要g++，但安装cuda软件包时不需要。

yum -y install gcc gcc-c++ kernel-devel make

8.禁用系统自带的nouveau模块

检查nouveau模块是否加载，已加载则先禁用

 lsmod | grep nouveau

9.没有blacklist-nouveau.conf文件则创建

 vim /usr/lib/modprobe.d/blacklist-nouveau.conf            
 blacklist nouveau
 options nouveau modeset=0

执行如下命令使内核生效（需要重启服务器后才可真正禁用nouveau）

    dracut -force

10.重启操作系统

reboot

11.重启系统，然后检查禁用nouveau模块配置与文本模式是否生效。

lsmod | grep nouveau

12.修改系统运行级别为文本模式 GPU驱动安装必须在文本模式下进行

 systemctl set-default multi-user.target

GPU驱动安装

root用户下进行GPU驱动

chmod +x NVIDIA-Linux-x86_64-450.80.02.run
./NVIDIA-Linux-x86_64-450.80.02.run --no-opengl-files --ui=none --no-questions --accept-license

配置GPU驱动内存常驻模式

nvidia-persistenced

设置开机自启动

vim /etc/rc.d/rc.local

在文件中添加一行

nvidia-persistenced

赋予/etc/rc.d/rc.local文件可执行权限

chmod +x /etc/rc.d/rc.local

若无/etc/rc.d/rc.local，也可修改

vim /etc/rc.local
chmod +x /etc/rc.local

安装完GPU驱动后查看GPU状态查看及相关配置。

nvidia-smi

重启图形化界面

sudo service lightdm restart

CUDA安装
安装CUDA
安装CUDA时需注意，如果已经安装过GPU驱动，安装CUDA时就不要再选择GPU驱动安装了。

 chmod +x cuda_11.1.1_455.32.00_linux.run
sh cuda_11.1.1_455.32.00_linux.run --no-opengl-libs

新版本CUDA安装界面：注意Driver选项，表示是否安装GPU驱动，如果已经安装了GPU驱动，这里不要再勾选。
linux离线安装cuda,linux,docker,运维
配置环境变量
添加到/etc/profile文件中，对所有用户生效

vim /etc/profile
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
source /etc/profile

测试cuda安装是否正确，环境变量是否识别成功

nvcc -V

参考链接
链接: link

Docker - 解决could not select device driver…gpu问题（安装nvidia-container-runtime）

链接: [link]https://www.hangge.com/blog/cache/detail_3184.html)
链接: link文章来源地址https://www.toymoban.com/news/detail-550249.html

到了这里，关于linux（centos7)离线安装A100显卡驱动cuda/cudnn 以及解决docker not select device driver...gpu的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！