深度学习环境搭建-Nvidia驱动与Cuda安装

这篇具有很好参考价值的文章主要介绍了深度学习环境搭建-Nvidia驱动与Cuda安装。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


前言

说实话,笔者毕业后已经从业多年了,但是仍然有很多开发环境配置的问题让人懵圈,好在笔者一直有写笔记的习惯,之前一直是记录在私人云,如今整理出来分享给各位,并且除了说明步骤,还会尽可能解释这么做的原因,方便读者厘清逻辑。

注意:本文针对linux系统


1. 环境配置与文件

本文所使用的环境配置为:

  • 显卡驱动:nvdia430
    • 文件名:NVIDIA-Linux-x86_64-430.14
  • cuda:cuda-10.0
    • 文件名:cuda_10.0.130_410.48_linux
  • cudnn:cudnn7.5
    • 文件名:cudnn-10.0-linux-x64-v7.5.0.56

可以发现我们使用的显卡驱动是430版本的,和cuda10.0 中自带410版本驱动不匹配,但是并无大碍,430驱动和cuda-10之间是完全兼容的。不过要注意的是,如果安装的显驱和cuda默认的显驱版本相差过大有是否会出现不兼容尚不清楚。

另外,关于不同cuda和cudnn版本的选择是很重要的,因为可能最新的版本各大深度学习框架支持并不理想,比如tensorflow的预编译安装包只支持cuda10.0,其他版本需要自己手动编译;在cuda10刚出的时候,pytorch的libtorch也只支持到cuda9,因此请根据自己的需求选择。

2. 安装步骤

2.1 安装相关依赖

sudo apt-get install build-essential #这是编译环境,包含make,GCC G++等

笔者的电脑只安装了编译环境就能正常安装显卡驱动了,但是查阅资料发现不同作者给出的依赖各不相同,以下为部分汇总,如果只安装编译环境无法正常安装显卡驱动,请尝试安装以下软件包

sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libhdf5-serial-dev protobuf-compiler
sudo apt-get install --no-install-recommends libboost-all-dev
sudo apt-get install libopenblas-dev liblapack-dev libatlas-base-dev
sudo apt-get install libgflags-dev libgoogle-glog-dev liblmdb-dev
sudo apt-get install freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev 

2.2 安装官方驱动

前往nvidia的官方网站下载对应驱动 https://www.nvidia.com/Download/index.aspx?lang=cn
深度学习环境搭建-Nvidia驱动与Cuda安装
选择与自己显卡对应的驱动进行下载即可

2.3 禁用nouveau并且关闭图形化界面(Xserver)

Nouveau是由第三方为NVIDIA显卡开发的一个开源3D驱动,也没能得到NVIDIA的认可与支持。虽然Nouveau Gallium3D在游戏速度上还远远无法和NVIDIA官方私有驱动相提并论,不过确让Linux更容易的应对各种复杂的NVIDIA显卡环境,让用户安装完系统即可进入桌面并且有不错的显示效果,所以,很多Linux发行版默认集成了Nouveau驱动,在遇到NVIDIA显卡时默认安装。企业版的Linux更是如此,几乎所有支持图形界面的企业Linux发行版都将Nouveau收入其中。

不过对于个人桌面用户来说,处于成长阶段的Nouveau并不完美,与企业版不一样,个人用户除了想让正常显示图形界面外很多时候还需要一些3D特效,Nouveau多数时候并不能完成,而用户在安装NVIDIA官方私有驱动的时候Nouveau又成为了阻碍,不干掉Nouveau安装时总是报错。

Xserver就是Linux的图形化界面

修改//etc/modprobe.d/blacklist.conf文件,在这个文件末尾添加以下命令:

blacklist nouveau
options nouveau modeset = 0

修改后如图:
深度学习环境搭建-Nvidia驱动与Cuda安装

然后执行命令更新启动文件后重启:

sudo update-initramfs -u
sudo reboot

重启后检查nouveau是否关闭,输入以下命令:

lsmod | grep nouveau

如果没有输出,表示nouveau已经禁用。
最后关闭图形界面:

 service lightdm stop

注意你的电脑可能没有安装lightdm图形界面,而使用的是gdm3,这种情况下你需要执行

service gdm3 stop

或者安装lightdm后再关闭它(推荐这个,因为从经验来说你很可能以后还是要装它的),安装命令如下:

sudo apt install lightdm

2.4 安装驱动

进入显卡驱动安装文件所在的目录下执行以下命令安装:

sudo ./NVIDIA-Linux-x86_64-430.14.run –no-opengl-files

由于各位下载的驱动版本可能和我的并不一样,请以自己的文件名为准,另外参数 –no-opengl-files表示不安装OpenGL文件,这个参数能够避免无法进入图形界面的问题
安装过程中一路accept或者continue下去就行,安装完成后 执行以下命令看是否安装成功:

nvidia-smi

成功的话会有如下显示:
深度学习环境搭建-Nvidia驱动与Cuda安装
你会发现显驱的cuda 版本是10.2,不过好像并不会和我们即将安装的cuda10.0发生冲突。
然后启动Xserver并重启检查是否有bug:

service lightdm start
sudo reboot

如果你的Xserver没有办法正常启动,或者卡在登陆界面循环登陆,那么很有可能是在上面的安装步骤中没有正确关闭Xserver或者驱动安装时没够添加参数–no-opengl-files,请检查一下,报错的处理方法集中在后文bug处理章节。

2.5 安装cuda

安装完显卡驱动后开始安装cuda,同样需要去nvidia的cuda页面下载对应的安装包。

cuda下载页面:https://developer.nvidia.com/cuda-downloads

首页默认提供的是10.1版本的,我们需要的是10.0,点击legacy releases下载早期版本:
深度学习环境搭建-Nvidia驱动与Cuda安装
深度学习环境搭建-Nvidia驱动与Cuda安装
根据自己的系统版本下载,笔者使用的是ubuntu18
深度学习环境搭建-Nvidia驱动与Cuda安装
其中下载第一个Base Installer就可正常使用,patch 1是补丁,有需要也可以下载.

接下来开始安装,注意这里同样需要先关闭Xserver,然后执行cuda10的安装文件:

service lightdm stop
sudo ./cuda_10.0.130_410.48_linux.run

这个时候会有很多提示需要你确认,由于上文中已经成功安装了显卡驱动,所以这里就不需要再次安装了

Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 XXX.XX ?

这里选择 no,其余都是yes或者accept

安装成功后开始添加系统变量,这里可以选择在profile中添加,或者添加在自己用户下的.bashrc文件中:

vim ~/.bashrc #打开配置文件
添加以下变量:
export PATH=/usr/local/cuda-10.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64:$LD_LIBRARY_PATH
export CUDA_HOME=/usr/local/cuda-10.0

添加完成后的效果如图:
深度学习环境搭建-Nvidia驱动与Cuda安装
这些变量可以让python找到cuda的库和头文件,避免出现no find之类的错误
执行source命令使bashrc文件生效:

source ~/.bashrc

最后验证cuda是否安装成功,注意这里需要在安装cuda的时候安装了相关sample,如果完全按照本文教程则sample也已成功安装:

cd /usr/local/cuda-10.0/samples/1_Utilities/deviceQuery
sudo make
./deviceQuery

若看到以下信息则安装成功:
深度学习环境搭建-Nvidia驱动与Cuda安装

2.6 cudnn安装

安装完cuda后, 我们还需要安装cudnn: https://developer.nvidia.com/cudnn
要注意的是cudnn需要注册后才能下载,笔者使用的是7.5版本的cudnn,因此也需要选择早期版本下载:
深度学习环境搭建-Nvidia驱动与Cuda安装
深度学习环境搭建-Nvidia驱动与Cuda安装
安装cudnn:
cudnn很容易安装,只需要将文件解压后拷贝进cuda根目录即可:

tar -zxvf cudnn-10.0-linux-x64-v7.5.0.56.tgz #解压
cd cudnn-10.0-linux-x64-v7.5.0.56 #进入cudnn文件夹
sudo cp -r cuda/* /usr/local/cuda-10.0/ #将文件夹下的所有文件拷贝进cuda10下

至此就大功告成全部安装成功了。

3. BUG处理

这里介绍一下笔者在显驱和cudnn出现过的相关bug和处理方法:

3.1. 循环登陆or无法进入Xserver

推测造成循环登录或者无法进入图形化界面的主要原因是openGL发生错误,反映到操作上就是安装过程中没有禁用Xserver或者没有禁用nouveau(但是理论上没有禁用nouveau是无法执行安装程序的,会报错),所以解决办法就是卸载目前的显卡驱动后重新按照教程安装一遍,这里给出卸载显驱的命令:

service lightdm stop #关闭Xerver服务
sudo /usr/bin/nvidia-uninstall #nvidia自带的卸载程序
sudo apt-get install autoremove --purge nvidia* #通过apt来卸载

上面两个命令可以都执行一遍,避免没卸干净。

3.2. 显卡驱动丢失,nvidia-smi报错

如果发现cuda没有正常启动,输入nvidia-smi报错:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

这里有两种可能,先说第一种:如果你是刚装好驱动就报这个错误,那么是由于nvidia驱动没有被内核加载,可以尝试执行以下命令查看是否有内核文件:

cd /lib/modules
find . -name "*.ko" | grep -i nvidia

正常情况下的输出应为:
深度学习环境搭建-Nvidia驱动与Cuda安装
比对看一下自己是否缺少了nvidia.ko(也有可能是nvidia_xxx.ko)这个文件。
如果缺少了,则需要安装kernel source:

sudo apt-get install linux-source
sudo apt-get install linux-headers-4.18.0-25-generic

其中:4.18.0-25-generic来自于命令 uname -r 的输出
第二种情况是正常安装后使用了一段时间,突然某一天报错,这种情况一般是最近有对cuda环境进行过更改,导致显卡驱动损坏。
这种情况下最简单粗暴的方法就是将cuda和显卡驱动全部卸载重装:

service lightdm stop #关闭Xserver服务
sudo /usr/bin/nvidia-uninstall #nvidia自带的卸载程序
sudo apt-get autoremove --purge nvidia* #通过apt来卸载
sudo /usr/local/cuda-10.0/bin/uninstall_cuda_10.0.pl #卸载cuda

卸载完成后重新装一遍即可。文章来源地址https://www.toymoban.com/news/detail-499665.html

到了这里,关于深度学习环境搭建-Nvidia驱动与Cuda安装的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 不是Nvidia(英伟达)显卡可以安装CUDA跑深度学习算法吗?

    答:不行! Cuda主要是面向Nvidia的GPU的。Intel和AMD的显示芯片都不能进行。所以,想要让cuda环境搭建在自己的Windows系统上利用GPU的并行计算跑深度学习算法,就必须要有Nvidia显卡且要安装CUDA。 下面两张图片是AMD显卡和Nvidia显卡的对照: AMD显卡:😕/img-blog.csdnimg.cn/74ef793a4a0

    2024年02月11日
    浏览(68)
  • Ubuntu + nvidia驱动+ cuda安装教程以及重装问题 NVIDIA驱动版本与CUDA版本对应关系

    操作系统:ubuntu 18 nvidia驱动版本: 515 cuda: 11.7 在此方面掉过坑,写此篇文章mark一下。如果遇到同样问题的小伙伴可以参考一下。 第一次在ubuntu上尝试安装nvidia510驱动,之后其他小伙伴在此系统上装了一个11.6版本的cuda,开机之后,BBQ了,笔记本开机黑屏。 如果同样遇到黑屏

    2023年04月25日
    浏览(49)
  • 深度学习—Python、Cuda、Cudnn、Torch环境配置搭建

    近期由于毕设需要使用Yolo,于是经过两天捣腾,加上看了CSDN上各位大佬的经验帖后,成功搭建好了GPU环境,并能成功使用。因而在此写下这次搭建的历程。 万事开头难,搭建环境很费时间,如果一开始版本不对应,到后面就要改来改去,很麻烦。首先要注意以下事项: 1.

    2024年02月11日
    浏览(168)
  • 超详细||深度学习环境搭建记录cuda+anaconda+pytorch+pycharm

    本文用来记录windows系统上深度学习的环境搭建,目录如下 首先为装有NVIDIA gpu的电脑安装显卡驱动,如果安装过了,或者想使用cpu的,可以跳过这一步。(其实这一步可以跳过,因为显卡驱动好想和深度学习环境没什么关系,保险起见还是安装上吧) 1. 去官网下载对应的显卡

    2024年01月21日
    浏览(114)
  • 【深度学习环境配置】ubuntu 20.04+4060 Ti+CUDA 11.8+pytorch(装机、显卡驱动、CUDA、cudnn、pytorch)

    【深度学习环境配置】ubuntu 20.04+4060 Ti+CUDA 11.8+pytorch(装机、显卡驱动、CUDA、cudnn、pytorch) 📆 安装时间 2023.11.08-2023.11.10 Windows 和 Ubuntu 双系统的安装和卸载 B站教程 【本文基本上跟这个详细教程一致,优先推荐看这个!】ubuntu20.04 下深度学习环境配置 史上最详细教程 【精

    2024年02月04日
    浏览(59)
  • 深度学习docker环境配置之nvidia-docker安装使用

    –docker容器技术–。 简单理解 :Anaconda用于隔离不同的python环境;docker可以理解成在你的机器里面安装了一个独立的系统,因此它可以隔离不同的CUDA环境,还有着独立的文件系统,防止别人删掉你的实验和环境等。 镜像(images)的意思就是静态的镜像文件; 容器(containe

    2024年02月06日
    浏览(45)
  • Anaconda搭建深度学习虚拟环境:cuda+cudnn+pytorch+torchvision(并验证)

    1.以管理员的身份打开Anaconda Prompt窗口: 2.创建新的虚拟环境: 3.激活刚刚创建好的虚拟环境: 1.右击鼠标打开NVIDIA控制面板,查看显卡支持的最高CUDA版本: 2.Anaconda 换清华镜像源,提高下载速度: 3.我电脑的CUDA最高支持12.0,但注意 在环境中安装比电脑CUDA版本低的 ,因为

    2023年04月09日
    浏览(125)
  • NVIDIA显卡驱动及CUDA相关安装流程(包括多版本cuda切换)

    NVIDIA驱动官方下载地址: https://www.nvidia.cn/Download/index.aspx?lang=cn 第一步先查看适合的显卡驱动版本 第二步下载合适的显卡驱动 第三步下载驱动相关依赖 ​ 安装lightdm是在弹窗上选择lightdm[若没有弹窗略过] 第四步禁用nouveau驱动 第五步禁用nouveau内核模块 第六步卸载旧的nvidi

    2024年02月16日
    浏览(48)
  • 笔记--Ubuntu20.04安装Nvidia驱动、CUDA Toolkit和CUDA CuDNN

    目录 1--安装Nvidia驱动 2--安装CUDA 2-1--禁用nouveau 2-2--选择CUDA Toolkit 2-3--下载和安装CUDA Toolkit 2-4--配置环境变量 2-5--测试是否安装成功: 3--安装CUDA CuDNN 4--测试pytorch能否使用Cuda ① 查看可安装的Nvidia驱动版本: ② 安装相应版本的Nvidia驱动: 博主这里选择的是第一个,也可以安

    2024年02月02日
    浏览(61)
  • 【Ubuntu20.04安装Nvidia驱动、CUDA和CUDNN】

    官网链接:https://www.nvidia.cn/Download/index.aspx?lang=cn 或者https://www.nvidia.cn/geforce/drivers/ 注 :Ubuntu系统是不区别显卡类别的显卡驱动,一般来说,下载最新版本的驱动即可;Win系统是需要根据显卡来选择具体的驱动版本。 1.2.1 NVIDIA 驱动与 Nouveau 驱动不兼容 由于系统当前正在使用

    2024年02月11日
    浏览(73)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包