深度学习GPU服务器环境配置

这篇具有很好参考价值的文章主要介绍了深度学习GPU服务器环境配置。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

组里面分配了台gpu服务器,让我负责管理,需要先配置一些深度学习环境,记录一下。
一些linux服务器常用命令:https://blog.csdn.net/qq_51570094/article/details/123949910

1.安装GPU驱动

1.1查看linux系统信息和配置信息。

首先需要了解linux系统信息
通过cat /proc/version查看包含gcc的版本信息

[root@localhost ~]# cat /proc/version 
Linux version 3.10.0-1062.el7.x86_64 (mockbuild@kbuilder.bsys.centos.org) (gcc version 4.8.5 20150623 (Red Hat 4.8.5-36) (GCC) ) #1 SM

通过hostnamectl命令查看系统信息,这个命令是centos7的命令

[root@localhost ~]# hostnamectl
   Static hostname: localhost.localdomain
         Icon name: computer-vm
           Chassis: vm
        Machine ID: d488330e5e20487f8238984c81cb43a1
           Boot ID: a5ddccbbebf547d588a76082b5832973
    Virtualization: microsoft
  Operating System: CentOS Linux 7 (Core)
       CPE OS Name: cpe:/o:centos:centos:7
            Kernel: Linux 3.10.0-1062.el7.x86_64
      Architecture: x86-64

看出操作系统的版本,linux内核版本。

1.2查看硬件配置

通过lspci命令显示所有硬件信息,可以看到所有不管装没装驱动的设备,因为根据pci规范,只要该设备在pci总线上挂着,就可以读到一些信息。
信息太多,可以通过grep过滤VGA信息或者直接查nvidia也行。

[root@localhost ~]# lspci|grep -i vga
00:02.0 VGA compatible controller: Cirrus Logic GD 5446
00:0d.0 VGA compatible controller: NVIDIA Corporation TU104GL [Tesla T4] (rev a1)

可以看到,上面有一张T4(另,如果没有直观的显示显卡信息,[]中的内容,可通过http://pci-ids.ucw.cz/网站查数字代码)。
指导了设备,就可以去官网上下载驱动了(组里面其他同学直接给我发了份,就没去下载)。

1.3为了确保软件环境统一且无误

首先要确保gcc,g++和kernel-devel和kernel-headers安装,前两个不用解释,kernel-devel是用作匹配不同操作系统版本的接口(注意和操作系统的版本要对应好,百度搜索安装kernel-devel和kernel-headers很多博客写的很清楚)。
通过 uname -r 查看操作系统内核,通过yum info kernel-devel kernel-headers查看版本信息。
可以通过安装与操作系统内核对应的kernelyum install "kernel-devel-uname-r == $(uname-r),或者升级yum distro-sync操作系统内核与kernel匹配。
一般来说,安装对应的软件包或者升级内核都可以,我推荐升级内核。
贴一个参考:https://www.cnblogs.com/liuke-note/p/13712202.html
大概思路就是通过https://pkgs.org/搜索centos对应版本的headers和devel,比如我的是3.10.0-1602.(后来我升级到了1160)
然后通过rpm离线安装。可以在usr/src/kernels目录下看安装的包
如果已经提前尝试安装nvidia驱动,可通过usr/bin/nvidia-uninstall中卸载

1.4注意

显卡驱动安装之前,建议先卸载linux系统自带的显卡驱动nouveau,这是一个针对nvidia显卡开发的第三方开源的3d驱动,而且没有得到官方的支持,所以可能存在冲突,因此建议先禁用。
通过lsmod|grep -i nouveau查看是否被加载,如果查出来内容说明被加载,可以通过下面的方式禁用centos系统的nouveau驱动

1. 创建文件/etc/modprobe.d/blacklist-nouveau.conf,添加如下文本:
blacklist nouveau
options nouveau modeset=0

2. 重新生成initramfs
$ sudo dracut --force

之后reboot重启服务器再查看一下nouveau是否被加载

执行run脚本安装nvidia驱动
./NVIDIA-Linux-x86_64-440.107-grid.run执行完就行了,这个脚本也会自动把环境变量修改上
可以试一下nvidia-smi命令来查看GPU信息了。

2. 安装cuda相关工具

老生常谈了,cuda,cudnn
去官网下载对应的cuda toolkit: https://developer.nvidia.com/cuda-toolkit-archive
去官网下载对应的cudnn:https://developer.nvidia.com/rdp/cudnn-archive
安装即可,给个参考博客:https://blog.csdn.net/qq_51570094/article/details/123902419,一个比较清晰的流程。

3. 安装pytorch-gpu版

这个也是老生常谈了,anaconda3,torch,torchvision,torchaudio。
通过conda建完虚拟环境之后,就直接可以在对应的虚拟环境下安装torch了。
先去torch的官网找符合的版本:https://pytorch.org/get-started/previous-versions/
可选离线安装,通过镜像站:https://download.pytorch.org/whl/torch_stable.html先下载下来三个whl包,然后分别pip install 包名-i https://pypi.tuna.tsinghua.edu.cn/simple 来快速安装。

参考资料

试了很多方法才成功安装GPU驱动的:https://blog.csdn.net/HaixWang/article/details/90408538
华为服务器的使用手册:https://support.huawei.com/enterprise/zh/doc/EDOC1100164073/13b4e55d
一个比较详细和清晰的GPU驱动安装流程:https://blog.csdn.net/qq_51570094/article/details/123900837文章来源地址https://www.toymoban.com/news/detail-428037.html

到了这里,关于深度学习GPU服务器环境配置的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于docker的ubuntu云服务器jupyter深度学习环境配置指南

    安装docker 文档中的命令如下: 如果回显如下所示,则说明成功: 安装Nvidia-docker 根据官方文档中的命令跑就行了 如果出现了以下回显,说明安装成功 需要注意的是,在运行最后一步命令时: sudo docker run --rm --runtime=nvidia --gpus all nvidia/cuda:11.6.2-base-ubuntu20.04 nvidia-smi 如果报错

    2024年02月13日
    浏览(86)
  • 深度学习环境搭建 2 AutoDL服务器配置及Xftp数据传输

    目录 1. 创建基于AutoDL的GPU环境 1. 1 租用实例 1.2  配置环境——激活conda 1.3 根据不同框架和GPU的操作 1.4   jupyter页面更新 1.5 电脑有网的情况下,jupyter显示“未连接成功”的解决办法  2.  安装Xftp 3. Xftp与AutoDL网盘连接 (环境配置可以选择无卡模式,费用低) 1. 算力市场

    2024年02月04日
    浏览(65)
  • 如何在服务器使用GPU跑深度学习代码

    每个人都有他们偏好的工具和工作流程。就我个人而言,我喜欢使用 PyCharm Professional Edition 作为我的集成开发环境,选择使用 HengYuan Cloud\\\'s OSS.exe 和 FileZilla 进行文件传输,并且我倾向于使用 Xshell 来处理命令行操作。这些工具的组合满足了我的所有需求,并使我的工作效率最

    2024年04月12日
    浏览(49)
  • 试用阿里云GPU服务器进行深度学习模型训练

    最近在用PyTorch时发现在本地训练模型速度一言难尽,然后发现阿里云可以白嫖gpu服务器,只要没有申请过PAI-DSW资源的新老用户都可以申请5000CU*H的免费额度,三个月内有效。 阿里云免费试用活动页面 一、申请试用并创建实例 点击试用,完成注册、实名、领取产品,然后前往

    2024年04月17日
    浏览(56)
  • 新手小白如何租用GPU云服务器跑深度学习

    最近刚学深度学习,自己电脑的cpu版本的pytorch最多跑个LexNet,AlexNet直接就跑不动了,但是作业不能不写,实验不能不做。无奈之下,上网发现还可以租服务器这种操作,我租的服务器每小时0.78人民币,简直是发现新大陆,又省下一大笔钱,太开心了吧(啪,什么乱七八糟的

    2023年04月15日
    浏览(47)
  • [3D数据深度学习] (PC/服务器集群cluster)CPU内存/GPU显存限制及解决办法

    3D数据的深度学习目前研究远不如2D深度学习成熟,其中最大的一个原因之一就是收到硬件条件的限制。3D数据虽说只比2D数据增加了一个维度,但所占据的内存却是成倍的增长。对于3D数据的深度学习,我们会分析其在CPU内存和GPU显存两方面的限制,希望大家能够充分利用自己

    2024年02月10日
    浏览(48)
  • 适用于深度学习的GPU服务器选RTX4090与RTX3090哪个更合适、更划算?

    一、弄清基本参数对比 RTX 4090 具有 760 亿个晶体管、16384 个 CUDA 核心和 24 GB 高速美光 GDDR6X 显存, 4090单精度浮点73TFLOPs RTX 3090 ,搭载了 10496 个流处理器与 24G GDDR6X 显存,带宽为 936GB/S。 3090单精度浮点35.7TFLOPs   二、以同等算力的情况做简单的对比 简单给大家算一下, 从单

    2024年02月17日
    浏览(49)
  • 深度学习服务器(Linux)开发环境搭建教程

    当你拿到一台服务器的使用权时,最头疼的莫过于登陆服务区并配置开发环境。本文将从0开始,讲述一台刚申请的服务器远程登陆并配置开发环境的全过程。希望对你有所帮助 打开MobaXterm软件,创建一个新的Session,选择SSH登陆。其中Remote host填服务器的IP地址,Specify userna

    2024年02月05日
    浏览(51)
  • 如何从Github拿到代码在云服务器跑起来--算力云从零搭建和配置GPU模型环境

    写在前面: 在服务器的Linux系统中复制使用Ctrl+shift+C,粘贴使用Ctrl+shift+V 1.首先拿到一份代码先研究他的readme.md也就是说明文档(至关重要),根据说明文档的详细程度可以间接判断代码能否跑起来,或者代码是否靠谱,不然花很多时间研究才发现代码没有可行性。以下我的代

    2024年04月13日
    浏览(54)
  • (深度学习)PyCharm 连接配置服务器

    需要 Pycharm 专业版 以 2022 版的 PyCharm 为例: 1. 连接服务器 File ---- Settings ---- Python Interpreter ---- Add Interpreter ---- On SSH 输入服务器的 Host、Port 和 Username ---- Next 输入密码 ---- Next Next 可以选择虚拟环境,我个人习惯选择下面那个 System Interpreter 选择本机项目地址和对应的服务器同

    2024年02月11日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包