Cuda与Torch配置(For 集群服务器)超详细步骤

这篇具有很好参考价值的文章主要介绍了Cuda与Torch配置(For 集群服务器)超详细步骤。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

每次配置模型环境,无论是在windows,linux,集群服务器上都会在这里卡一段,为了未来配置方便,记录下配置注意事项

配置cuda和torch主要有几个要点,分别是:

  1. 显卡与驱动(NIVIADA driver)是否适配。
  2. cuda版本与显卡是否适配。
  3. torch是否为gpu版本
  4. torch版本与cuda,与python是否适配
  5. touchvision版本与torch是否适配。

1. 显卡与驱动(NIVIADA driver)是否适配

On Linux/OS X:

nvidia-smi

结果形式一般为:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 520.61.05    Driver Version: 520.61.05    CUDA Version: 11.8     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA A100-PCI...  Off  | 00000000:3B:00.0 Off |                    0 |
| N/A   27C    P0    54W / 250W |      0MiB / 40960MiB |      0%   E. Process |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

NVIDIA-SMI 520.61.05 Driver Version: 520.61.05 是适配的即可,不然需要重新安装driver。

2. cuda版本与显卡(gpu)是否适配。

查询Compute Capability (CUDA SDK support )
步骤为:

  • 先确定显卡的算力级别:For example, the GeForce 820M compute capability is 2.1.
  • 再确定cuda版本是否支持该算力级别: For example, CUDA 9.2 is not supported for compute compatibility 2.1.

3. cuda是否与driver适配

On Linux/OS X:

nvidia-smi

结果形式一般为:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 520.61.05    Driver Version: 520.61.05    CUDA Version: 11.8     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA A100-PCI...  Off  | 00000000:3B:00.0 Off |                    0 |
| N/A   27C    P0    54W / 250W |      0MiB / 40960MiB |      0%   E. Process |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

注意: 此表中显示的 CUDA 版本并不表示您的系统上实际安装了 CUDA 工具包这仅表明您的图形驱动程序兼容的最新版本的 CUDA。一般下载这个版本的cuda就对了。

3. pytorch安装

一般安装步骤:

conda install pytorch torchvision torchaudio cudatoolkit=11.8

一般linux/windows这样就没问题了,但是,由于我使用的是集群服务器,环境配置与模型训练(gpu)不在同一个节点,这样会直接安装为cpu版本的pytorch。同时集群里有cuda11.9module,我是不用下载cudatoolkit的。
检查一下:

$ conda list pytorch
pytorch                   2.0.0               py3.9_cpu_0    pytorch
pytorch-mutex             1.0                         cpu    pytorch
cudatoolkit               11.1.1              heb2d755_10    conda-forge

果然是cpu版本呢。于是我首先卸载了原来版本的torch(或者重新创建环境)。然后手动安装下载wheel,在官方网站可下载。
cu开头的就是gpu版本啦
Cuda与Torch配置(For 集群服务器)超详细步骤,服务器,深度学习,pytorch,人工智能
同时下载对应版本的torchvision:
Cuda与Torch配置(For 集群服务器)超详细步骤,服务器,深度学习,pytorch,人工智能
这里我一开始下了cu118/torchvision-0.16.1%2Bcu118-cp311-cp311-win_amd64.whl,但是torchvision0.16和torch2.0不兼容,所以还要注意torch和torchvision匹配问题
然后传到服务器文件夹里,在conda环境pip安装即可。

我在gpu节点测cuda一直false的原因就是torch和torchvision不匹配,torchvision后装把前面装的pytorch覆盖了重装了cuda12.1的版本,导致无法与GPU兼容。

4.测试与运行

这之后应该就可以正常运行了gpu了,测试gpu的pbs文件:文章来源地址https://www.toymoban.com/news/detail-815966.html

#!/bin/bash
#PBS -N yolov5_train
#PBS -l nodes=1:ppn=1:gpus=1
#PBS -l walltime=1:00:00
#PBS -o yolov5_train.out
#PBS -e yolov5_train.err
#PBS -A your_account
#PBS -V
#PBS -q gpu


# 使用GPU前必须启动
export PATH=/usr/local/cuda-11.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH

# 查看cuda版本
nvcc --version
# Display GPU information
nvidia-smi

conda init bash
source ~/.bashrc

conda activate checkcuda2

# Check if CUDA is available using Python
python -c "import torch; print(torch.__version__)"
python -c "import torch; torch.zeros(1).cuda()"
python -c "import torch; print(torch.version.cuda)"
python -c "import torch; print(torch.cuda.is_available())"

conda deactivate

参考

  • Why torch.cuda.is_available() returns False even after installing pytorch with cuda?
  • GPU版本安装Pytorch教程最新方法

到了这里,关于Cuda与Torch配置(For 集群服务器)超详细步骤的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 配置samba服务器详细步骤

    先配置虚拟机的静态ip, 1.安装samba服务 验证是否安装成功samba服务  3.修改samba配置文件(添加共享文件) 在文件最后添加以下内容(标明箭头的内容根据自己需求修改)  4.设置账号用于登录samba服务器,同时并设置密码。 创建samba用户之前必须先创建系统用户或者使用已存

    2024年02月13日
    浏览(43)
  • 三台异构服务器搭建hadoop HA集群史上最详细方案(HDFS+YARN)

     一、系统基础服务配置 主机名 IP 操作系统 CPU 内存 磁盘 Hive01 10.86.102.104 Centos 7.9.2009 Xeon 4208 X16 192G 46T Hive02 10.86.102.102 Centos 7.9.2009 Xeon 4208 X16 192G 46T Hive03 10.86.102.105 Centos 7.9.2009 Xeon 8260 X48 256G         11T 最终组成的是一个双副本56T的集群,设置YARN内存共400GB(可调) 3台服务

    2024年02月07日
    浏览(44)
  • docker服务器中redis-cluster集群配置(redis-5.0.7)

    因为需要使用到docker服务器下的redis-cluster集群环境,而以前redis3.2.8版本的redis搭配起来费事费力还没有成功,所以使用了较新一些的redis版本----redis-5.0.7。 默认:dockers已经安装成功 1.1下载tar包 1.2把进行安装 2.1 编写配置文件 #编写目录 mkdir -p /usr/local/docker-redis/redis-cluster #切

    2024年02月21日
    浏览(41)
  • Temporal部署指南:集群架构、服务器部署流程、部署细节及Temporal UI配置

    本文详细介绍了Temporal的部署流程,包括集群架构、Temporal Server的部署流程、部署细节以及Temporal UI的配置。通过指南,您可以了解到如何部署Temporal到生产环境,并对服务器配置、数据库设置、以及UI部署有清晰的指导。

    2024年02月04日
    浏览(46)
  • 【小程序配置服务器域名】详细讲解

    配置小程序的服务器域名是小程序开发中的关键步骤,它确保了你的小程序能够与后端服务进行合法的网络通信。以下是配置服务器域名的通用步骤: 首先,你需要在微信开放平台注册一个小程序账号,并且获得你自己的小程序ID(AppID)。 在小程序后台,微信要求验证你所

    2024年04月13日
    浏览(34)
  • 服务器集群配置LDAP统一认证高可用集群(配置tsl安全链接)-centos9stream-openldap2.6.2

    因之前集群为centos6,已经很久没升级了,所以这次配置统一用户认证也是伴随系统升级到centos9时一起做的配套升级。新版的openldap配置大致与老版本比较相似,但有些地方配置还是有变化,另外,铺天盖地的帮助文档有相当一部分是直接搬砖过来的,所以参考时容易出错,这

    2024年02月05日
    浏览(30)
  • Wow魔兽世界服务器搭建详细教程,魔兽世界服务器配置要求

    自从《魔兽世界》国服关服后,很多魔兽老玩家心里都是空落落的,魔兽陪伴了我们十多年,此次关服犹如关上了通往艾泽拉斯大陆的大门。 上帝关上了一扇门,我们也可以自己开扇窗,随着国服关闭,越来越多的玩家想要自己开服当服主,今天飞飞将和你们分享魔兽世界服

    2024年02月04日
    浏览(63)
  • DELL服务器RAID配置详细教程

    DELL服务器RAID配置教程 在启动电脑的时候按CTRL+R 进入 RAID 设置见面如下图 Disk Group:磁盘组,这里相当于是阵列,例如配置了一个RAID5,就是一个磁盘组 VD(Virtual Disk):   虚拟磁盘,虚拟磁盘可以不使用阵列的全部容量,也就是说一个磁盘组可以分为多个VD PD(Physical Disk

    2024年02月05日
    浏览(39)
  • 本地Pycharm连接远程服务器详细配置过程(直接在本地使用服务器显卡,很棒)

    相信很多人都遇见过这种情况:实验室成员使用同一台服务器,每个人拥有自己的独立账号,我们可以使用服务器更好的配置完成实验,毕竟自己哪有money拥有自己的3090呢。通常服务器系统采用Linux,而我们平常使用频繁的是Windows系统,二者在操作方面存在很大的区别,比如

    2024年02月03日
    浏览(60)
  • 服务器安装配置elasticsearch,kibana,IK分词器和拼音分词器,集群搭建教程

    elasticsearch安装教程大全 elasticsearch学习笔记(一) elasticsearch学习笔记(二) elasticsearch学习笔记(三) 可参考:Debian安装docker Centos安装docker (docker-compose可以直接互连) 因为我们还需要部署kibana容器,因此需要让es和kibana容器互联。这里先创建一个网络: Elasticsearch 和 kibana 版

    2023年04月08日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包