Ubantu从0开始配置深度学习RTX 4090+3090显卡的服务器

这篇具有很好参考价值的文章主要介绍了Ubantu从0开始配置深度学习RTX 4090+3090显卡的服务器。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

实验室刚到一台Dell服务器主机,里面配置一张RTX 4090和RTX 3090显卡,弄了好久终于能成功运行PyTorch深度学习模型,现在将过程描述如下:

1. 基础

首先是系统,选择的是Ubantu 18.02版本,这个直接下载安装就不说了,直接下一步下一步,没什么问题

然后是显卡驱动,这个由于我们的主机是4090,所以下载的最新的显卡驱动525

下载后出现第一个坑:如果你和我们一样,有两张不平衡的显卡,那么下载显卡驱动极有可能会下载的低等级的那个驱动,导致开机异常,表现为开不了机,屏幕一直闪

解决方法:只留高的显卡,我们只留了4090,然后成功可以开机,安装好4090的驱动后,再将3090插入,依然可以启动

解决完举动之后,安装conda和CUDA,conda没什么好说的,直接anaconda3官网下载安装,至于CUDA,这里我们选择的是最新的CUDA 12.0,在官网搜索下载即可,下载安装后需要更新bashrc文件:

使用vim ~/.bashrc打开文件,没有vim就按照提示安装vim或使用gedit。随后在文件底部添加:

export PATH="/usr/local/anaconda3/bin:$PATH"
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda12.0/lib64
export PATH=$PATH:/usr/local/cuda-12.0/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-12.0

第一句是conda的命令,后三句是cuda的命令,记得改成自己的相应路径

2. 用户访问

首先需要将该主机设置为可以用ssh访问的状态,千万注意端口号的修改,我们当时就是因为端口号没有修改成可用状态搁置了很久。

首先安装openssh-server

sudo apt-get install openssh-server

Ubantui如果默认安装了就不用安装了,没有的话就安上

然后确认ssh-server是否启动:

ps -e |grep ssh

如果看到sshd就说明ssh已经启动,如果没有的话需要启动:

sudo /etc/init.d/ssh start

接着需要修改端口号:

sudo vim /etc/ssh/sshd_config

默认是22,将文件里面的22注释掉后修改成自己想要的端口号,这个可以咨询网络管理员你们的IP和端口是多少

最后重启ssh

systemctl restart sshd.netword

设置完后创建用户,这里出现第二个坑,创建用户后出现无法登陆的BUG,经检查后发现是useradd -d命令没有生成对应的目录导致无法登陆,解决方法是在后面加上一句-m,但加上-m后会出现第三个坑,登陆后没有用户名,只有一个$,解决方法是在useradd 后面加上 -s /bin/bash,最后使用的添加用户的命令为:

useradd 用户名 -d /home/user_1/用户名 -m -s /bin/bash

随后设置相应的密码:

 passwd 用户名

创建用户后登录,需要设置bashrc文件以运行显卡

输入代码

vim ~/.bashrc

在尾部添加代码:

export PATH="/usr/local/anaconda3/bin:$PATH"
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-12.0/lib64
export PATH=$PATH:/usr/local/cuda-12.0/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-12.0

更新bashrc:

source ~/.bashrc

初始化conda:

conda init

如果提示没有conda就关闭连接重新ssh接入,再输入

再次连接ssh即可使用conda

3. Pytorch环境的问题

这个是最麻烦的,你或许尝试过conda,尝试过pip,尝试过反复复制Pytorch官网的下载命令,但最后总得到 torch.cuda.is_available()的结果为False

那么这个时候就不要妄想通过PyTorch官网的命令来安好了,什么去掉-c之类的,多半是没有用的,解决办法就是去PyTorch官网去找自己的whl文件下载来安装。具体如下:

首先看到pip命令下面的下载链接:

Ubantu从0开始配置深度学习RTX 4090+3090显卡的服务器

点进去之后会有下载选项,一般需要下载以下三个依赖包:

Ubantu从0开始配置深度学习RTX 4090+3090显卡的服务器

这里以PyTorch为例子,点进去之后选择想要的版本,cp指的是python版本,cu指的是cuda版本,一定不能下错,这里以python3.7,cuda11.7为例:

Ubantu从0开始配置深度学习RTX 4090+3090显卡的服务器

下载后通过winscp传输到服务器中,或者使用U盘传送到服务器中,使用pip install xx.whl安装即可

如果出现报错那么极有可能是:1,python版本问题,下载的时候看仔细;2,文件传输损坏了,重新下载即可。

最后记得验证一下 torch.cuda.is_available(),如果为False则继续重复上述步骤

4. 显卡调度问题

由于我们的服务器配置的显卡型号不一致,使用过程会出现很多问题,显卡不一致不支持双卡并行

我们的是一块4090和一块30-90,尤其是使用4090显卡,若不强制指定会导致3090显卡莫名占用显存,需要设定环境变量,具体如下:

使用4090显卡运行程序示例:

方法一:在shell命令前强制指定显卡
CUDA_VISIBLE_DEVICES="0" python main.py
方法二:在代码中强制指定显卡

在主程序中加入如下代码:

import os
os.environ['CUDA_VISIBLE_DEVICES'] = "0"

然后直接运行:python main.py即可

如需使用另一块3090显卡则将 “0”改为 “1”

显卡型号不一致极有可能和我们这个情况一样

若运行中出现如下警告:

`UserWarning: 
    There is an imbalance between your GPUs. You may want to exclude GPU 1 which
    has less than 75% of the memory or cores of GPU 0. You can do so by setting
    the device_ids argument to DataParallel, or by setting the CUDA_VISIBLE_DEVICES
    environment variable.
  warnings.warn(imbalance_warn.format(device_ids[min_pos], device_ids[max_pos]))`

说明显卡没有配置正确,需要ctrl+c停止代码后指定显卡

建议运行代码后,使用 nvidia-smi检查一下显存,如果两张显卡显存同时升高,则显卡指定有误,需要重新指定

5. 各种各样的小BUG

5.1 Liunx创建新用户登录异常:/usr/bin/xauth: error/timeout in locking authority file /home/user/.Xauthority

注意下面 的“/home/user_1/用户名”要修改成你的用户名路径!!!

先使用su创建文件

sudo mkdir /home/user_1/用户名

赋予权限:

chown 用户名:用户名 -R /home/user_1/用户名
usermod -s /bin/bash 用户名

重置bashrc:

cp  /etc/skel/.bashrc   ~/

重新添加bashrc文件中的conda等环境变量

5.2 服务器更换了地方连不上网,只有IPV6地址,ping不通

解决方法:

首先进入以太网端口,手动设置IPV4的IP地址,这里因人而异,自行咨询网络管理员IP、子网掩码、网关是多少

然后进入etc/network文件(此时应使用su账号)

cd /etc/network

使用vim打开 interfaces文件

vim interfaces

在文件尾端添加你手动输入的IP地址,网关,子网掩码等:

iface 你的网口名称(ipconfig可以看到,一般是enp0) inet static
address 你的IP地址
gatway 你的网关
netmask 你的子网掩码

然后更新网络即可:

 service network-manager restart

先写到这里,后续有什么BUG继续更新文章来源地址https://www.toymoban.com/news/detail-450160.html

到了这里,关于Ubantu从0开始配置深度学习RTX 4090+3090显卡的服务器的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • RTX 4090深度学习性能实测奉上!模型训练可提升60~80%

    近期,我们对 RTX 4090涡轮版进行了完整的整机测试,本篇文章将分别围绕单卡,4卡,8卡RTX4090性能测试结果展开分享,以全面评估其相比上代RTX30系列的性能优势。 首先让我们一起看看本次测试的硬件配置。 简单介绍一下本次使用的平台为超微SYS-420GP-TNR,这款GPU系统针对

    2023年04月09日
    浏览(36)
  • ubuntu 22.04 安装 RTX 4090 显卡驱动

    1. 官网下载4090: 驱动程序 2. 关闭图形界面 对应的打开图形界面命令为: 3. tty登录之后 安装新版驱动: 如果报错,信息如下: ERROR: An NVIDIA kernel module \\\'nvidia-drm\\\' appears to already be loaded in your kernel.  This may be because it is in use (for example, by an X server, a CUDA program, or the NVIDIA      

    2024年02月05日
    浏览(66)
  • Halcon22.11+Win10+RTX3060显卡(配置CUDA和cuDNN深度学习环境)

    官网下载安装包(需要注册才能下载) 提示:它和VS2019联合开发,所以要安装VS2019  具体安装步骤参考:https://zhuanlan.zhihu.com/p/590352632   相关的安装包比如CUDA、cudnn版本需要下载到本地安装。  CUDA版本选择,已本人的为例:在NVIDIA控制面板可以看到RTX3060驱动目前最高支持

    2024年02月16日
    浏览(46)
  • 【Ubuntu 20.04安装和深度学习环境搭建 4090显卡】

    Ubuntu安装步骤参考文章 知乎:Ubuntu 20.04系统安装及初始配置 先在Ubuntu官网下载系统镜像(或直接bing搜索对应版本)。【Ubuntu官网】 参考这篇文章 https://blog.csdn.net/qq_21386397/article/details/129894803 需要准备一个U盘(使用之前将U盘中内容做好备份,做成启动盘后U盘内文件将被清

    2024年02月09日
    浏览(61)
  • MiniGPT4 在RTX-3090 Ubuntu服务器部署步骤详解

    MiniGPT4系列之一部署篇:在RTX-3090 Ubuntu服务器部署步骤详解_seaside2003的博客-CSDN博客 MiniGPT4系列之二推理篇命令行方式:在RTX-3090 Ubuntu服务器推理详解_seaside2003的博客-CSDN博客 MiniGPT4系列之三模型推理 (Web UI):在RTX-3090 Ubuntu服务器推理_seaside2003的博客-CSDN博客 主要参考知乎帖子

    2024年02月15日
    浏览(38)
  • MiniGPT4系列之二推理篇命令行方式:在RTX-3090 Ubuntu服务器推理详解

    MiniGPT4系列之一部署篇:在RTX-3090 Ubuntu服务器部署步骤详解_seaside2003的博客-CSDN博客 MiniGPT4系列之二推理篇命令行方式:在RTX-3090 Ubuntu服务器推理详解_seaside2003的博客-CSDN博客 MiniGPT4系列之三模型推理 (Web UI):在RTX-3090 Ubuntu服务器推理_seaside2003的博客-CSDN博客 本文参考以下知乎

    2024年02月17日
    浏览(35)
  • RTX4080+Ubuntu20.04深度学习环境配置(小白入门友好)

    因为科研需要,最近几个月开始入门深度学习,准备做语义分割相关的东西。整了一块16G的4080显卡,从0开始学习配置,但找了网上很多资源,感觉很多都不适合纯小白入门。第一次配置成功后没有做记录,昨天因为系统的ubuntu图形用户界面崩掉了,整了很多方法,都没有成

    2024年02月04日
    浏览(68)
  • Win11+RTX3060显卡 配置cuda和cudnn

    查看nvidia设置,右击它 点击nvidai控制面板,点击系统信息: 选择CUDA版本,在NVIDIA控制面板可以看到RTX3060驱动目前最高支持CUDA 11.6版本(我的电脑这么显示的)。 安装可以参考这篇博客。 然后配置国内镜像源(win+r,打开终端),输入以下指令: 有的时候,https会有一些问

    2024年02月16日
    浏览(32)
  • NVIDIA GeForce RTX 3090 GPU系列

    NVIDIA GeForce RTX™ 3090 Ti 和 3090 采用第 2 代 NVIDIA RTX 架构 – NVIDIA Ampere 架构。该系列产品搭载专用的第 2 代 RT Core ,第 3代 Tensor Core、全新的 SM 多单元流处理器以及令人惊叹的 24GB G6X 显存,所有特性都旨在全力为游戏玩家和创作者提供震撼的体验。 GeForce RTX 3090 Ti和GeForce RTX

    2024年01月19日
    浏览(44)
  • 【Win11+RTX3050显卡】cuda+cudnn+tensorflow 环境配置

    【Win11+RTX3050显卡】cuda+cudnn+tensorflow 环境配置 CUDA 11.5 cudnn 8.3.3 tensorflow-gpu 2.6 CUDA:CUDA 即英伟达的显卡并行计算框架 nvidia-smi 可以查看,每个版本的CUDA都是基于一定版本的驱动建立的,所以它对驱动的最低版本是有要求的 cudnn:cudnn 是基于CUDA架构的神经网络库 是专门用于神

    2024年02月15日
    浏览(58)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包