集群服务器GPU深度模型训练笔记(PBS作用调度系统)

这篇具有很好参考价值的文章主要介绍了集群服务器GPU深度模型训练笔记(PBS作用调度系统)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

相关手册与软件准备

官方使用手册

用户手册:https://hpc.sustech.edu.cn/ref/cluster_User_Manual.pdf
培训视频:https://hpc.sustech.edu.cn/ref/meeting_20230810.mp4
启明2.0使用手册:https://hpc.sustech.edu.cn/ref/qiming_User_Manual_v3.0.pdf
Anaconda官方教程:https://hpc.sustech.edu.cn/ref/anaconda-install-by-user.html

集群服务器GPU深度模型训练笔记(PBS作用调度系统),服务器,深度学习,人工智能

安装前置软件

  1. FileZilla传输数据
    filezilla是一款用于与远程服务器传输数据的软件。
    下载FileZilla,下载教程参考https://blog.csdn.net/SoloVersion/article/details/124579221
    FileZilla官方使用说明:https://welcome.filezilla-project.org/welcome?type=client&category=documentation_network&version=3.66.1
    FileZilla官方网络设置手册:https://wiki.filezilla-project.org/Network_Configuration

按照步骤登录节点,注意:在站点管理器中,传输协议要选择SFTP!!!不然会连接失败。

  1. xshell登录节点
    xshell用于远程登陆服务器以及进行命令行操作。
    xshell安装官网:https://www.xshell.com/zh/free-for-home-school/
    集群服务器GPU深度模型训练笔记(PBS作用调度系统),服务器,深度学习,人工智能

深度学习模型单节点训练

以yolov5最基本模型训练为例

1. 配置Anaconda

Anaconda官方教程:https://hpc.sustech.edu.cn/ref/anaconda-install-by-user.html

因为anaconda相关文件会存储在自己的工作文件夹里,所以和环境相关的步骤可以直接在登录节点执行。

下载Anaconda(只需完成一次)

test -d ~/softwares/python/anaconda3 || mkdir -p ~/softwares/python/anaconda3 #创建安装目录
wget https://mirrors.sustech.edu.cn/anaconda/archive/Anaconda3-2020.07-Linux-x86_64.sh #下载安装包
sh Anaconda3-2020.07-Linux-x86_64.sh -b -p ~/softwares/python/anaconda3/2020.07 #自动安装到目录

在安装目录写入环境变量文件anaconda.2020.07.source,此文件也可以放在任意计算时可以调用的目录,在命令行输入:

cat>~/softwares/python/anaconda3/2020.07/anaconda.2020.07.source<<EOF
# >>> conda initialize >>>
# !! Contents within this block are managed by 'conda init' !!
__conda_setup="$('/work/ccse-tangh/softwares/python/anaconda3/2020.07/bin/conda' 'shell.bash' 'hook' 2> /dev/null)"
if [ $? -eq 0 ]; then
    eval "$__conda_setup"
else
    if [ -f "~/softwares/python/anaconda3/2020.07/etc/profile.d/conda.sh" ]; then
        . "~/softwares/python/anaconda3/2020.07/etc/profile.d/conda.sh"
    else
        export PATH="~/softwares/python/anaconda3/2020.07/bin:$PATH"
    fi
fi
unset __conda_setup
# <<< conda initialize <<<
EOF

在用户目录写入.condarc文件,配置国内更新源,以便于加快更新和安装环境或者软件包的速度,在命令行输入:

cat>~/.condarc<<EOF
channels:
  - defaults
show_channel_urls: true
channel_alias: https://mirrors.sustech.edu.cn/anaconda
default_channels:
  - https://mirrors.sustech.edu.cn/anaconda/pkgs/main
  - https://mirrors.sustech.edu.cn/anaconda/pkgs/free
  - https://mirrors.sustech.edu.cn/anaconda/pkgs/r
  - https://mirrors.sustech.edu.cn/anaconda/pkgs/pro
custom_channels:
  conda-forge: https://mirrors.sustech.edu.cn/anaconda/cloud
  msys2: https://mirrors.sustech.edu.cn/anaconda/cloud
  bioconda: https://mirrors.sustech.edu.cn/anaconda/cloud
  menpo: https://mirrors.sustech.edu.cn/anaconda/cloud
  pytorch: https://mirrors.sustech.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.sustech.edu.cn/anaconda/cloud
EOF

加载环境变量,清理索引缓存,更新:

source ~/softwares/python/anaconda3/2020.07/anaconda.2020.07.source
conda clean -i 
conda update --prefix ~/softwares/python/anaconda3/2020.07 anaconda -y

为每一个任务创建一个conda环境

直接在登陆节点创建并配置好requirement,在pbs文件里activate就可以了。在训练节点无法联网,不能下载相关包或者创建环境!!!

先激活bash使用conda:

conda init bash
source ~/.bashrc

然后就是标准conda操作了:

conda create -n yolov5 python=3.8 -y -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda activate yolov5

cd yolov5
pip install -r requirements.txt

再正常使用,比如创建,激活等

配置cuda+torch

这里不知道卡了多久,配置cuda和torch主要有几个要点,分别是:

  1. 显卡与驱动(NIVIADA driver)是否适配。
  2. cuda版本与显卡是否适配。
  3. torch是否为gpu版本
  4. torch版本与cuda,与python是否适配
  5. touchvision版本与torch是否适配。

详细内容见
注意没conda create一个环境都要手动装一下torch和torchvision

pip install torch-2.0.0+cu118-cp311-cp311-linux_x86_64.whl
pip install torchvision-0.15.1+cu118-cp311-cp311-linux_x86_64.whl

2. pbs文件编写

成功完成训练pbs文件示例:

!/bin/bash
#PBS -N yolov5_train
#PBS -l nodes=1:ppn=1,gpus=1
#PBS -l walltime=1:00:00
#PBS -o yolov5_train.out
#PBS -e yolov5_train.err
#PBS -A your_account
#PBS -V
#PBS -q gpu

export PATH=/usr/local/cuda-11.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH

# 查看gpu版本
#nvcc --version
# Display GPU information
# nvidia-smi

conda init bash
source ~/.bashrc
conda activate checkcuda5

export GIT_PYTHON_REFRESH=quiet

# 载入cuda
module load cuda/11.8

cd yolov5

python -c "import torch; print(torch.cuda.is_available())"

python train.py --img 640 --epochs 2 --data data/coco128.yaml --weights yolov5s.pt

# 退出 conda 环境
conda deactivate

3.作业提交与监控

因为我们的pbs文件是在win上编辑好后再传过去的,在提交之前需要转化为unix格式:

dos2unix train_job14.pbs
qsub -q 2a100-80 train_job14.pbs
队列选择

启明所有队列:
集群服务器GPU深度模型训练笔记(PBS作用调度系统),服务器,深度学习,人工智能
查看当前队列使用情况

qstat

查看自己的作业文章来源地址https://www.toymoban.com/news/detail-793051.html

bjobs

Multi-GPU Training

到了这里,关于集群服务器GPU深度模型训练笔记(PBS作用调度系统)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 租服务器训练深度学习模型

    推荐用AutoDL(便宜、功能强大、gug少、有时时客服解决问题) AutoDL算力云 | 弹性、好用、省钱。租GPU就上AutoDL 学生可以认证,享受会员价 服务器需要登录后先充值,先充个10元,接下来试试看。每次都是开机使用完关机后扣费,可以选择按量,超级划算,按小时扣费。 (租之

    2024年02月09日
    浏览(64)
  • [3D数据深度学习] (PC/服务器集群cluster)CPU内存/GPU显存限制及解决办法

    3D数据的深度学习目前研究远不如2D深度学习成熟,其中最大的一个原因之一就是收到硬件条件的限制。3D数据虽说只比2D数据增加了一个维度,但所占据的内存却是成倍的增长。对于3D数据的深度学习,我们会分析其在CPU内存和GPU显存两方面的限制,希望大家能够充分利用自己

    2024年02月10日
    浏览(50)
  • 【目标检测实验系列】AutoDL线上GPU服务器租用流程以及如何用Pycharm软件远程连接服务器进行模型训练 (以Pycharm远程训练Yolov5项目为例子 超详细)

           本篇博客主要涉及两个主体内容。 第一个 :从AutoDL网站中租用GPU服务器。 第二个 :用Pycharm软件远程连接租来的线上服务器,并以Yolov5项目为例,线上训练模型。此过程中会记录重要的地方,以及本人踩坑之后,如何解决问题的所思所想( 通读本篇博客大概需要1

    2024年02月03日
    浏览(58)
  • 【深度学习】模型训练云服务器平台推荐!!!个人心路历程,新手少踩坑

    作为一名深度学习训练小白,想上github下一个一般的网络练练,但是每次千辛万苦地配置好环境,成功运行,没开始几步,就提示显存不够! (362条消息) 把显存用在刀刃上!17 种 pytorch 节约显存技巧_听 风、的博客-CSDN博客_降低显存占用 上网一搜一大堆教程,改小batchsize,清

    2023年04月22日
    浏览(45)
  • 深度学习GPU服务器环境配置

    组里面分配了台gpu服务器,让我负责管理,需要先配置一些深度学习环境,记录一下。 一些linux服务器常用命令:https://blog.csdn.net/qq_51570094/article/details/123949910 首先需要了解linux系统信息 通过 cat /proc/version 查看包含gcc的版本信息 通过 hostnamectl 命令查看系统信息,这个命令是

    2024年02月01日
    浏览(57)
  • 基于slurm框架的GPU服务器集群搭建方法

    1. 环境基础 2. 环境配置 2.1 hostname配置 2.2 关闭SELinux (master, slave) 2.3 关闭Firewall (master, slave) 2.4 配置ip与hostname映射关系 (master, slave1) 3. 创建munge和slurm用户 (master, slave) 4. 安装munge 4.1 下载munge及依赖包 (master, slave) 4.2 生成munge.key并发送到各计算节点 (master) 4.3 修改

    2024年02月05日
    浏览(54)
  • 如何在服务器使用GPU跑深度学习代码

    每个人都有他们偏好的工具和工作流程。就我个人而言,我喜欢使用 PyCharm Professional Edition 作为我的集成开发环境,选择使用 HengYuan Cloud\\\'s OSS.exe 和 FileZilla 进行文件传输,并且我倾向于使用 Xshell 来处理命令行操作。这些工具的组合满足了我的所有需求,并使我的工作效率最

    2024年04月12日
    浏览(50)
  • 新手小白如何租用GPU云服务器跑深度学习

    最近刚学深度学习,自己电脑的cpu版本的pytorch最多跑个LexNet,AlexNet直接就跑不动了,但是作业不能不写,实验不能不做。无奈之下,上网发现还可以租服务器这种操作,我租的服务器每小时0.78人民币,简直是发现新大陆,又省下一大笔钱,太开心了吧(啪,什么乱七八糟的

    2023年04月15日
    浏览(50)
  • 打造专属个人模型-私有独立离线模型部署-阿里云GPU服务器配置

    阿里云有免费的机器学习 GPU 服务器,免费试用活动页https://free.aliyun.com 只要没有申请过 PAI-DSW 资源的新老用户皆可申请 5000CU 的免费额度,3个月内使用。 选择第一个进行立即试用 可以看到试用的界面 如果遇到下面的错误,当前账号没有权限开通PAI,请联系主账号。 您可以

    2024年02月11日
    浏览(45)
  • 使用网上服务器(AutoDL)训练模型

    ①请把数据集放到名为dataset文件夹下;②数据集请压缩,后缀名为.zip;③点击确定 ①请把代码放到名为coad文件夹下;②代码请压缩,后缀名为.zip;③点击确定 下面我们有两个压缩包。 https://www.autodl.com/register?code=e0ab7117-bd25-4480-8184-5953048a2502 ①打开界面。 ②注册用户会有

    2024年02月02日
    浏览(54)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包