集群服务器GPU深度模型训练笔记（PBS作用调度系统）

这篇具有很好参考价值的文章主要介绍了集群服务器GPU深度模型训练笔记（PBS作用调度系统）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

深度学习模型单节点训练

以yolov5最基本模型训练为例

1. 配置Anaconda

Anaconda官方教程：https://hpc.sustech.edu.cn/ref/anaconda-install-by-user.html

因为anaconda相关文件会存储在自己的工作文件夹里，所以和环境相关的步骤可以直接在登录节点执行。

下载Anaconda（只需完成一次）

test -d ~/softwares/python/anaconda3 || mkdir -p ~/softwares/python/anaconda3 #创建安装目录
wget https://mirrors.sustech.edu.cn/anaconda/archive/Anaconda3-2020.07-Linux-x86_64.sh #下载安装包
sh Anaconda3-2020.07-Linux-x86_64.sh -b -p ~/softwares/python/anaconda3/2020.07 #自动安装到目录

在安装目录写入环境变量文件anaconda.2020.07.source，此文件也可以放在任意计算时可以调用的目录，在命令行输入：

cat>~/softwares/python/anaconda3/2020.07/anaconda.2020.07.source<<EOF
# >>> conda initialize >>>
# !! Contents within this block are managed by 'conda init' !!
__conda_setup="$('/work/ccse-tangh/softwares/python/anaconda3/2020.07/bin/conda' 'shell.bash' 'hook' 2> /dev/null)"
if [ $? -eq 0 ]; then
    eval "$__conda_setup"
else
    if [ -f "~/softwares/python/anaconda3/2020.07/etc/profile.d/conda.sh" ]; then
        . "~/softwares/python/anaconda3/2020.07/etc/profile.d/conda.sh"
    else
        export PATH="~/softwares/python/anaconda3/2020.07/bin:$PATH"
    fi
fi
unset __conda_setup
# <<< conda initialize <<<
EOF

在用户目录写入.condarc文件，配置国内更新源，以便于加快更新和安装环境或者软件包的速度，在命令行输入：

cat>~/.condarc<<EOF
channels:
  - defaults
show_channel_urls: true
channel_alias: https://mirrors.sustech.edu.cn/anaconda
default_channels:
  - https://mirrors.sustech.edu.cn/anaconda/pkgs/main
  - https://mirrors.sustech.edu.cn/anaconda/pkgs/free
  - https://mirrors.sustech.edu.cn/anaconda/pkgs/r
  - https://mirrors.sustech.edu.cn/anaconda/pkgs/pro
custom_channels:
  conda-forge: https://mirrors.sustech.edu.cn/anaconda/cloud
  msys2: https://mirrors.sustech.edu.cn/anaconda/cloud
  bioconda: https://mirrors.sustech.edu.cn/anaconda/cloud
  menpo: https://mirrors.sustech.edu.cn/anaconda/cloud
  pytorch: https://mirrors.sustech.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.sustech.edu.cn/anaconda/cloud
EOF

加载环境变量，清理索引缓存，更新：

source ~/softwares/python/anaconda3/2020.07/anaconda.2020.07.source
conda clean -i　
conda update --prefix ~/softwares/python/anaconda3/2020.07 anaconda -y

为每一个任务创建一个conda环境

直接在登陆节点创建并配置好requirement，在pbs文件里activate就可以了。在训练节点无法联网，不能下载相关包或者创建环境！！！

先激活bash使用conda：

conda init bash
source ~/.bashrc

然后就是标准conda操作了：

conda create -n yolov5 python=3.8 -y -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda activate yolov5

cd yolov5
pip install -r requirements.txt

再正常使用，比如创建，激活等

配置cuda+torch

这里不知道卡了多久，配置cuda和torch主要有几个要点，分别是：

显卡与驱动（NIVIADA driver）是否适配。
cuda版本与显卡是否适配。
torch是否为gpu版本
torch版本与cuda，与python是否适配
touchvision版本与torch是否适配。

详细内容见
注意没conda create一个环境都要手动装一下torch和torchvision

pip install torch-2.0.0+cu118-cp311-cp311-linux_x86_64.whl
pip install torchvision-0.15.1+cu118-cp311-cp311-linux_x86_64.whl

2. pbs文件编写

成功完成训练pbs文件示例：

!/bin/bash
#PBS -N yolov5_train
#PBS -l nodes=1:ppn=1,gpus=1
#PBS -l walltime=1:00:00
#PBS -o yolov5_train.out
#PBS -e yolov5_train.err
#PBS -A your_account
#PBS -V
#PBS -q gpu

export PATH=/usr/local/cuda-11.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH

# 查看gpu版本
#nvcc --version
# Display GPU information
# nvidia-smi

conda init bash
source ~/.bashrc
conda activate checkcuda5

export GIT_PYTHON_REFRESH=quiet

# 载入cuda
module load cuda/11.8

cd yolov5

python -c "import torch; print(torch.cuda.is_available())"

python train.py --img 640 --epochs 2 --data data/coco128.yaml --weights yolov5s.pt

# 退出 conda 环境
conda deactivate