曙光云使用说明

这篇具有很好参考价值的文章主要介绍了曙光云使用说明。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

平台链接

https://ac.sugon.com/ac/home/index.html

控制台界面

曙光dcu,Linux,黑科技,python,linux,conda,深度学习,人工智能

创建个人工作目录及上传文件。点击概览页面顶端的 E-Shell 菜单栏,进入所连主机的 Shell 终端。在用户目录下新建个人工作目录,如:mkdir ywj2

曙光dcu,Linux,黑科技,python,linux,conda,深度学习,人工智能

安装MiniConda(推荐)

参考链接:https://ac.sugon.com/doc/1.0.6/11250/general-handbook/software-tutorial/DeepLearning-1.html#1-miniconda%E5%AE%89%E8%A3%85

使用wget下载(下载时间可能有点久)

wget https://repo.anaconda.com/miniconda/Miniconda3-py37_4.9.2-Linux-x86_64.sh -i https://pypi.tuna.tsinghua.edu.cn/simple/

添加权限并运行

chmod +x Miniconda3-py37_4.9.2-Linux-x86_64.sh
mkdir -p ~/miniconda3/
bash Miniconda3-py37_4.9.2-Linux-x86_64.sh -b -f -p "~/miniconda3/"
rm -rf Miniconda3-py37_4.9.2-Linux-x86_64.sh

初始化 conda 环境

~/miniconda3/bin/conda init
source ~/.bashrc

先换个清华源(加速)

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/menpo/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge 
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --set show_channel_urls yes

conda创建python3.7环境

conda create -n yolov5 python=3.7

激活环境

conda activate yolov5

本地安装PyTorch1.7(重点)

由于曙光云使用的是国产GPU(即DCU),硬件是基于ROCm的,因此不能适配PyTorch官网下载的包(无法调用DCU),因此只能使用曙光云平台提供的编译好的PyTorch包进行安装。切忌不能使用pip install torch==1.7.0 torchvision的命令直接安装,而应该选择曙光云本地提供的包进行安装。参考此链接:https://ac.sugon.com/doc/1.0.6/11276/general-handbook/compile/pytorch110.html

本地whl所在目录

/public/software/apps/DeepLearning/whl/dtk-21.04

进入whl所在目录看看

cd /public/software/apps/DeepLearning/whl/dtk-21.04
曙光dcu,Linux,黑科技,python,linux,conda,深度学习,人工智能

以安装PyTorch1.8为例(torch1.8和torchvision0.9适配)

# 安装torch
pip install /public/software/apps/DeepLearning/whl/dtk-21.04/torch-1.8.0a0+56b43f4-cp37-cp37m-linux_x86_64.whl
# 安装torchvision
pip install /public/software/apps/DeepLearning/whl/dtk-21.04/torchvision-0.9.0a0-cp37-cp37m-linux_x86_64.whl

根据项目的需求安装其他依赖(记得激活自己的环境再安装)。提示:除了与GPU有关的包(比如torch和torchvision等),其他包我们都可以从网上直接下载,即可以使用pip install numpy 这类命令直接从网上下载,无需曙光云本地提供。

# 安装自己想要的包
pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install Pillow
pip install scipy

开始使用

查看所在队列

whichpartition
曙光dcu,Linux,黑科技,python,linux,conda,深度学习,人工智能

申请并登录计算节点,进行测试

# salloc -p 队列名 -N 1 --gres=dcu:申请DCU的数量
salloc -p wzhdtest -N 1 --gres=dcu:2
曙光dcu,Linux,黑科技,python,linux,conda,深度学习,人工智能

登录计算节点

# ssh 节点
ssh b01r4n05
曙光dcu,Linux,黑科技,python,linux,conda,深度学习,人工智能

切换rocm编译器版本(加载dtk21.04),跟后续使用GPU的关系很大!

module switch compiler/dtk/21.04

在本地创建一个pytorch_env.sh的文件,添加环境变量!

vi  ~/pytorch_env.sh

export
LD_LIBRARY_PATH=/public/software/apps/DeepLearning/PyTorch_Lib/lib:/public/software/apps/DeepLearning/PyTorch_Lib/lmdb-0.9.24-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/opencv-2.4.13.6-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/openblas-0.3.7-build/lib:$LD_LIBRARY_PATH

# 记得以后每次登录新的节点时,一定要执行一次source ~/pytorch_env.sh命令,这关系到服务器能不能找到PyTorch
source ~/pytorch_env.sh

激活conda环境(登录到计算节点后会退出之前的环境,所以需要重新激活环境)

conda activate yolov5

进入环境,查看DCU能不能用,依次执行以下命令

python

import torch
torch.cuda.is_available()
torch.__version__
曙光dcu,Linux,黑科技,python,linux,conda,深度学习,人工智能

进入项目文件即可开始训练

cd ~/ywj/yolov5-colab
python train.py --data data/citrus.yaml --cfg models/yolov5s.yaml  --weights weights/yolov5s.pt --epochs 150 --batch-size 4
曙光dcu,Linux,黑科技,python,linux,conda,深度学习,人工智能

查看DCU状态的命令

hy-smi

【注意】srun和salloc方式使用时需要保持E-Shell页面常开启,否则此终端对应的作业将出现结束。


补充

显卡相关

使用的显卡:海光 DCU (Deep Computing Unit)

  • 7nm 工艺,2.5D Interposer SoC 封装
  • TDP 300W
  • FP64 6.6 TF,FP32 13.1 TF,FP16 26.2 TF
  • 16GB HBM2(可支持32GB),带宽 1TB/s
  • PCIe 3.0 x16,支持升级到 PCIe Gen4
  • 支持 GPUDirect RDMA
  • 支持 OpenCL,兼容 CUDA 主流异构编程标准
  • 提供 BLAS, FFT, Sparse, Convolutions, Tensor, Softmax, LRN, BN, Activation, Pooling 等库函数
  • 已支持 TensorFlow, Caffe, Caffe2, Keras, …
  • 比2080TI快一些, 跑训练不如3080。
  • 硬件是基于ROCm的

批作业提交(除了使用salloc的另一种提交作业的方式)

提示:除了使用salloc的另一种提交作业的方式,这种方式关了网页程序也能在后台跑

参考链接:https://ac.sugon.com/doc/1.0.6/11276/general-handbook/scheduler/sbatch.html

创建yolo.sh作业文件

#!/bin/bash
#SBATCH -o yolo.out
#SBATCH --partition=wzhdtest
#SBATCH --qos=low
#SBATCH -J myFirstGPUJob
#SBATCH --nodes=1             
#SBATCH --ntasks-per-node=6
#SBATCH --gres=dcu:1             

module switch compiler/dtk/21.04
source ~/pytorch_env.sh
source ~/miniconda3/etc/profile.d/conda.sh
conda activate yolov5
cd ~/ywj/yolov5-colab
python train.py --data data/citrus.yaml --cfg models/yolov5s.yaml  --weights weights/yolov5s.pt --epochs 10 --batch-size 8

提交yolo.sh作业文件

sbatch yolo.sh
曙光dcu,Linux,黑科技,python,linux,conda,深度学习,人工智能

conda命令相关

//换源
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/menpo/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge 
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --set show_channel_urls yes

//恢复原来的源
conda config --remove-key channels

//新建conda环境
conda create --name maskrcnn_benchmark python=3.7

//查看环境
conda info --env

//清理conda缓存
conda clean -p
conda clean -t

//删除环境
conda remove --name new_env_name --all

//复制环境,这个命令特别有用,假如一个环境有相应版本的PyTorch,那么就可以直接复制环境,再额外安装自己想要的包
conda create --name new_env_name --clone old_env_name 

//导出环境
conda env export > environment.yml

//导入环境
conda env create -f environment.yml

//激活环境
conda activate maskrcnn_benchmark

最后感谢小伙伴们的学习噢~文章来源地址https://www.toymoban.com/news/detail-802128.html

曙光dcu,Linux,黑科技,python,linux,conda,深度学习,人工智能

到了这里,关于曙光云使用说明的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • MySQL笔记——MySQL数据库介绍以及在Linux里面安装MySQL数据库,对MySQL数据库的简单操作,MySQL的外接应用程序使用说明

    MySQL笔记——MySQL数据库介绍以及在Linux里面安装MySQL数据库,对MySQL数据库的简单操作,MySQL的外接应用程序使用说明 MySQL笔记——表的分组查询、表的分页查询、表的约束、数据库设计 MySQL案例——多表查询以及嵌套查询 MySQL笔记——数据库当中的事务以及Java实现对数据库进

    2024年01月16日
    浏览(75)
  • Python pkgutil基础使用说明

    pkgutil 是Python的标准库中的一个模块,提供了一系列与包(Package)相关的工具函数,例如动态加载包、递归遍历包内的子模块等。在本篇教程中,我们将带你详细了解 pkgutil 模块的主要功能及使用方法。 pkgutil 模块是Python标准库中的一个工具模块,它提供了一系列与包相关的

    2024年02月09日
    浏览(35)
  • 使用VSCode开发 Python虚拟环境配置说明

    这里给大家介绍下怎么配置VSCode的环境来开发Python。 介绍: VSCode是一款由Microsoft开发的免费、开源的代码编辑器。它具有许多优势,使其成为许多开发者喜爱的工具之一。以下是一些VSCode的主要优势: 轻量且快速启动: VSCode是一款轻量级的编辑器,启动速度很快,使开发者

    2024年01月23日
    浏览(60)
  • Python界面编辑器Tkinter布局助手使用说明

    Tkinter布局助手是一款为Tkinter打造,仅需拖拽组件进行布局,所见即所得,非常方便就能做出一个GUI界面,再配合 pyinstaller 库将程序打包成exe,简直是开发小工具的利器。 当第一次接触到Tkinter,觉得它很方便,兼容性也挺不错,而且是Python自带的。 后来为了方便布局,我开

    2024年03月15日
    浏览(53)
  • 基于Python开发的DIY字符画程序(源码+可执行程序exe文件+程序配置说明书+程序使用说明书)

    本项目是一套基于Python开发的DIY字符画程序,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Python学习者。 包含:项目源码、项目文档、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,确保可以运行! 本系统的软件开发及运

    2024年02月09日
    浏览(50)
  • python+request+pytest+allure接口自动化使用说明书

    接口自动化使用与流程设计: 一、设计思路 1、一个好的框架,必须要可读性强,所以目录规划尤为重要; 2、公共的方法提取出来,提高复用性; 3、可变的环境等参数,提取出来放到配置文件中,这样,每次只需要更改配置文件中的值; 4、为了追踪错误,需要必要的日志

    2024年02月09日
    浏览(71)
  • 基于Python开发的玛丽大冒险小游戏(源码+可执行程序exe文件+程序配置说明书+程序使用说明书)

    本项目是一套基于Python开发的玛丽冒险小游戏程序,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Python学习者。 包含:项目源码、项目文档等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,确保可以运行! 本系统的软件开发及运行环境

    2024年02月09日
    浏览(51)
  • 【Python使用】嘿马头条完整开发md笔记第1篇:课程简介,ToutiaoWeb虚拟机使用说明【附代码文档】

    嘿马头条项目从到完整开发笔记总结完整教程(附代码资料)主要内容讲述:课程简介,ToutiaoWeb虚拟机使用说明,Pycharm远程开发,产品与开发,数据库1 产品介绍,2 原型图与UI图,3 技术架构,4 开发。OSS对象存储,七牛云存储,CDN,缓存。缓存,缓存架构,缓存数据,缓存有效

    2024年03月13日
    浏览(47)
  • 05-python之函数-函数的定义/函数的参数/函数返回值/函数说明文档/函数的嵌套使用/函数变量的作用域

    对应输出如上,没有使用len()函数,对应的子算出字符的长度,但是代码整体写的就很别扭。代码过于重复,代码中唯一不一样的地方就是被统计的字符串不同。同时对应的,代码整体也就会比较低效。可以使用函数,优化过程,先定义函数。 同样的输出,效果一样,两者

    2024年01月19日
    浏览(80)
  • 【Python】使用pyside2时qt designer 设计窗口显示图标icon但是运行后不显示(图文说明)

    欢迎关注 『Python』 系列,持续更新中 欢迎关注 『Python』 系列,持续更新中 平时用的不多,也不知道这个报错有没有偶然性,或者是我自己搞错了···仅供参考。 toolBar中的图标在designer中显示正常 在菜单栏中的显示正常 窗口的title属性用英文,想要中文的话,在初始化中

    2024年02月10日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包