北京超级云计算中心操作训练指南

这篇具有很好参考价值的文章主要介绍了北京超级云计算中心操作训练指南。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

北京超级云计算中心操作指南

本人在实验室做深度学习图像领域相关研究,前期使用实验室的设备 2080Ti ,运行时间较慢;跑一轮需要6个小时以上;后来开始使用超算,运行速度比实验室快多了,但超算使用前需要相关配置,使用难度相较于本地会难一点,本文以北京超级云计算中心和 yolov5 训练为例,详细介绍超算的环境安装与计算过程。

一、获取账号

使用超算首先需要的当然是需要有超算的使用权限以及超算的账号了。本文主要以北京超级云计算中心为例。

  1. 首先在百度、知乎等平台搜索北京超级云计算中心试用,找到申请的表单,提交申请即可。学校教师或学生使用教育网邮箱概率更大哦。
  2. 申请试用后大约 1~2 天,北超云会依据你留的手机号给你打电话,电话里会沟通一些超算中心试用节点等信息。
  3. 电话沟通后大于 1~2 天内会收到超算账号开通的邮件,届此获取账号环节结束。

超算中心怎么使用,deeplearning,深度学习,人工智能,神经网络

二、安装环境

根据邮件中的网址 https://cloud.blsc.cn/ 与账号密码登陆超算平台网页版,或下载客户端登陆。登陆后界面如下图所示。

超算中心怎么使用,deeplearning,深度学习,人工智能,神经网络

2.1 安装系统软件

在运行前需要安装一些必要软件。打开桌面应用中心,找到 ssh、WinScp 等选择并安装。
ssh 用于链接超算账号,执行超算命令。
WinScp 用于查看、上传、下载超算节点的文件。
其他软件按需求安装。

2.2 配置 yolov5 深度学习环境

超算中心怎么使用,deeplearning,深度学习,人工智能,神经网络

使用 SSH 链接超算节点后,需要在节点内配置运行环境。

超算节点安装好了一些默认环境,使用 module avail 可查看节点可用的软件列表。

超算中心怎么使用,deeplearning,深度学习,人工智能,神经网络

使用 module load anaconda/2020.11 加载 anaconda 环境。
使用 conda creat -n torch110 Python=3.8 创建一个名为 torch110 的 python3.8 的虚拟环境。
使用 module load cuda/11.3 加载 cuda/11.3 环境。
使用 source activate torch110 激活 python 虚拟环境。
使用 conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=11.3 -c pytorch -c conda-forge 安装 torch 1.10.0 环境,可依据需要自行安装其他 torch 版本环境。

然后使用 WinScp 工具将本地 yolov5 训练文件以及训练数据上传到超算节点的 run 文件夹下。

超算中心怎么使用,deeplearning,深度学习,人工智能,神经网络

然后进入 yolov5 文件夹下,执行 pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple some-package 安装 yolov5 需要的运行环境。

三、训练数据

3.1 创建 sub.sh 文件

在上传的 run/yolov5 文件夹下新建文件 sub.sh
sub.sh 中填入一下内容:

# sub.sh
# #!/bin/sh
# 加载 anaconda
module load anaconda/2020.11
# 加载 cuda 11.3
module load cuda/11.3
# 激活 python 虚拟环境
source activate torch110
export PYTHONUNBUFFERED=1
# yolov5 python 训练的的命令(此处需要自己依据自己训练的需要进行修改)
python train.py --img 640 --batch 16 --epoch 100 --data dataset/data/voc2007.yaml --cfg dataset/yolov5s_1.yaml --weights weights/yolov5s.pt
3.2 提交训练

使用 ssh 工具进入 sub.sh 根目录中,执行 sbatch --gpus=GPU数量 程序运行脚本 ,例如 sbatch --gpus=1 ./sub.sh 提交需要训练的数据到超算的计算节点。

3.3 查看提交结果
  1. 查看已提交作业

    parajobs
    

超算中心怎么使用,deeplearning,深度学习,人工智能,神经网络

其中,
第一列 JOBID 是作业号,作业号是唯一的。
第二列 PARTITION 是作业运行使用的队列名。
第三列 NAME 是作业名。
第四列 USER 是超算账号名。
第五列 ST 是作业状态,R(RUNNING)表示正常运行,PD(PENDING)表示在排队,CG(COMPLETING)表示正在退出,S 是管理员暂时挂起,CD(COMPLETED)已完成,F(FAILED)作业已失败。只有 R 状态会计费。
第六列 TIME 是作业运行时间。
第七列 NODES 是作业使用的节点数。
第八列 NODELIST(REASON)对于运行作业(R 状态)显示作业使用的节点列表;对于排队作业(PD 状态),显示排队的原因。

  1. 取消作业
    执行 scancel 作业ID 取消作业

    scancel 20118812
    
  2. 进入计算节点中

使用 ssh 作业节点数ssh g0012 进入当前提交训练的计算节点中,使用 nvidia-smi 可查看当前计算节点的运行情况。
超算中心怎么使用,deeplearning,深度学习,人工智能,神经网络

3.4 查看训练结果
  1. 训练的全部日志保留在 run/yolov5 根目录中名为 slurm-XXX.out 文件中。
  2. 训练完成的结果与本地训练一样,存放在 run/yolov5/runs/train 中。

超算中心怎么使用,deeplearning,深度学习,人工智能,神经网络


本文首发于本人博客:https://blog.gitnote.cn/post/bscc_yolov5

版权信息: CC BY-NC-SA 4.0 (自由转载-非商用-相同方式共享-保持署名)文章来源地址https://www.toymoban.com/news/detail-633883.html

到了这里,关于北京超级云计算中心操作训练指南的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 云计算与数据中心的基本概念

    目录 云计算基本概念 云计算的三种服务模式 云计算的三类部署模式 公有云(Public) 私有云(Private) 混合云(Hybrid) 数据中心介绍 数据中心的组成部分 云数据中心 为什么提出云计算 传统网络存在的问题 单机可靠性低;系统容易出现蓝屏等故障,回复时间长 设备利用率

    2024年02月04日
    浏览(39)
  • 上海智慧岛大数据云计算中心项目正式封顶!

    上海智慧岛大数据云计算中心封顶仪式现场 1月15日,云端股份在上海智慧岛大数据云计算中心举行封顶仪式。云之端网络(江苏)股份有限公司(以下称“云端股份”)总经理贡伟力先生,常务副总张靖先生等公司成员;江苏瀚天投资公司副总裁、通州建总集团有限公司(以

    2024年01月20日
    浏览(38)
  • 【云计算】云数据中心网络(一):VPC

    推荐阅读:《虚拟私有云 VPC》 VPC 是用户在云上可自己掌控的 私有网络环境 ,例如 选择 IP 地址范围 、 配置路由表和网关 、 构建混合云 等。用户还可以在自己定义的 VPC 中使用如 云服务器 、 云数据库 和 负载均衡 等产品。 VPC 初期主要解决两个核心问题:一是 多租户网

    2024年04月10日
    浏览(45)
  • 【云计算】云数据中心网络(七):负载均衡

    《 云网络 》系列,共包含以下文章: 云网络是未来的网络基础设施 云网络产品体系概述 云数据中心网络(一):VPC 云数据中心网络(二):弹性公网 IP 云数据中心网络(三):NAT 网关 云数据中心网络(四):IPv6 网关 云数据中心网络(五):对等连接 云数据中心网络(

    2024年04月28日
    浏览(31)
  • 云计算的两地三中心和灾备介绍

         两地三中心是指在不同的地理位置建立两个数据中心和一个灾备中心,其中一个数据中心为主数据中心,另一个数据中心为备用数据中心,灾备中心则用于备份数据和在主数据中心或备用数据中心发生故障或灾难时提供应急支持。 异地灾备则是指在不同的地理位置建立

    2024年02月22日
    浏览(23)
  • 【云计算】云数据中心网络(六):私网连接

    《 云网络 》系列,共包含以下文章: 云网络是未来的网络基础设施 云网络产品体系概述 云数据中心网络(一):VPC 云数据中心网络(二):弹性公网 IP 云数据中心网络(三):NAT 网关 云数据中心网络(四):IPv6 网关 云数据中心网络(五):对等连接 云数据中心网络(

    2024年04月28日
    浏览(41)
  • 使用opencv计算图片上任意一点到图片中心点距离为半径绘制圆形,计算FOV

    一、计算公式 图片坐标:Point(x,y) 半径 :r = ( x − i m a g e . c o l s / 2 ) 2 + ( y − i m a g e . r o w s / 2 ) 2 sqrt {(x - image.cols/2)^2 + (y - image.rows/2)^2} ( x − ima g e . co l s /2 ) 2 + ( y − ima g e . ro w s /2 ) 2 ​ 二、以 R R R 为半径在图像上绘制圆形,如下图所示: 三、实现代码

    2024年01月16日
    浏览(44)
  • 浅析云计算数据中心动力环境监控系统-Susie 周

    数据中心是云计算的主要载体,其中动力环境监控系统是数据中心保障通信设备正常、稳定运行的重要基础设施,动力环境监控系统失效,可能会造成数据灾难事故。 1)系统概述 机房动力环境监控系统是运用计算机、现代通信、智能测控等先进技术,利用先进的通信网络对

    2024年01月24日
    浏览(45)
  • 如何实现Web3去中心化云计算的大规模采用?

    随着区块链技术的迅猛发展,Web3去中心化云计算正在逐渐崭露头角。 它以分布式、安全和透明的特点,为用户和企业提供了许多独特的优势。 然而,要实现Web3去中心化云计算的大规模采用,仍然面临着一些挑战。本文将探讨这些挑战,并提出一些关键的解决方案,以推动

    2024年02月07日
    浏览(54)
  • 2023华为OD机试真题【计算数组中心位置】【Java Python】

    给你一个整数数组nums,请计算数组的中心位置。数组的中心位置是数组的一个下标, 其左侧所有元素相乘的积等于右侧所有元素相乘的积。数组第一个元素的左侧积为1,最后一个元素的右侧积为1。 如果数组有多个中心位置,应该返回最靠近左边的那一个,如果数组不存在

    2024年02月14日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包