超算云服务深度学习环境配置及使用方法

这篇具有很好参考价值的文章主要介绍了超算云服务深度学习环境配置及使用方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一、环境配置

1. 通过SSH连接服务器

2. 查看服务器已安装模块

3. 调用Anaconda模块

4. 创建Python3.7的虚拟环境(不是必须。不需要的话可以使用默认安装的环境)

5. 虚拟环境下安装CUDA11.6+Pytorch1.12.1

二、使用方法

1、提交作业

2、其他命令

3、注意事项


首页-并行超算云,用超算更省心

一、环境配置

1. 通过SSH连接服务器

点击桌面SSH图标,显示当前账号可访问的云服务器,点击想要连接的服务器。

并行超算云服务怎么用,Linux服务器,服务器,运维

并行超算云服务怎么用,Linux服务器,服务器,运维

显示当前页面表明服务器连接成功。

2. 查看服务器已安装模块

在SSH终端输入命令 module avail

踩过的坑:如果输入module avail显示command module not found,则先输入source path/path/module.sh(一般这里路径会在连接服务器时有提示),再输入module avail。通常服务器已经预先装好anaconda,cuda等常用环境。

并行超算云服务怎么用,Linux服务器,服务器,运维

3. 调用Anaconda模块

module load anaconda/2021.05

4. 创建Python3.7的虚拟环境(不是必须。不需要的话可以使用默认安装的环境)

conda create -n my_name python=3.7 # my_name 是虚拟环境名字

5. 虚拟环境下安装CUDA11.6+Pytorch1.12.1

sources activate my_name # 如果创建了虚拟环境,先激活虚拟环境。没创建则跳过
pip install torch==1.12.1+cu116 torchvision==0.13.1+cu116 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu116
# 安装成功,但通过print(torch.cuda.is_available())返回False,主要是未向云服务器请求分配GPU的原因
# 则需要申请GPU分配后才可以使用GPU

GPU分配申请:

1、salloc   --gpus=1    抢占一个计算节点
2、squeue    查看节点名,最后一列
3、ssh   gxxx   登录计算节点

此时,配置Pytorch环境完成!

二、使用方法

1、提交作业

提交作业,需要先向服务器上传 模型 和设置好的 .sh 文件。使用桌面上的 快传 

并行超算云服务怎么用,Linux服务器,服务器,运维

并行超算云服务怎么用,Linux服务器,服务器,运维

.sh 文件的配置模板如下:(编辑器,编辑脚本中第三行,将xxx改为实际用conda创建的虚拟环境名,最后一行python命令后xxx.py修改为自己的代码文件或完整命令即可)

#!/bin/bash
module load anaconda/2021.05
source activate xxx 
export PYTHONUNBUFFERED=1
python xxx.py

然后在服务器中,进入到该文件夹,利用如下命令提交作业。

sbatch --gpus=卡数 ./run.sh

2、其他命令

  • 查看作业情况

squeue
  • 结束作业
scancel  作业号(作业号执行squeue即可查看到)
  • 实时查看输出文件
tail -f   文件名(文件夹下的.out文件)
  • 查看详细历史作业
sacct -u $USER -S 2023-01-01-00:00    -E now --field=jobid,partition,jobname,user,nnodes,ncpus,nodelist,submit,start,end,elapsed,state,time

-u paratera是指查看paratera账号的历史作业,
-S是开始查询时间,
-E是截止查询时间,
–format定义了输出的格式,
jobid是指作业号,
partition是指提交队列,
user是指超算账号名,
nnodes是节点数,
nodelist是节点列表,
start是开始运行时间,
end是作业退出时间,
elapsed是运行时间,
state是作业结束状态。
sacct --helpformat可以查看支持的输出格式。
sacct的其他参数选项可通过sacct --help查看。

  • 查看作业及查看每个作业的GPU利用率
parajobs

3、注意事项

我们提交作业用的是sbatch,而不是salloc。

主要是因为salloc这样的方式,会受到本地网络的影响,而sbatch提交的不会,即便您本地电脑关机,这样提交到计算节点的作业也不会受影响。另外,通过salloc抢占的节点,建议通过 :scancel  JOBID 这个命令取消作业,如果不采用该命令取消,有一种情况就是,退出的时候可能刚好本地网络波动导致作业没有取消成功,就一直挂着计费,导致浪费。因此,退出后最好执行squeue命令查看下是否成功退出了,没有退出的话,就执行scancel命令取消。文章来源地址https://www.toymoban.com/news/detail-788349.html

到了这里,关于超算云服务深度学习环境配置及使用方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • Windows Server 2019服务器远程桌面服务部署+深度学习环境配置教程

    Windows Server 2019服务器远程桌面服务部署+深度学习环境配置教程

    实验室需要将Win10的系统改装为Server系统供多人以远程桌面的方式使用,同时配置Tensorflow+Pytorch的深度学习环境,遂记录一下大概步骤。 和安装其他Windows系统的步骤差不多,也是插入U盘后进BIOS然后根据引导分区创建管理员等等,可以参考:windows server 2019安装教程 如果装完

    2024年02月04日
    浏览(10)
  • vscode连接远程服务器 + Tensorflow2环境配置 + 深度学习训练

    vscode连接远程服务器 + Tensorflow2环境配置 + 深度学习训练

    参考:vscode连接远程服务器(傻瓜式教学) 配置服务器pytorch/TensorFlow环境+远程连接vscode 在远程服务器安装anoconda并创建tensorflow-gpu环境并运行jupyter 【vscode连接远程服务器】 step 1:测试服务器连接 win+R 进入 cmd,在命令行输入以下命令,并根据提示输入密码 step 2:安装 ssh 插

    2024年02月08日
    浏览(9)
  • 基于docker的ubuntu云服务器jupyter深度学习环境配置指南

    基于docker的ubuntu云服务器jupyter深度学习环境配置指南

    安装docker 文档中的命令如下: 如果回显如下所示,则说明成功: 安装Nvidia-docker 根据官方文档中的命令跑就行了 如果出现了以下回显,说明安装成功 需要注意的是,在运行最后一步命令时: sudo docker run --rm --runtime=nvidia --gpus all nvidia/cuda:11.6.2-base-ubuntu20.04 nvidia-smi 如果报错

    2024年02月13日
    浏览(6)
  • 深度学习环境搭建 2 AutoDL服务器配置及Xftp数据传输

    深度学习环境搭建 2 AutoDL服务器配置及Xftp数据传输

    目录 1. 创建基于AutoDL的GPU环境 1. 1 租用实例 1.2  配置环境——激活conda 1.3 根据不同框架和GPU的操作 1.4   jupyter页面更新 1.5 电脑有网的情况下,jupyter显示“未连接成功”的解决办法  2.  安装Xftp 3. Xftp与AutoDL网盘连接 (环境配置可以选择无卡模式,费用低) 1. 算力市场

    2024年02月04日
    浏览(6)
  • 探索GpuMall智算云平台的AI云计算:SSH连接GPU云主机进行深度学习

    探索GpuMall智算云平台的AI云计算:SSH连接GPU云主机进行深度学习

    #GpuMall# #GpuMall智算云# #算力租赁# #ai# 在 人工智能 和 机器学习 的领域中,获取强大的计算资源已经成为推进项目进展的关键。随着AI研究的深入,需求对GPU加速的计算能力也在不断提升。 GPU云主机、GPU云服务器、GPU闲置、GPU变现、GPU收益、AI云、算力交易平台 等在进行模型

    2024年02月02日
    浏览(11)
  • 动手学深度学习 - 学习环境配置

    动手学深度学习 - 学习环境配置

    参考: https://www.jb51.net/article/275192.htm https://blog.csdn.net/m0_54179726/article/details/130522489 miniconda3 下载完,打开安装包,按照默认提示,下一步下一步,到这里要牢记安装目录,之后配置环境变量会用到; 点击新建,分别添加以下三个路径: 安装路径Miniconda3 安装路径Miniconda3Sc

    2024年02月07日
    浏览(7)
  • 深度学习环境配置Anaconda+cuda+cudnn+PyTorch——李沐大神《动手学深度学习》环境配置(巨详细,持续迭代)

    深度学习环境配置Anaconda+cuda+cudnn+PyTorch——李沐大神《动手学深度学习》环境配置(巨详细,持续迭代)

    Anaconda+cuda+cudnn+Pytorch(手把手教你安装深度学习环境)——这里是GPU+PyTorch版本 国内AI教学体系发展较晚,很多喜欢AI的同学都得不到系统的学习。当然我们也不否认国内一些优质的AI领域的课程和教学资料,这里我们主要推荐李沐大神推出的《动手学深度学习》,这门课程最初

    2024年02月15日
    浏览(44)
  • 深度学习环境配置常见指令

    深度学习环境配置常见指令

    首先打开anaconda prompt,激活对应虚拟环境。 导入torch并获取对应版本   导入torchvision并获取对应版本 检查cuda是否可用  获取CUDA设备数 获取当前cuda设备id 获取CUDA设备名称

    2024年02月22日
    浏览(9)
  • 深度学习环境配置

    深度学习环境配置

    操作系统:Windows 10 和 Ubuntu 20.04 均适用 GPU:Nvidia Geforce RTX 3060 Python:3.8 Tensorflow-gpu:2.5.0 (1)Windows 10 ​在Nvidia驱动下载官网下载522.25版本的驱动并安装。 (2)Ubuntu 20.04 ​打开系统设置,找到软件更新里的附加驱动,选择470版本的驱动即可。注意,安装完成后需要重启一

    2023年04月10日
    浏览(9)
  • 【动手学深度学习】课程笔记 00-03 深度学习介绍及环境配置

    【动手学深度学习】课程笔记 00-03 深度学习介绍及环境配置

    目录 00-01 课程安排 02 深度学习介绍 深度学习实际应用的流程 完整的故事 03 环境配置 1. 学习了这门课,你将收获什么? 深度学习的经典和最新模型:LeNet,ResNet,LSTM,BERT; 机器学习基础:损失函数、目标函数、过拟合、优化; 学习使用Pytorch实现上述知识点。 2. 这门课的

    2024年02月07日
    浏览(24)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包