部署浪潮服务器AiStation

这篇具有很好参考价值的文章主要介绍了部署浪潮服务器AiStation。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

一般在前言我都会说一些题外话,嘿嘿~
最近,有个问题我想了很久,在这里分享给家人们哈,就是说假如有两种努力的方式,一种是非常努力,对自己要求非常严格,每天没有什么玩的时间,自己的能力提升地很快,但是缺点是可能会缺失生活中很多的小快乐;还有一种是对自己要求没那么严格,但是也在努力,能力提升地比较缓慢,但是能体会到生活中的很多快乐。这两种努力的方式家人们更倾向于那种呢?大家可以在评论区留言哈,每一条我都会很认真地参考哒~

部署浪潮服务器AiStation,深度学习,服务器,运维

好啦,言归正传了哈~

1. 首先进入浪潮服务器网站

浪潮服务器的网址:https://172.17.71.11:32206/login.html,有可能浏览器会提示这个网址并不安全,但是这个并没有关系,点击进入就好了。

进入网址之后的界面如下图所示:
部署浪潮服务器AiStation,深度学习,服务器,运维
然后输入用户名和密码就好了。

2. 如何在浪潮上跑通实验

首先,家人们必须要知道一个事实,那就是浪潮这个服务器吧,是一台裸机,也就是上面什么环境也没有,所以(重点来了奥),我们需要添加上我们的代码以及数据集,安装好anaconda,然后还有对应的conda虚拟环境,其次还要有Pytorch。

(1)上传数据集&代码

点开“数据管理”这一栏,然后里面有个“文件管理”,下面的“数据集管理”先不用管。

部署浪潮服务器AiStation,深度学习,服务器,运维

然后这里有一些目录,如下图所示,有用户目录、公共目录。一般我们的代码和数据集都是放在一个文件夹里的,并且我们一般放在这个用户目录里。公共目录里的全局共享里也有一些文件,一般是管理员上传的一些比较常见的数据集等。

部署浪潮服务器AiStation,深度学习,服务器,运维

如下图所示,上传文件有两种方式,一种是下图中红色框框圈出来的“上传”,这种方式是从本地直接上传,但是有一个限制——上传的文件大小只能小于1G,所以这种方式我不是经常用。

部署浪潮服务器AiStation,深度学习,服务器,运维

还有一种方式是通过SFTP工具来上传文件。

这里先简单介绍一下SFTP是什么哈。SFTP是一种文件网络传输的安全协议,一般能够连接远程服务器的工具一般都可以进行SFTP文件传输。像我一直用的SFTP工具叫做MobaXterm。

想进一步了解SFTP的可以参考一下这篇文章:https://blog.csdn.net/weixin_42046751/article/details/105250458

登录上MobaXterm后先连接上浪潮服务器,点击左上角的session,然后点击SFTP,如下图所示。Remote host为浪潮的ip地址:172.17.71.11 ,Username就是登录浪潮的账号(像我就是学号),然后点击OK。

部署浪潮服务器AiStation,深度学习,服务器,运维

然后需要让你输入密码,如下图所示。

部署浪潮服务器AiStation,深度学习,服务器,运维

这里的密码需要在浪潮服务器中手动点“复制密码”得到,如下图所示。

部署浪潮服务器AiStation,深度学习,服务器,运维

登录上去之后就可以上传文件啦~

(2)创建一个开发环境

点开目录的“业务管理”,然后再点击“开发环境”。在里面的右上角有一个“创建”。

部署浪潮服务器AiStation,深度学习,服务器,运维
点击“创建”之后,你需要选择一个开发环境镜像,我的环境时Pytorch,因此我选择了一个我的同学公开出来的Pytorch环境镜像。

部署浪潮服务器AiStation,深度学习,服务器,运维

选择一个之后就到了下面这个窗口,选择一个还有显卡的节点。因为我这里已经有一个开发环境了,所以这里CPU显示资源不足,正常来说是4,加速卡应该是1。

部署浪潮服务器AiStation,深度学习,服务器,运维

下面还有数据配置和更多选项,我没动,直接点“确定”了。

(3)下载并安装anaconda

先到清华大学开源镜像网站下载anaconda的脚本文件

镜像网站网址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

在里面找到自己需要的脚本文件就行了,以我为例,我的是

Anaconda3-2021.11-Linux-x86_64.sh

点击之后就可以下载到本地了,然后再通过SFTP工具将上面的脚本文件上传到浪潮服务器。
来到浪潮的开发环境的界面,点击开发环境(就是下图中红色框框)

部署浪潮服务器AiStation,深度学习,服务器,运维
之后再点击Shell,进入终端命令窗口。

部署浪潮服务器AiStation,深度学习,服务器,运维

接着就可以执行脚本文件了,用下面的命令:

bash Anaconda3-2021.11-Linux-x86_64.sh

然后就是一开始是让大家接收协议,输入yes就好。再接着就是让你确认安装目录,默认的目录是/root/anaconda3,我没改。最后会问你是否配置环境变量,你可以选yes,但是我选了no,然后我又自己手动配置了anaconda的环境变量。最后系统就会提示大家 installed successfully !

那么,我来和家人们说说怎么手动配置环境变量哈~

(1)添加环境变量

echo 'export PATH="/root/anaconda3/bin:$PATH"' >> ~/.bashrc

这里的/root/anaconda3/bin 不是一尘不变的,要根据自己的anaconda目录来配置。

(2)使其立即生效

source ~/.bashrc

(3)验证anaconda是否安装成功

anaconda -V  #注意V是大写

如果显示出anaconda的版本,那么,恭喜家人们安装成功!

(4)进入anaconda的base环境

source activate

(4)上传虚拟环境

因为我们运行的项目一般来说都有一个专门的虚拟环境来对应,虚拟环境中有项目所需要的包。一般来说,一般的Linux服务器就可以直接自身创建一个虚拟环境的,就是先下载anaconda的脚本文件,就是.sh结尾的那个东西,然后再用bash命令安装anaconda,接着就能创建一个虚拟环境,然后再在虚拟环境里下载torch了,最后再pip或者conda自己需要的包就OK了。BUT!!!浪潮这个神奇的服务器竟然没联网(就连脾气这么好的我都想骂人)!

部署浪潮服务器AiStation,深度学习,服务器,运维
因此!!!只能在另一台Linux服务器上先创建好一个虚拟环境,然后打包下载到本地,然后再本地上传到浪潮再解压~~真的是离谱他妈给离谱开门,离谱到家了。关键是我的实验室的服务器连磁盘空间都咩的了,连创建个虚拟环境都没有space,还卡得一批……我真的会谢……

部署浪潮服务器AiStation,深度学习,服务器,运维
因此,我打算在实验室服务器上将原本的不怎么经常用的虚拟环境删掉,再创建一个新的虚拟环境……创建个虚拟环境都得这么麻烦,诶~

(1)先查看自己有哪些虚拟环境:

conda env list

(2)然后删掉其中一个虚拟环境(纯属是为了让出磁盘空间,家人们可以不用做这步):

conda remove -n 环境名称 --all

然后系统会提示是否要删除,输入yes就行啦

(3)创建一个新的虚拟环境

conda create -n 环境名称 python=版本

但是又出现问题了!我可真是多苦多难的科研人啊~

部署浪潮服务器AiStation,深度学习,服务器,运维
我查阅了一下资料得出了问题的结论——根目录下的这些tmp目录没有磁盘空间……还是老问题,
不过我联系了一下服务器的管理员,他说可以先删掉一些缓存文件应下急,管理员人还是蛮不错滴~
下图也是应证了我的结论。

部署浪潮服务器AiStation,深度学习,服务器,运维

可以看到相应的目录下可用的磁盘空间为零……

OK,经过十分钟的等待后,磁盘空间腾出二十多G了,终于把虚拟环境创建好啦,中间过程会有一个让大家输入yes的操作。

部署浪潮服务器AiStation,深度学习,服务器,运维
这个TransUNet就是我刚刚创建好的虚拟环境~
那么接着需要在这个虚拟环境里安装torch以及项目需要的包,那么来吧~
一般来说,我们首先需要先进入torch的官网进行torch的下载

torch官网的网址:https://pytorch.org/get-started/locally/

下载torch之前,我们先得弄清楚一些东西,那就是我们服务器的NVIDIA驱动版本以及对应的cuda版本,我们可以在shell中输入这个命令来查看:

nvidia-smi

结果就像这个样子:

部署浪潮服务器AiStation,深度学习,服务器,运维
这里的Driver Version就是驱动版本,CUDA Version就是对应的cuda版本。我们下载的torch的cuda版本可以低于对应的cuda版本,所以我们一般会在服务器上装较高版本的NVIDIA驱动,这样对应的cuda版本也比较高,兼容性就比较高。
torch官网中下载torch:

部署浪潮服务器AiStation,深度学习,服务器,运维

当然说如果这里没有对应的版本,那么可以到 Previous Pytorch Versions 中下载torch。

部署浪潮服务器AiStation,深度学习,服务器,运维
找到自己想要的版本的torch的时候,在shell中输入命令就可以啦。本来我的项目所需要的torch版本是1.4.0,torchvision的版本是0.5.0的,但是这两个版本都太老了,并且我一直下载不了,一直会报错。因此我咨询了一下我的同门和师兄,得出的结论好像是:实验室服务器的cuda版本是11.7的,只能下载1.10.0以上版本的torch,并且高版本的torch是可以兼容低版本的torch的。所以我就下载了1.13.1版本的torch,对应的命令如下:

conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia

果然,高版本的torch就下载好了,哈哈。反正要是版本不兼容的话,后期再改吧,哈哈~

部署浪潮服务器AiStation,深度学习,服务器,运维

接着就是下载项目所需要的其他的包就好了,建议都使用conda命令来下载,不要conda和pip混合使用,这样可能会导致包之间不兼容。这样环境就完成啦~

PS:如果有的包总是下载失败的话,可以尝试到anaconda官网去寻找相应的资源,具体可以参考这篇博客:https://blog.csdn.net/weixin_45552562/article/details/109668589

Anaconda官网:https://anaconda.org/

(4)打包创建好的环境
首先安装打包工具conda-pack:

conda install -c conda-forge conda-pack

之后进入到虚拟环境,这里我需要进入的虚拟环境就是TransUNet:

conda activate TransUNet

然后进入到虚拟环境所在的目录:

cd /data/ubuntu/user/kzy/envs/

最后执行打包命令就可以了:

conda pack -n TransUNet -o TransUNet.tar.gz

这样就会在TransUNet虚拟环境所在的同一目录下得到虚拟环境的压缩包——TransUNet.tar.gz
之后点击下载,下载到本地就好。此时实验室服务器的工作就完成了,该把目光转到那个连网络都没有的浪潮服务器了。

(5)在浪潮上配置虚拟环境

(1)将虚拟环境压缩包上传

在第(3)步中我们已经在浪潮服务器上安装好了anaconda,并且进入到了base环境。接着我们就需要将本地的TransUNet.tar.gz(虚拟环境压缩包)再次通过SFTP工具上传到浪潮。

因为我们的anaconda在浪潮上的目录是/root/anaconda3,所以本应该将TransUNet.tar.gz上传到/root/anaconda3/envs这个目录下的,但是我在SFTP工具上貌似没有找到这个目录,但是这个目录确实又存在,真是离谱,笑拉了哈哈~ 所以我只能先将TransUNet.tar.gz上传到用户目录下(就是和代码&数据集同一目录)。

上传后我又通过这个命令将用户目录下的TransUNet.tar.gz转移到/root/anaconda3/envs下:

mv 路径1 路径2 #将路径1的内容转移到路径2

这里我的就是这样:

mv */TransUNet.tar.gz /root/anaconda3/envs/TransUNet.tar.gz 

这里的*表示大家自己的目录,各位家人根据自己的情况写哈~

之后可以进入到/root/anaconda3/envs这个目录下查看是否转移成功:

cd /root/anaconda3/envs #进入环境目录
ls #查看当前目录下的所有文件

如果显示TransUNet.tar.gz的话,就表示转移成功啦!

(2)创建一个环境目录
在/root/anaconda3/envs目录下创建一个目录用于存放解压后的虚拟环境,因为我的虚拟环境叫做TransUNet.tar.gz,因此我创建了一个环境目录名称也为TransUNet

cd /root/anaconda3/envs #先进入环境目录
mkdir TransUNet #创建目录

(3)解压虚拟环境压缩包

tar -zxvf TransUNet.tar.gz -C TransUNet/ #将压缩包解压到刚刚创建的目录下

等待一段时间后,查看虚拟环境,如果出现了TransUNet,那么就成功啦!

conda env list

成功!!!

部署浪潮服务器AiStation,深度学习,服务器,运维

(6)运行代码

进入虚拟环境后,进入代码目录,运行代码就可以了~

conda activate TransUNet #激活虚拟环境
cd 目录 #进入代码目录
python ~.py #运行代码

【注意】因为浪潮服务器的网络问题,导致终端很不稳定,建议使用nohup命令,让程序后台运行,让结果保存在日志中

nohup python ~.py > result.log&

至此大功告成,感谢家人们看到这里,不妨点个赞,关注一波噻~

部署浪潮服务器AiStation,深度学习,服务器,运维文章来源地址https://www.toymoban.com/news/detail-753265.html

到了这里,关于部署浪潮服务器AiStation的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 浪潮服务器硬盘指示灯显示黄色的服务器数据恢复案例

    服务器数据恢复环境: 宁夏某市某单位的一台浪潮服务器,该服务器中有一组由6块SAS硬盘组建的RAID5阵列。 服务器上存放的是Oracle数据库文件,操作系统层面划分了1个卷。   服务器故障初检: 服务器在运行过程中有两块磁盘的指示灯显示黄色,RAID5阵列崩溃,服务器不可用

    2024年02月14日
    浏览(50)
  • 浪潮服务器配置raid1和直通

    1、服务器开机看提示显示有del的时候,按del 键进入bios界面如下图: 2、操作完毕此步骤F10保存重启服务器后,再次进入BIOS,操作步骤界面如下: 此界面找到AVAGO MegaRAID 开头的回车进入 3、找到Main Menu 回车进入 4、找到Configuration Management 回车进入 5、找到Create Virtual Drive 回车

    2024年02月03日
    浏览(46)
  • 浪潮服务器使用ARCCONF查看RAID配置信息

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 最近接管了一个浪潮服务器,系统是 Windows Server 2022 ,本来想打开硬件管理器看看硬盘配置的,结果只显示 INSPUR LOGICAL VOLUME ,而且服务器是24小时开机的,所以只能借助RAID管理工具了,我这款RAID控制器

    2024年04月23日
    浏览(63)
  • 互连芯片浪潮席卷AI服务器:突破瓶颈,再创辉煌

    nbsp; nbsp; nbsp; AI服务器崛起,引领未来创新 根据TrendForce数据,AI服务器出货量达130,000台,占服务器总出货量的1%。主要制造商推出生成式AI产品,推动订单激增。 ChatGPT等应用的需求持续增长,预计2023-2027年,AI服务器市场将以12.2%的复合年增长率扩张。这一增长势头突显了A

    2024年04月27日
    浏览(40)
  • 租服务器训练深度学习模型

    推荐用AutoDL(便宜、功能强大、gug少、有时时客服解决问题) AutoDL算力云 | 弹性、好用、省钱。租GPU就上AutoDL 学生可以认证,享受会员价 服务器需要登录后先充值,先充个10元,接下来试试看。每次都是开机使用完关机后扣费,可以选择按量,超级划算,按小时扣费。 (租之

    2024年02月09日
    浏览(64)
  • 使用MobaXterm连接服务器并利用Anaconda进行安装pytoch框架跑深度学习模型(使用学校服务器+显卡进行深度学习)

    在开始之前你需要找学校服务器负责人 申请服务器账号和密码 以及 校内外网IP和端口号 ;另外还需要知道学校 服务器显卡cuda版本 ,以及去pytorch官网查看显卡cuda版本对应的 pytorch版本 一、安装MobaXterm 1.下载MobaXterm 软件的下载可以去这里:我都已经给大家准备好了。 在我网

    2024年02月07日
    浏览(63)
  • 深度学习GPU服务器环境配置

    组里面分配了台gpu服务器,让我负责管理,需要先配置一些深度学习环境,记录一下。 一些linux服务器常用命令:https://blog.csdn.net/qq_51570094/article/details/123949910 首先需要了解linux系统信息 通过 cat /proc/version 查看包含gcc的版本信息 通过 hostnamectl 命令查看系统信息,这个命令是

    2024年02月01日
    浏览(57)
  • (深度学习)PyCharm 连接配置服务器

    需要 Pycharm 专业版 以 2022 版的 PyCharm 为例: 1. 连接服务器 File ---- Settings ---- Python Interpreter ---- Add Interpreter ---- On SSH 输入服务器的 Host、Port 和 Username ---- Next 输入密码 ---- Next Next 可以选择虚拟环境,我个人习惯选择下面那个 System Interpreter 选择本机项目地址和对应的服务器同

    2024年02月11日
    浏览(46)
  • 服务器上运行跑深度学习代码(一)

    我准备复现的是Point2roof的代码。这是第一次复现论文代码,所以记录一下^ _ ^。 从GitHub找到他的项目point2roof项目。 先把工程down下来 ^ _ ^ 。 看他工程里面提供的README。 这篇里面提到他的数据集,我也顺便下载下来了。目前只是想跑一下代码,好像没必要下载数据集? 接下

    2024年02月11日
    浏览(43)
  • 国服浪潮服务器操作系统——KeyarchOS多容器架设体验心得

    浪潮信息KeyarchOS用途广泛,当下已经有完备的CentOS迁移技术,本文来做一个具体演示,希望能给大家带来一定的帮助。 学校的老师们都应该知道,基本所有的大学都停止了CentOS的教学以及使用,下图是某高校的官网上的新闻,也是说的很直接,用的是不再允许的字样。 那么

    2024年02月05日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包