Auto DL 平台租服务器(GPU)跑代码(炼丹)使用教程,告别繁琐的SSH,平台自带的Jpyter用网页就能实现

这篇具有很好参考价值的文章主要介绍了Auto DL 平台租服务器(GPU)跑代码(炼丹)使用教程,告别繁琐的SSH,平台自带的Jpyter用网页就能实现。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

平台提供的Jupyter 接口可以让用户直接在网页实现对所租服务器的控制。

不用直接操作SSH。

Auto DL 平台租服务器(GPU)跑代码(炼丹)使用教程,告别繁琐的SSH,平台自带的Jpyter用网页就能实现
Auto DL 平台租服务器(GPU)跑代码(炼丹)使用教程,告别繁琐的SSH,平台自带的Jpyter用网页就能实现
Auto DL 平台租服务器(GPU)跑代码(炼丹)使用教程,告别繁琐的SSH,平台自带的Jpyter用网页就能实现
Auto DL 平台租服务器(GPU)跑代码(炼丹)使用教程,告别繁琐的SSH,平台自带的Jpyter用网页就能实现

创建实例后,快捷工具直接点Jupyter,这时你就已经在操作你租的服务器了,已经实现和你服务器的连接了。

打开终端那个黑框,你就已经在使用你租的服务器的Linux系统了,就已经可以通过输入Linux命令来对你租的系统里的资源进行使用了。

环境搭建:

一开始自己设置的环境是服务器默认环境,可能够用,也可能不够。

不够的话可以通过anconda来搭建:

在AutoDL平台租用的服务器上搭建、激活和查看环境,可以按照以下步骤进行:

  1. 创建并激活环境

在AutoDL平台租用的服务器上搭建环境可以使用conda或者pip等工具,具体步骤如下:

  • 使用conda创建环境:

conda create--name my_env python=3.7
source activate my_env

这里的my_env是你指定的环境名称,python=3.7是你指定的Python版本。使用source activate my_env命令激活环境。

  • 使用pip创建虚拟环境:

python -m venv my_env
source my_env/bin/activate

这里的my_env是你指定的环境名称。使用source my_env/bin/activate命令激活环境。

激活环境后,你可以在该环境中安装和使用所需的Python库和工具。

  1. 构造环境

以安装PyTorch包为例

安装PyTorch可以使用conda或者pip等工具,具体步骤如下:

  • 使用conda安装PyTorch:

conda install pytorch torchvision cudatoolkit=10.1-c pytorch

这里的cudatoolkit=10.1是针对CUDA 10.1版本的,如果你使用的是其他版本的CUDA,需要修改对应的参数。

  • 使用pip安装PyTorch:

pip install torch torchvision

如果你使用的是GPU版本的PyTorch,需要安装对应的CUDA和cuDNN等工具。

  1. 查看环境

查看环境可以使用以下命令:

  • 对于conda环境:

conda info --envs

这会列出所有已安装的conda环境,以及每个环境的路径和Python版本等信息。

  • 对于pip虚拟环境:

source my_env/bin/activate
python -m pip list

这里的my_env是你指定的环境名称。使用python -m pip list命令列出该环境中

文件上传:

在Jupyter里有个按钮,点开就能选择本地的文件进行上传。

文件解压:

需要提前在服务器里安装一个解压缩软件

  • 对于Ubuntu/Debian系统:sudo apt-get install p7zip-full

  • 对于CentOS/Fedora系统:sudo yum install p7zip-full

  1. 安装完成后,你就可以在终端中使用7z解压缩软件进行文件的解压缩了。在终端中输入以下命令进行解压缩:要进入文件所属目录才行

7z x filename.7z

这里的filename.7z是你需要解压缩的文件名。

如果安装不了,可能是因为软件源出现了问题:

尝试使用apt-get update命令更新软件包源,并重新运行apt-get install

直接用这行命令解决:

sudo apt-get update

知识拓展:

更换软件源来解决问题。具体步骤如下:

  1. 打开终端,并输入以下命令备份原来的软件源列表:

sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak
  1. 输入以下命令打开软件源配置文件:

sudo nano /etc/apt/sources.list
  1. 将原来的软件源地址替换成其他可用的软件源地址。例如,如果你使用的是Ubuntu系统,可以参考Ubuntu官方文档更换软件源。在配置文件中加入新的软件源地址后,可以使用Ctrl+X键保存并退出。

  1. 更新软件包列表,使用以下命令更新软件包列表:

sudo apt-get update

跑模型:

单纯运行代码:

也就是在终端中直接运行。

打开控制台,

进入目标文件夹,

使用 python ***.py命令,

如果要运行的代码文件是python语言名叫***的话。

让代码在离线的情况下运行:

如果是在终端中直接运行的话,那么断开SSH连接时,程序就会停止。

也就是说断网或者关闭目前的Jupyter程序就会终止。

解决方法一:

  1. 启动训练程序,并使用nohup命令和&符号将程序放到后台运行。例如:

nohup python train.py &

这里的train.py是你的训练程序名称,nohub命令可以让程序在后台运行,并忽略所有挂起信号(SIGNUP).

其中&表示将程序放到后台运行,并输出日志到nohunp.out(自动生成)文件中。

  1. 如果需要查看训练日志,可以使用tail命令查看:

tail -f nohub.out

解决方法二:

  1. 使用tmux或screen等工具创建一个会话。

  • 如果你使用的是tmux,可以使用以下命令创建一个会话:

tmux new -s my_session_name
  • 如果你使用的是screen,可以使用以下命令创建一个会话:

screen -S my_session_name

这里的my_session_name是你指定的会话名称。

  1. 在会话中启动训练程序,例如:

python train.py

这样,训练程序将在会话中运行,即使你断开SSH连接或者退出终端,训练程序仍然会在后台继续运行。

  1. 如果你需要重新连接到AutoDL服务器并查看训练日志,可以使用以下命令重新连接到会话:

  • 如果你使用的是tmux,可以使用以下命令重新连接到指定的会话:

tmux attach -t my_session_name
  • 如果你使用的是screen,可以使用以下命令重新连接到指定的会话:

screen -r my_session_name

让程序终止运行:

方法一:

输入

sudo killall python

这个命令可以停止所有python程序的运行。

如果出现command not found错误可能是系统没装这个命令,

可以通过

sudo apt-get install psmisc

来安装

再不行就用:

sudo pkill python

同样可以停止所有python程序的运行

方法二:

  1. 找到正在运行模型的进程ID,使用以下命令查找:

ps aux | grep python

ps aux | grep train.py

这里的python是你使用的深度学习框架的解释器名称,例如TensorFlow和PyTorch都是使用python作为解释器。查找结果会显示正在运行的所有python进程及其进程ID。

如果把python换成train的话,就会列出所有正在运行的train进程。

  1. 使用kill命令停止模型的运行,例如:

kill -9 process_id

这里的process_id是你查找到的模型进程ID。

  1. 确认模型已经停止运行,你可以使用以下命令查看进程是否已经终止:

ps aux | grep python

如果模型的进程已经终止,将不会显示在查找结果中。

需要注意的是,使用kill命令可以强制停止模型的运行,但是这样可能会导致模型在停止前未保存的训练结果丢失。因此,在停止模型之前,建议保存训练结果和模型参数,以便以后继续训练或者使用。

路径问题:

pwd 命令查看当前路径

如果是绝对路径,那么一定是/root开头文章来源地址https://www.toymoban.com/news/detail-456111.html

到了这里,关于Auto DL 平台租服务器(GPU)跑代码(炼丹)使用教程,告别繁琐的SSH,平台自带的Jpyter用网页就能实现的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 如何在服务器使用GPU跑深度学习代码

    每个人都有他们偏好的工具和工作流程。就我个人而言,我喜欢使用 PyCharm Professional Edition 作为我的集成开发环境,选择使用 HengYuan Cloud\\\'s OSS.exe 和 FileZilla 进行文件传输,并且我倾向于使用 Xshell 来处理命令行操作。这些工具的组合满足了我的所有需求,并使我的工作效率最

    2024年04月12日
    浏览(50)
  • vscode 远程链接GPU 服务器做远程代码开发

    Visual Studio Code (VS Code) 是一款流行的代码编辑器,支持通过其 Remote Development 扩展远程连接到服务器进行代码开发。这特别适用于连接到具有 GPU 支持的远程服务器进行机器学习或数据科学项目。以下是使用 VS Code 远程连接到 GPU 服务器进行远程代码开发的步骤: 安装 VS Code 和

    2024年04月15日
    浏览(50)
  • 如何从Github拿到代码在云服务器跑起来--算力云从零搭建和配置GPU模型环境

    写在前面: 在服务器的Linux系统中复制使用Ctrl+shift+C,粘贴使用Ctrl+shift+V 1.首先拿到一份代码先研究他的readme.md也就是说明文档(至关重要),根据说明文档的详细程度可以间接判断代码能否跑起来,或者代码是否靠谱,不然花很多时间研究才发现代码没有可行性。以下我的代

    2024年04月13日
    浏览(56)
  • HP DL380z Gen9服务器Led故障灯说明

    HP DL380z Gen9服务器用户指南 编号 说明 状态 1 开机/待机按钮和系统电源 LED 指示 灯* 绿色常亮 = 系统已启动 绿色闪烁(1 Hz/周每秒)= 正在执行通电顺序 琥珀色常亮 = 系统处于待机状态 熄灭 = 未通电** 2 运行状况 LED 指示灯* 绿色常亮 = 正常 绿色闪烁(1 赫兹/周每秒)= iLO 正在

    2024年02月15日
    浏览(44)
  • PLSQL连接远端Oracle服务器提示:“Initialization error ***不能初始化 oci.dl ***”的解决方案

    【PLSQL连接远端Oracle服务器提示:“Initialization error ***不能初始化 oci.dl ***”的解决方案】 继上篇如题报错提示如何解决事项: 1、其一、确认Oracle服务端、客户端、PLSQL Developer都必须位数一致,32bit/64bit,如出现位数不一致则无法加载。Oracle Instant Client 下载官网 2、其二、配

    2024年02月15日
    浏览(48)
  • 【前后端】低代码平台Jeecg-Boot 3.2宝塔云服务器部署流程

    修改配置文件 更改数据库、redis的配置。 在system子模块中的target文件夹下生成 jar 包jeecg-boot-module-system-3.2.0.jar。 复制到云服务器 生成数据库 在这里插入图片描述 使用命令运行后端程序 1.run serve 和 run build的区别 二者都会引用环境文件.env的配置参数 run serve 会引用环境文件

    2024年02月08日
    浏览(65)
  • 服务器GPU性能测试流程

    注意: 1、cuda-sample需要和cuda版本对应,否则会报错 2、只有进行hpcg测试时才需要设置当前环境变量为cuda-10,其它测试时设置cuda-12.0,否则在进行浮点性能测试时会报错 1.环境变量要求cuda11.8 2.cuda-samples-11.8测试包 3.hpcg测试环境 4.intel oneAPI安装 1.显存带宽 2.卡间带宽 3.浮点性

    2024年02月04日
    浏览(54)
  • 深度学习GPU服务器环境配置

    组里面分配了台gpu服务器,让我负责管理,需要先配置一些深度学习环境,记录一下。 一些linux服务器常用命令:https://blog.csdn.net/qq_51570094/article/details/123949910 首先需要了解linux系统信息 通过 cat /proc/version 查看包含gcc的版本信息 通过 hostnamectl 命令查看系统信息,这个命令是

    2024年02月01日
    浏览(57)
  • 本地连接服务器使用GPU训练模型

    直接运行上面的文件,然后输入密码,这密码不是服务器的密码,但是可以直接连接到服务器上面,这个东西是什么?好厉害,居然可以跳过去服务器的账号密码 我本来想忽略一些不需要上传文件,但是无法成功忽略,scp好像不支持 下面这个命令是从服务器上面传输数据到

    2024年02月07日
    浏览(54)
  • NFS服务器简介、在Linux上搭建NFS服务器和客户端,Linux上使用auto(autofs)进行NFS客户端自动挂载和卸载详解

    目录 一.NFS服务器简介 1.含义简介: 2.工作原理简介: 3.RPC服务与NFS服务配合使用 二.NFS配置文件参数命令介绍 1.主配置文件/etc/exports 2.日志文件/var/lib/nfs/ 3.showmount命令 三.主配置文件/etc/exports挂载写法 1.配置nfs服务端和客户端 2.windows客户端挂载测试 3.权限介绍 (1)rw/ro,服

    2024年02月04日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包