determined ai及本地调试环境配置

这篇具有很好参考价值的文章主要介绍了determined ai及本地调试环境配置。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

determined配置

1. docker配置(默认使用ubuntu操作系统)

  1. 安装docker(国内可能需要先换源)
sudo apt install docker.io

###
# 在docker容器中再安装docker容易出问题,操作前参考下述说明明确需求再实施(一般只需让容器能运行docker指令,此时只需要执行说明中的最后一节方案)
# https://jpetazzo.github.io/2015/09/03/do-not-use-docker-in-docker-for-ci/
####
  1. 安装nvidia-container-toolkit
    用于Docker容器内调用GPU(注意可能需要科学上网)
curl -fsSL https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)

curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

sudo apt-get update

sudo apt-get install -y --no-install-recommends nvidia-container-toolkit

# 可能需要手动安装systemctl指令:
# sudo apt install systemd

sudo systemctl restart docker
  1. 特定用户无法执行docker指令时的处理方案
    1. 将用户添加到特定组中:sudo usermod -aG docker inf
    2. 确认特定用户是否已被添加到指定组中:sudo cat /etc/group | grep docker
    3. 已将用户添加到指定组中,但执行id指令并未看到指定组时,可以尝试重新登录用户
  2. docker远程访问安全配置
  3. docker常用指令
  4. Docker容器磁盘空间限制
  5. 启动container时设置内存空间和硬盘映射
  6. ssh远程访问docker容器注意:root用户远程登录须额外运行以下指令再重启ssh服务:
sed -i 's/#PermitRootLogin prohibit-password/PermitRootLogin yes/' /etc/ssh/sshd_config
ssh-keygen -A
# 设置root密码
passwd
# 重启ssh服务
service ssh restart
  1. docker容器的进入
    1. 从image建立可使用gpu的container并进入交互式界面:docker run -it -p [host_port]:[container_port](do not use 8888) --gpus all -v [host_path]:[container_path] --name [container_name] [image_name] /bin/bash
    -v指定路径映射,将本地路径挂载到容器中
    2. 开启已有容器:
    docker start [container_id or container_name]
    3. 进入已经启动的 docker 容器的交互式终端,可以使用 docker exec 命令。这个命令可用于在运行中的容器内部执行命令或脚本,并以交互模式与容器进行交互,具体格式如下:
    docker exec -it [container_id or container_name] /bin/bash
    -it 表示 docker 将以交互模式和伪终端(pseudo-TTY)模式运行命令。
    /bin/bash 则是要执行的命令或脚本,这里表示将会启动一个交互式Bash shell,
    [container_id or container_name] 为要进入的实际容器的 ID 或名称,如果不确定确切的容器 ID 或名称,可以使用 docker ps 命令打印当前已开启的容器列表,包括它们的 ID、名称、状态等信息。如果要查看当前所有的容器列表,可使用docker ps -a
  2. windows安装docker:
    1. 官网下载安装:https://www.docker.com/,安装后首次运行时会提示安装虚拟机服务,推荐选择wsl
    2. wsl配置(docker首次启动时会弹窗提示配置方式,可以选择推荐的默认配置(需要科学上网),也可以按下述步骤手动配置):
      1. docker须配置: wsl --update,默认从microsoft store下载,可以尝试增加--web-download参数从github下载(需要科学上网),成功后先执行wsl --set-default-version 2将默认版本切换为2,再运行wsl --shutdown关闭wsl,再启动docker desktop(会自动启动wsl,确保更新生效)
      2. 自定义配置linux子系统
    3. docker存储和加载image的默认路径配置:determined ai教程,人工智能
    4. 自定义python开发环境配置流程:
docker run -it --gpus=all -p 8022:22 --name test -v D:\learn\doctor_thesis:/home/WangXiaoFeng/doctor_thesis/ determinedai/environments:cuda-11.3-pytorch-1.12-tf-2.11-gpu-0.27.1 /bin/bash

# 此时已进入新建立的test容器,运行以下指令设置允许以root身份进行ssh登录
sed -i 's/#PermitRootLogin prohibit-password/PermitRootLogin yes/' /etc/ssh/sshd_config
ssh-keygen -A 
passwd 
# 设置自己的root密码

# 重启服务使修改生效
service ssh restart

# 将常用的国内pip源和conda源改入新容器的家目录下
# 安装determined
pip install determined==0.27.1

# 此后启动test容器即可在pycharm等python编辑器中配置ssh解释器到该环境,
# 默认地址为localhost:8022,用户名root,密码为新设置的passwd

2. determined配置(详细说明)

  1. 安装determined
pip install determined
  1. 启动master节点,默认端口是8080
det deploy local master-up
# 关闭master节点
# det deploy local master-down
  1. agent配置:新建文件agent-config.yaml,输入以下内容并按需调整
## The hostname or IP address of the Determined master.
master_host: ip_of_your_master_node
## The port of the Determined master.
master_port: 8080

## The ID of this agent; defaults to the hostname of the current machine. Agent IDs must be unique## within a cluster.
agent_id: rtx3090_0
## The label of this agent. Agents with labels may only run workloads with the
## corresponding label.
label: rtx3090

## The GPUs that should be exposed as slots by the agent. A comma-separated list of GPUs,
## each specified by a 0-based index, UUID, PCI bus ID, or board serial number.
# http_proxy: ip_of_proxy
# https_proxy: ip_of_proxy

主要配置3个内容:

  • Master节点,用于识别Master节点
  • agent_id和label,分别对应本机id和组名,根据显卡型号命名即可
  • 科学上网代理
  1. agent节点启动:
det deploy local agent-up <master_ip> --agent-config-path <path to agent-config.yaml`>

##
# 也可以使用:
# docker run --gpus all -v /var/run/docker.sock:/var/run/docker.sock -v "$PWD"/agent-config.yaml:/etc/determined/agent.yaml determinedai/determined-agent:0.27.1
# 注意最后的版本号要和安装的determined版本号对应,一般为最新(运行det -v可以查看当前版本号)
# "$PWD"/agent-config.yaml`是上一步新建的配置文件路径,按需调整(PWD表示当前工作目录)
# 启动后可在web端看到当前cluster状态有变化,web端访问地址:masterIP:8080
##

# agent节点关闭
# det deploy local agent-down

3. 使用

  1. master节点启动后即可在web端对应地址看到当期系统状态,默认地址:masterip:8080,默认登录用户admin,默认无密码,直接登录即可
  2. 终端机安装determined,并配置master节点ip后,可以运行指令从命令行进行任务配置
    • master节点IP配置
      • 全局环境变量形式
# 开机自动增加环境变量
sudo nano /etc/profile
# 添加如下内容:
# export DET_MASTER=ip_of_your_master_node
sudo source /etc/profile
  1. determined用户登录
    admin用户可以管理用户添加删除,具体参考用户管理文档。
det user login
# 输入账号密码即可
  1. 任务配置文件编写(详细配置)
description: your_task_name
resources:
    agent_label: rtx3090
    slots: 1
  
# use same host_Path and container_path to avoid problems when downloading checkpoint
bind_mounts:  
    - host_path:   /home/test/project
      container_path:   /home/test/project
environment:  
    image: determinedai/environments:cuda-11.3-pytorch-1.12-tf-2.11-gpu-0.27.1
environment_variables:  
    - http_proxy=your_proxy  
    - https_proxy=your_proxy

以上涵盖了开启任务所需的基本设置,包括:文章来源地址https://www.toymoban.com/news/detail-838193.html

  • description: 任务名
  • resources: 要开启任务的GPU类型(对应label)和数量(对应slots)
  • bind_mounts: 挂载分布式存储到docker容器内,host_path为物理机路径,container_path为容器内路径
  • environment: docker容器的环境配置,包括使用的镜像和环境变量。
  1. 启动实验:
det experiment create const.yaml <代码所在文件夹路径>
# 代码所在路径中的全部文件将被上传到容器中启动训练,注意路径下的文件总大小不要超过95M,数据集最好使用bind mounts的方式挂载到容器内
  1. Docker image配置:determined官方常用image地址

到了这里,关于determined ai及本地调试环境配置的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 人工智能之配置环境教程一:安装VsCode和Anaconda

    孟莉苹,女,西安工程大学电子信息学院,2021级硕士研究生,张宏伟人工智能课题组。 研究方向:机器视觉与人工智能。 电子邮件:2425613875@qq.com 本教程提供需要安装的VsCode、Anaconda的安装包,在下述百度网盘链接中自取! 链接:https://pan.baidu.com/s/1syAOUgpchRnyrF3Xh52l1w?pwd=vv

    2024年02月02日
    浏览(64)
  • 人工智能之配置环境教程二:在Anaconda中创建虚拟环境并在VsCode中使用

    孟莉苹,女,西安工程大学电子信息学院,2021级硕士研究生,张宏伟人工智能课题组。 研究方向:机器视觉与人工智能。 电子邮件:2425613875@qq.com 安装前先下载安装包,建议在博主已准备好的百度网盘链接中下载: 百度网盘链接:https://pan.baidu.com/s/1FgjTixyrP0xL-SRrUSARhw 提取码

    2024年02月01日
    浏览(107)
  • 第三章:AI大模型的开发环境搭建3.3 开发环境配置3.3.1 本地环境配置

    在本章中,我们将详细介绍如何为AI大模型的开发搭建本地环境。我们将从背景介绍开始,然后讲解核心概念与联系,接着深入了解核心算法原理、具体操作步骤以及数学模型公式。在此基础上,我们将提供具体的最佳实践,包括代码实例和详细解释说明。最后,我们将探讨

    2024年02月19日
    浏览(50)
  • 国内网络环境下Stable Diffusion(AI绘图)本地部署教程

    2023.6.1:Stable Diffusion已更新至1.3版本,本教程为1.2的教程,如需1.3版本的的教程请访问 如果是来参考git和python的安装教程的读者请在进行到更换pip源的步骤时选择阿里巴巴的源 目录 1、安装git 2、安装python3.10.6 3、下载S D 4、部署S D 5、汉化S D 本文为StableDiffusionWebUI(后文简称

    2024年02月07日
    浏览(58)
  • Stable Diffusion本地部署教程:搭建你的AI图像生成环境

    Stable Diffusion作为一种先进的AI图像生成技术,近年来受到了广泛关注。它可以根据用户输入的文本描述,生成与之相符的详细图像。本文将指导你如何在本地环境中部署Stable Diffusion,让你能够亲自体验这一技术的强大功能。 在开始部署之前,确保你的计算机满足以下条件:

    2024年04月15日
    浏览(61)
  • 基于VITS 快速微调的本地环境配置、本地训练以及本地推理的教程

    该教程能教会读者如何使用本地服务器使用VITS微调训练自己的想要的角色的声音并且本地推理,注意只能使用linux版本进行训练,但是推理可以在windows上完成。 STEP 0  使用conda配置虚拟环境(个人习惯,也可以直接在本地服务器上嗯配) STEP 1 复制代码库并安装运行环境 记得没

    2023年04月27日
    浏览(57)
  • ai绘画工具Stable Diffusion,Windows本地环境搭建教程(保姆级)

    配置要求 Windos 10及以上的操作系统; GPU显存最低4G, NVIDIA卡; 由于各种模型体量比较大,一个大模型2-5G,需留有充足的存储空间(20g+); 为什么选择Stable Diffusion 灵活开源,强大的ai生成工具 各种插件,大佬云集 没有审核限制 准备工作 (需要的安装包文中提供了下载链接,

    2024年02月05日
    浏览(48)
  • 人工智能之配置环境教程二:在Anaconda中创建虚拟环境安装GPU版本的Pytorch及torchvision并在VsCode中使用虚拟环境

    孟莉苹,女,西安工程大学电子信息学院,2021级硕士研究生,张宏伟人工智能课题组。 研究方向:机器视觉与人工智能。 电子邮件:2425613875@qq.com 本教程提供需要安装的CUDA11.3、Pytorch1.10.0、torchvision0.11.0的安装包,在下述百度网盘链接中自取! 链接:https://pan.baidu.com/s/18m

    2024年02月02日
    浏览(70)
  • 国内网络环境下Stable Diffusion1.3(AI绘图)本地部署教程

    目录 1、下载SD 2、部署SD 3、汉化SD 4、测试 本文为StableDiffusionWebUI(后文简称“SD”)的本地部署教程,本教程尽量保证所有步骤可在国内网络环境下进行,读者若能无障碍访问github等网站则更佳,请使用Windows10及以上的64位Windows系统及显存大于等于6G的显卡。  在这之前你需

    2024年02月09日
    浏览(57)
  • 国内网络环境下Stable Diffusion1.2(AI绘图)本地部署教程

    2023.6.1:Stable Diffusion已更新至1.3版本,本教程为1.2的教程,如需1.3版本的的教程请访问 如果是来参考git和python的安装教程的读者请在进行到更换pip源的步骤时选择阿里巴巴的源 目录 1、安装git 2、安装python3.10.6 3、下载S D 4、部署S D 5、汉化S D 本文为StableDiffusionWebUI(后文简称

    2024年02月08日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包