Ubuntu下 NVIDIA Container Runtime 安装与使用

这篇具有很好参考价值的文章主要介绍了Ubuntu下 NVIDIA Container Runtime 安装与使用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

NVIDIA Container Runtime官网
GitHub仓库:Docker 是开发人员采用最广泛的容器技术。借助 NVIDIA Container Runtime,开发人员只需在创建容器期间注册一个新的运行时,即可将 NVIDIA GPU 暴露给容器中的应用程序。用于 Docker 的 NVIDIA Container Runtime 是托管在GitHub 上的开源项目。

简介

NVIDIA Container Runtime is a GPU aware container runtime, compatible with the Open Containers Initiative (OCI) specification used by Docker, CRI-O, and other popular container technologies. It simplifies the process of building and deploying containerized GPU-accelerated applications to desktop, cloud or data centers.
NVIDIA Container Runtime 是一种 GPU 感知容器运行时,与 Docker、CRI-O 和其他流行容器技术使用的 Open Containers Initiative (OCI) 规范兼容。 它简化了构建容器化 GPU 加速应用程序并将其部署到桌面、云或数据中心的过程。

With NVIDIA Container Runtime supported container technologies like Docker, developers can wrap their GPU-accelerated applications along with its dependencies into a single package that is guaranteed to deliver the best performance on NVIDIA GPUs, regardless of the deployment environment.
借助 NVIDIA Container Runtime 支持的容器技术(如 Docker),开发人员可以将其 GPU 加速应用程序及其依赖项打包到一个包中,无论部署环境如何,都能保证在 NVIDIA GPU 上提供最佳性能。

安装

本文参考NVIDIA Container Toolkit 官方安装文档在 Ubuntu 22.04 中安装

环境要求

  • 已安装 NVIDIA Linux 驱动程序,且版本 >= 418.81.07
  • 内核版本 > 3.10 的GNU/Linux x86_64
  • Docker >= 19.03
  • 架构 >= Kepler(或计算能力 3.0)的 NVIDIA GPU

开始安装

  1. 设置包存储库和 GPG 密钥
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
      && curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
      && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | \
            sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
            sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
  1. 更新并下载安装 nvidia-docker2
sudo apt-get update

update可能会报错:

sudo apt-get update
E: Conflicting values set for option Signed-By regarding source https://nvidia.github.io/libnvidia-container/stable/ubuntu18.04/amd64/ /: /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg !=
E: The list of sources could not be read.

解决方案参见官方文档Conflicting values set for option Signed-By error when running apt update

sudo apt-get install -y nvidia-docker2
sudo nvidia-ctk runtime configure --runtime=docker
  1. 重启 Docker 守护进程并测试
sudo systemctl restart docker
sudo docker run --rm --gpus all nvidia/cuda:11.0.3-base-ubuntu20.04 nvidia-smi

看到类似如下的输出说明安装成功
nvidia-container-runtime,Docker,ubuntu,linux,运维

使用示例

参考官方文档User Guide

添加 NVIDIA Runtime

因为在上文中已经安装了 nvidia-docker2 所以不需要添加 NVIDIA Runtime

设置环境变量

用户可以使用环境变量控制 NVIDIA 容器运行时的行为——尤其是枚举 GPU 和驱动程序的功能。
而在NVIDIA提供的基本的CUDA镜像中已经设置好了这些环境变量。

GPU枚举

使用 --gpus 或使用环境变量 NVIDIA_VISIBLE_DEVICES 可以控制容器能够使用哪些GPU

NVIDIA_VISIBLE_DEVICES 的取值如下所示

Possible values

Description

0,1,2, or GPU-fef8089b

a comma-separated list of GPU UUID(s) or index(es).(GPU UUID 或索引的逗号分隔列表)

all

all GPUs will be accessible, this is the default value in base CUDA container images.(所有的GPU都可以使用,这是基本的CUDA容器镜像使用的默认值)

none

no GPU will be accessible, but driver capabilities will be enabled.(所有GPU都不能使用,但启用了驱动程序的功能)

void or empty or unset

nvidia-container-runtime will have the same behavior as runc (i.e. neither GPUs nor capabilities are exposed)(GPU 和功能均未公开)

当使用 --gpu 指定GPU时,应同时使用 device 参数,示例如下

docker run --gpus '"device=1,2"' \
    nvidia/cuda nvidia-smi --query-gpu=uuid --format=csv

启用所有的GPU

docker run --rm --gpus all nvidia/cuda nvidia-smi

使用 NVIDIA_VISIBLE_DEVICES 启用所有的GPU

docker run --rm --runtime=nvidia \
    -e NVIDIA_VISIBLE_DEVICES=all nvidia/cuda nvidia-smi

使用 NVIDIA_VISIBLE_DEVICES 启用指定的GPU

docker run --rm --runtime=nvidia \
    -e NVIDIA_VISIBLE_DEVICES=1,2 \
    nvidia/cuda nvidia-smi --query-gpu=uuid --format=csv

启用两个GPU(Start a GPU enabled container on two GPUs)

docker run --rm --gpus 2 nvidia/cuda nvidia-smi

使用 nvidia-smi 查询 GPU UUID 然后将其指定给容器

nvidia-smi -i 3 --query-gpu=uuid --format=csv

uuid
GPU-18a3e86f-4c0e-cd9f-59c3-55488c4b0c24

docker run --gpus device=GPU-18a3e86f-4c0e-cd9f-59c3-55488c4b0c24 \
     nvidia/cuda nvidia-smi

驱动功能

NVIDIA_DRIVER_CAPABILITIES 控制将哪些驱动程序库/二进制文件挂载到容器中
NVIDIA_DRIVER_CAPABILITIES 取值如下

Possible values

Description

compute,video or graphics,utility

a comma-separated list of driver features the container needs.(容器需要的驱动程序功能的逗号分隔列表)

all

enable all available driver capabilities.(启用所有可用的驱动程序功能)

empty or unset

use default driver capability: utility, compute(使用默认驱动程序功能:utility,compute)

支持的驱动功能如下所示

Driver Capability

Description

compute

required for CUDA and OpenCL applications.

compat32

required for running 32-bit applications.

graphics

required for running OpenGL and Vulkan applications.

utility

required for using nvidia-smi and NVML.

video

required for using the Video Codec SDK.

display

required for leveraging X11 display.

例如,指定 compute 和 utility ,两种写法

docker run --rm --runtime=nvidia \
    -e NVIDIA_VISIBLE_DEVICES=2,3 \
    -e NVIDIA_DRIVER_CAPABILITIES=compute,utility \
    nvidia/cuda nvidia-smi
docker run --rm --gpus 'all,"capabilities=compute,utility"' \
    nvidia/cuda:11.0.3-base-ubuntu20.04 nvidia-smi

约束

NVIDIA runtime 还为容器提供了在配置文件中定义约束的功能

NVIDIA_REQUIRE_* 是一个逻辑表达式,用于定义容器上的软件版本或 GPU 架构的约束,下面是约束的具体内容

Constraint

Description

cuda

constraint on the CUDA driver version.

driver

constraint on the driver version.

arch

constraint on the compute architectures of the selected GPUs.

brand

constraint on the brand of the selected GPUs (e.g. GeForce, Tesla, GRID).

多个约束可以在单个环境变量中表示:空格分隔的约束是 ORed(或),逗号分隔的约束是 ANDed(与)。例如
NVIDIA_REQUIRE_CUDA "cuda>=11.0 driver>=450"

更多内容查看原文

Dockerfile

可以通过环境变量设置,例如

ENV NVIDIA_VISIBLE_DEVICES all
ENV NVIDIA_DRIVER_CAPABILITIES compute,utility

Docker Compose

参考Docker 官方文档中的教程

Compose v2.3 写法
services:
  test:
    image: nvidia/cuda:10.2-base
    command: nvidia-smi
    runtime: nvidia

这种写法无法控制GPU的具体属性

更精细的控制
  • capabilities
    值指定为字符串列表(例如。capabilities: [gpu])。您必须在 Compose 文件中设置此字段。否则,它会在服务部署时返回错误。
  • count
    指定为 int 的值或all表示应保留的 GPU 设备数量的值(假设主机拥有该数量的 GPU)。
  • device_ids
    指定为表示来自主机的 GPU 设备 ID 的字符串列表的值。可以在主机上的 nvidia-smi 输出中找到设备 ID 。
  • driver
    指定为字符串的值(例如driver: ‘nvidia’)
  • options
    表示驱动程序特定选项的键值对。

count 和 device_ids是互斥的。您一次只能定义一个字段。

有关这些属性的更多信息,请参阅 Compose Specification deploy中的部分。

例如,使用主机上的所有GPU和指定的驱动程序功能(虽然NVIDIA_DRIVER_CAPABILITIES取值可以是all,但是这里不能写all,会报错,只能写清楚每一个)

services:
  test:
    image: nvidia/cuda:10.2-base
    command: nvidia-smi
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [compute,graphics,video,utility,display]

更多设置示例参见官方文档文章来源地址https://www.toymoban.com/news/detail-791059.html

到了这里,关于Ubuntu下 NVIDIA Container Runtime 安装与使用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Jetson设备下使用docker报错的排错过程完整记录,failed to create shim: OCI runtime create failed: container_linux.go:38 解决“docker: Error response from daemon: Unknown runtime specified nvidia”问题

    起因是要使用nvidia部署好的ngc镜像部署  居然启动不起来也是神奇的不行   去了nvidia论坛好了一下之前的案例问题,并没解决 发现能下载这个,那就先卸载了试试,越走越偏其实,试探错误   不好意思又绕回来了  哈哈哈,把docker给整没了 兜兜转转又回来了  看看配置文

    2024年02月03日
    浏览(65)
  • centOS 快速安装和配置 NVIDIA docker Container Toolkit

    要在 CentOS 上正确安装和配置 NVIDIA Container Toolkit,您可以按照以下步骤进行操作,如果1和2都已经完成,可以直接进行第3步NVIDIA Container Toolkit安装配置。 您可以从 NVIDIA 官方网站下载适用于您的 GPU 型号和 CentOS 版本的驱动程序,并按照安装指南进行安装。确保您的系统已正确

    2024年02月07日
    浏览(46)
  • Docker离线安装Nvidia-container-toolkit实现容器内GPU调用

    需求 :实验室内通过Docker搭建隔离环境保证各用户数据安全和服务器环境安全,防止软件环境混杂造成莫名其妙的bug,容器内需要能够调用显卡资源。 本文的内容基于以下软件版本: Docker: Docker version 20.10.17, build 100c701 CUDA: NVIDIA-SMI 510.68.02 Driver Version: 510.68.02 CUDA Version:

    2024年01月17日
    浏览(45)
  • Docker:使用Nvidia官方的pytorch、tensorflow、TensorRT镜像创建Container容器

    文章目录 前言 一、前期准备 二、具体步骤 1.启动容器 2.使用容器 补充 相信大家在学习新的知识前都遇到过开发环境安装不上,或者环境冲突和版本不匹配的情况,另外当我们想要安装多个版本的支持库时,在本地环境上直接安装往往会导致版本冲突的情况,如果我们使用

    2024年02月19日
    浏览(45)
  • 使用Docker 报错OCI runtime exec failed: exec failed: unable to start container process: exec: “xxx“: exe

    前些天在使用 Docker 运行一个容器时,遇到了一个报错:OCI runtime exec failed: exec failed: unable to start container process: exec: “xxx“: exec。 这个错误让我有些烦躁,因为我刚刚将容器创建好,准备执行相关命令时,却发现容器无法正常启动。在经过一番排查和尝试后,我终于找到了解

    2024年02月15日
    浏览(37)
  • nvidia docker, nvidia docker2, nvidia container toolkits三者的区别

    这篇博客的起因是在docker容器中引入GPU资源时,查阅了网上许多教程,教程之间概念模糊不清,相互矛盾,过时的教程和新的教程混杂在一起。主要原因是nvidia为docker容器的支持发生了好几代变更,api发生了不少变化。下面来总结一下各代支持发展历程。 凡是使用了命令 n

    2024年02月03日
    浏览(40)
  • ubuntu 安装 nvidia 驱动

    本篇文章将介绍ubuntu 安装 nvidia 驱动 希望能写一些简单的教程和案例分享给需要的人 系统:ubuntu 设备:Nvidia GeForce RTX 4090 因为不同的显卡型号可能需要不同版本的驱动。先用命令 lspci | grep -i nvidia 来查看显卡信息。 我们可以看到上图输出的是: root@System-Product-Name:~# lspci

    2024年02月13日
    浏览(66)
  • kubeadm init初始化报错container runtime is not running

    在进行k8s部署时,kubeadm初始化出现如下报错 原因是:安装docker或者containerd之后,默认在/etc/containerd/config.toml禁用了CRI,需要注释掉disabled_plugins = [“cri”],否则执行kubeadm进行部署时会报错 注释完成后,重启containerd,并重新初始化

    2024年02月12日
    浏览(43)
  • 【Kubernetes1.26.x:container runtime is not running问题详细排查】

    一篇很细的排错记录📝,排错排了整整一天的经验😭 目录 环境: 报错信息: 错误分析: 解决: /etc/containerd/config.toml : 一般到这里就解决了,但是还没有解决的话可以参考下面的! 检查服务器:  关闭防火墙/开放端口: 关闭SELinux: kubelet配置   1.20.x + docker作为容器运行

    2024年02月06日
    浏览(35)
  • Ubuntu NVIDIA-Docker安装

    系统环境: 系统:linux 版本:ubuntu20.04 Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到任何流行的 Linux或Windows操作系统的机器上,也可以实现虚拟化。NVIDIA 改进了原始的Docker,便于容器使用NVIDIA GPU。由于仿真

    2023年04月22日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包