Nvidia GPU虚拟化

10月前作者：木子CS 分类：Toy博客阅读(43) 违法举报

这篇具有很好参考价值的文章主要介绍了Nvidia GPU虚拟化。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

目录

1 背景

2 GPU虚拟化

2.1 用户态虚拟化

2.2 内核态虚拟化

2.3 硬件虚拟化

3 其他

3.1 vGPU

3.2 MPS（Multi-Process Service）

编辑

3.3 远程GPU

1 背景

随着Nvidia GPU在渲染、编解码和计算领域发挥着越来越重要的作用，各大软件厂商对于Nvidia GPU的研究也越来越深入，尽管Nvidia倾向于生态闭源，但受制于极大的硬件成本压力，提升GPU利用率、压榨GPU性能逐渐成为基础设施领域关注的焦点。自然地，为了追求GPU上显存资源和算力资源的时分复用和空分复用，大家都开始考虑软件定义GPU，GPU虚拟化应运而生。

2 GPU虚拟化

在深度学习领域，Nvidia GPU的软件调用栈大致如下图所示，从上至下分别为：

User APP：业务层，如训练或推理任务等
Framework：框架层，如tensorflow、pytorch、paddle、megengine等
CUDA Runtime：CUDA Runtime及周边生态库，如cudart、cublas、cudnn、cufft、cusparse等
CUDA User Driver：用户态CUDA Driver，如cuda、nvml等
CUDA Kernel Driver：内核态CUDA Driver，参考官方开源代码，如nvidia.ko等
Nvidia GPU HW：GPU硬件

Nvidia GPU虚拟化

理论上，上述每一层都可以做GPU虚拟化，但从工程化的角度来看，考虑可行性、可维护性、overhead和部署方面，在CUDA Driver或硬件层实现更合适。

2.1 用户态虚拟化

目前比较常用的方法是在用户态CUDA Driver的动态库做劫持，参考cuda hook开源代码。通过拦截CUDA Driver API的调用，实现显存资源和算力资源的隔离。不仅对用户代码零侵入，而且灵活性较高，无论是部署在Bare Metal，还是结合容器化进行部署，都比较方便。

2.2 内核态虚拟化

通过劫持CUDA Driver动态库部署，可能会存在用户篡改的风险，在公有云上一般不能容忍。而内核态的优势在于可以一定程度上防止用户篡改，但由于Nvidia的闭源性，在内核态做显存资源和算力资源的隔离，技术难度较高。目前阿里云、腾讯云和百度云已经实现部署。

Nvidia GPU虚拟化

2.3 硬件虚拟化

Nvidia官方硬件虚拟化方案MIG（Multi-Instance GPU），从Ampere架构开始支持硬件层面的隔离，隔离程度更彻底，但最多只支持7个GPU实例的虚拟化环境。

Nvidia GPU虚拟化

3 其他

3.1 vGPU

Nvidia官方虚拟GPU解决方案，主要用于支持交付图形丰富的虚拟桌面和工作站，可以将GPU资源重新划分，以保证GPU资源可以在多个虚拟机之间共享，或者可以将多个GPU分配给一个虚拟机，可提升任意工作负载的性能。

3.2 MPS（Multi-Process Service）

Nvidia官方多进程context融合方案，支持将多个进程上的kernel发送到MPS server或者直接发送到GPU上计算，避免了多进程在GPU上context的频繁切换。缺点是故障率较高，特别是故障在进程间扩散一般是不能容忍的。

3.3 远程GPU

将GPU Server拉远，实现GPU池化，突破CPU与GPU的配比极限，拓展GPU虚拟化，可以最大限度地利用集群内的GPU碎片，提升GPU的利用率。趋动科技的OrionX方案，目前处于领先地位。

Nvidia GPU虚拟化文章来源地址https://www.toymoban.com/news/detail-462445.html

到了这里，关于Nvidia GPU虚拟化的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

初识云计算————虚拟化背景

VM 虚拟机（Virtual Machine）虚拟化背景：美国环境保护署（EPA）报告的一组有趣的统计数据就证明了其好处。EPA 研究服务器和数据中心的能源效率时发现，实际上服务器只有 5% 的时间是在工作的。在其他时间，服务器都处于 “休眠” 状态原因： 1.有预期的冗余导致资源大量

2023年04月08日
浏览(35)
GPU桌面虚拟化HyperV实践

目录创建虚拟机添加GPU 刷入显卡驱动 a说科技：1台电脑当10台用，在家开网吧，显卡分割术，Gpu虚拟化（下） https://www.bilibili.com/video/BV1Dm4y1A7XR/?spm_id_from=333.880.my_history.page.clickvd_source=473f5de900547235e222613fd986ab31 额外补充说明：镜像可用Wintogo快速制作，刷入wintogo EFI到虚拟

2024年02月06日
浏览(42)
linux内核篇之虚拟化和容器化

如今，inux 服务器也随之变得越来越强大了。无论是计算、网络、存储，都越来越牛。但是也出现一些问题。 1、资源大小申请不灵活。比如想尝试新业务，只需要单独的4核8G的服务器资源，但是不可能采购这么小规格的机器；以及，每次申请这个资源都需要重新采购，周期

2024年02月05日
浏览(53)
K8S节点GPU虚拟化(vGPU)

4paradigm提供了k8s-device-plugin，该插件基于NVIDIA官方插件(NVIDIA/k8s-device-plugin)，在保留官方功能的基础上，实现了对物理GPU进行切分，并对显存和计算单元进行限制，从而模拟出多张小的vGPU卡。在k8s集群中，基于这些切分后的vGPU进行调度，使不同的容器可以安全的共享同一张物

2024年01月16日
浏览(60)
GPU 容器虚拟化新能力发布和全场景实践

今天给大家分享的主题是百度智能云在「GPU 容器虚拟化」方面的最新进展和全场景实践，希望通过这次分享和大家一起探讨如何在实际业务场景更好的应用 GPU 容器虚拟化技术。本次分享将首先介绍百度智能云 GPU 容器虚拟化 2.0 的升级变化，然后介绍新版本中的技术实现方

2024年02月14日
浏览(44)
GPU虚拟化理解包含直通，k8s安装，GPU-manager

vGPU，即真正意义上的GPU虚拟化方案，就是将一块GPU卡的计算能力进行切片，分成多个逻辑上虚拟的GPU，以vGPU为单位分配GPU的计算能力，并将单块GPU卡分配给多台虚拟机使用，使得虚拟机能够运行3D软件、播放高清视频等，极大地提升了用户体验。真正实现了GPU资源的按需分

2024年02月13日
浏览(47)
k8s中GPU虚拟化工具gpu-manager的安装

gpu-manager是腾讯的一个开源vGPU应用，具体原理就不介绍了，详见GPUManager虚拟化方案。本文主要参照腾讯开源vgpu方案gpu-manager安装教程进行安装，并就安装时出现的问题，对其中的部分配置进行了更改，如果根据上述文章安装失败，可以参考本文来进行安装。 gpu-manager不提供

2024年02月06日
浏览(41)
适合个人用户使用的 6 款最佳虚拟化软件！

关注公众号，回复“ 1024 ”获取 2TB 学习资源！虚拟化是计算机科学中的一个基本概念。通常，它涉及提供位于物理硬件和操作系统之间或操作系统和应用程序之间的抽象层。通过对硬件、软件、存储和网络组件等物理IT资源进行抽象，目的是提供虚拟级别的资源，并根据需

2024年02月02日
浏览(43)
云计算虚拟化技术与开发-------虚拟化技术应用第一章内容（虚拟化技术概念、虚拟化特征、虚拟化目的、半虚拟化和全虚拟化特点和区别、虚拟化实现的三种结构的特点和区别）

目录虚拟化技术第一章主要内容虚拟化技术的概念：虚拟化的特征：虚拟化的目的：虚拟化与云计算的关系：半虚拟化和全虚拟化的特点和区别：虚拟化实现的三种结构的特点和区别：虚拟化（Virtualization）是把物理资源转变为逻辑上可以管理

2024年02月03日
浏览(55)
云计算基础-计算虚拟化-内存虚拟化

内存在物理上是由内存卡提供的，也就是我们俗称的内存条，内存条提供了物理内存。在物理内存之上还有虚拟内存，虚拟内存操作系统给程序分配的一段连续的内存，属于逻辑上的概念。虚拟内存和物理内存之间会有一个映射关系，这个映射关系我们称之为页表，通过页

2024年02月20日
浏览(60)