记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队

这篇具有很好参考价值的文章主要介绍了记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、问题是怎么发现的

部署chatglm2和llama2到一个4*V100的GPU机器上遇到问题

config.pbtxt

中设置模型分别在指定gpu上部署实例配置不生效

如以下配置为在gpu0上部署本模型,部署count=1个实例,在gpu1上部署本模型,部署count=2个实例

instance_group [ { count: 1 kind: KIND_GPU gpus: [ 0 ] },

{ count: 2

kind: KIND_GPU

gpus: [ 1 ] } ]

部署时发现,所有模型实例都会被部署到gpu0上面, 由于gpu只有16g显存,在部署第一个模型实例成功后,第二个模型实例也会往gpu0上进行加载,最终导致cuda out of memery.

网上搜索发现有人遇到同样的问题,链接: https://github.com/triton-inference-server/server/issues/6124

二、排查问题的详细过程

大佬回答解决方案:

三、如何解决问题

1.在model.py手动获取config.pbtxt配置的gpu编号gpus:[0]

instance_group [

{

count: 1

kind: KIND_GPU

gpus: [ 0 ]

}

]

2.设置可用的GPU编号

os.environ["CUDA_VISIBLE_DEVICES"] = str(device_id)

3.启动成功

四、总结反思:是否可以更快发现问题?如何再次避免等。

triton启动的使用使用 nvidia-smi -l 2 监控显卡想显存, 可以发现所有模型都在往第一个gpu,gpu[0]内加载,发现配置config.pbtxt不生效

作者:京东科技 杨建

来源:京东云开发者社区 转载请注明来源文章来源地址https://www.toymoban.com/news/detail-711480.html

到了这里,关于记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【LLM】Windows本地CPU部署民间版中文羊驼模型踩坑记录

    目录 前言 准备工作 Git  Python3.9  Cmake 下载模型  合并模型 部署模型  想必有小伙伴也想跟我一样体验下部署大语言模型, 但碍于经济实力, 不过民间上出现了大量的量化模型, 我们平民也能体验体验啦~, 该模型可以在笔记本电脑上部署, 确保你电脑至少有16G运行内存 开原地址

    2023年04月27日
    浏览(51)
  • chatglm2-6b模型在9n-triton中部署并集成至langchain实践 | 京东云技术团队

    近期, ChatGLM-6B 的第二代版本ChatGLM2-6B已经正式发布,引入了如下新特性: ①. 基座模型升级,性能更强大,在中文C-Eval榜单中,以51.7分位列第6; ②. 支持8K-32k的上下文; ③. 推理性能提升了42%; ④. 对学术研究完全开放,允许申请商用授权。 目前大多数部署方案采用的是

    2024年02月12日
    浏览(50)
  • 香橙派5 RK3588 yolov5模型转换rknn及部署踩坑全记录 orangepi 5

    由于距离写这篇文章过去很久,有的部分,官方已更新,请多结合其他人的看,并多琢磨、讨论~ 另外打个小广告: 博客 https://blog.vrxiaojie.top/ 欢迎大家前来做客玩耍,提出问题~~ 以后的文章都会在博客发布了,CSDN这边可能这是最后一篇文章。 (1) 使用官方提供的Ubuntu镜像:

    2024年02月05日
    浏览(47)
  • 【LLM】Windows本地CPU部署民间版中文羊驼模型(Chinese-LLaMA-Alpaca)踩坑记录

    目录 前言 准备工作 Git  Python3.9  Cmake 下载模型  合并模型 部署模型  想必有小伙伴也想跟我一样体验下部署大语言模型, 但碍于经济实力, 不过民间上出现了大量的量化模型, 我们平民也能体验体验啦~, 该模型可以在笔记本电脑上部署, 确保你电脑至少有16G运行内存 开原地址

    2024年02月04日
    浏览(71)
  • [论文笔记] 大模型gpu机器推理测速踩坑 (llama/gpt类)

    cpu没报错,换gpu就报错。以下是一些踩坑: 坑1:要指定gpu,可以在import torch之前指定gpu。 报错: RuntimeError(\\\'Expected all tensors to be on the same device, but found at least two devices, cuda:6 and cuda:0! (when checking argument for argument index in method wrapper_CUDA__index_select)\\\') 坑2:model和input_ids都需要 .

    2024年02月03日
    浏览(52)
  • linux部署 ElasticSearch 踩坑记录

    java 环境 :1.8.0-openjdk es版本:   elasticsearch-7.17.3  [1]./elasticsearch-env:行83: /home/es/elasticsearch-7.17.7/jdk/bin/java: 无法执行二进制文件   问题原因: es 的版本与jdk版本不匹配,检查当前es 版本对应的jdk ,然后重新配置环境即可。    查看对应 支持矩阵 | Elastic 解决方案: 升级对

    2024年02月10日
    浏览(42)
  • windows10部署OpenIM,及踩坑记录

    https://doc.rentsoft.cn/#/demo/server_deploy/windows 部署方式:源码部署 部署版本:Open-IM-Server-main、Open-IM-SDK-Core-2.3.3 部署环境:windows10 这个链接是官方整理的部署文档,但是按照官方文档的步骤部署完之后,demo跑不通,一路排查整理,终于跑通,在这里整理并记录此次的部署过程,

    2024年02月04日
    浏览(43)
  • 领域建模之数据模型设计方法论 | 京东云技术团队

    本文通过实际业务需求场景建模案例,为读者提供一种业务模型向数据模型设计的方法论,用于指导实际开发中如何进行业务模型向数据模型转化抽象,并对设计的数据模型可用性、扩展性提供了建议性思考。通过文章,读者可以收获到业务模型向数据模型抽象可参考的一种

    2024年02月09日
    浏览(42)
  • Ubuntu部署ChatGLM2-6B踩坑记录

    目录 一、环境配置 1、安装anaconda或者miniconda进行环境的管理 2、安装CUDA 3、环境安装 二、配置加载模型 1、建立THUDM文件夹 三、遇到的问题 1、pip install -r requirements.txt  2、运行python web_demo.py遇到的错误——TypeError: Descriptors cannot not be created directly.  3、运行python web_demo.py遇到

    2024年01月25日
    浏览(45)
  • Stable Diffusion Webui 本地部署【踩坑记录】

    Python Release Python 3.10.6 | Python.org git是一个代码管理工具,通过它可以将开源项目仓库克隆到本地 下载地址:Git - Downloading Package 可以新建一个目录,在文件夹内单击鼠标右键,选择Git bash here,复制以下代码 也可以打开 GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI S

    2024年02月12日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包