[论文笔记] 大模型gpu机器推理测速踩坑 (llama/gpt类)

10月前作者：心心喵分类：Toy博客阅读(54) 违法举报

这篇具有很好参考价值的文章主要介绍了[论文笔记] 大模型gpu机器推理测速踩坑 (llama/gpt类)。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

cpu没报错，换gpu就报错。以下是一些踩坑：

坑1：要指定gpu，可以在import torch之前指定gpu。

model = LlamaForCausalLM.from_pretrained(model_path, trust_remote_code=True).to(device)

报错: RuntimeError('Expected all tensors to be on the same device, but found at least two devices, cuda:6 and cuda:0! (when checking argument for argument index in method wrapper_CUDA__index_select)')

坑2：model和input_ids都需要 .to(device)，tokenizer不需要。

坑3：不要用device_map="auto"，不然变量不在一张卡上。就算model和输入都to(device)了，也会报错。

报错：You can't move a model that has some modules offloaded to cpu or disk.

可以检查参数都在哪个卡，cpu/gpu。但是这样其实检查不出来啥：

坑4：custom_llama不能用AutoModelForCausalLM，要用LlamaForCausalLM。文章来源地址https://www.toymoban.com/news/detail-773459.html

到了这里，关于[论文笔记] 大模型gpu机器推理测速踩坑 (llama/gpt类)的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

LLM实践-在Colab上使用免费T4 GPU进行Chinese-Llama-2-7b-4bit推理

一、配置环境 1、打开colab，创建一个空白notebook，在[修改运行时环境]中选择15GB显存的T4 GPU. 2、pip安装依赖python包注意此时，安装完accelerate后需要重启notebook，不然报如下错误： ImportError: Using low_cpu_mem_usage=True or a device_map requires Accelerate: pip install accelerate 注：参考文章内容

2024年02月04日
浏览(52)
llama.cpp模型推理之界面篇

目录前言一、llama.cpp 目录结构二、llama.cpp 之 server 学习 1. 介绍 2. 编译部署 3. 启动服务 4、扩展或构建其他的 Web 前端 5、其他在《基于llama.cpp学习开源LLM本地部署》这篇中介绍了基于llama.cpp学习开源LLM本地部署。在最后简单介绍了API 的调用方式。不习惯命令行的同鞋，也

2024年01月19日
浏览(39)
【大模型】大模型 CPU 推理之 llama.cpp

描述 The main goal of llama.cpp is to enable LLM inference with minimal setup and state-of-the-art performance on a wide variety of hardware - locally and in the cloud. Plain C/C++ implementation without any dependencies Apple silicon is a first-class citizen - optimized via ARM NEON, Accelerate and Metal frameworks AVX, AVX2 and AVX512 support for x86 arc

2024年04月14日
浏览(45)
使用onnxruntime-gpu 模型推理

1.安装onnxruntime-gpu 新版的onnxruntime-gpu 即支持gpu的推理，也支持cpu的推理。卸载旧的1.7.1 cpu版本，安装新的gpu版本：检查是否安装成功： 2.修改推理代码在推理代码上增加 providers参数，选择推理的框架。看自己支持哪个就选择自己支持的就可以了。如果运行推理代码出现

2024年02月15日
浏览(41)
Llama 3大模型发布！快速体验推理及微调

Meta，一家全球知名的科技和社交媒体巨头，在其官方网站上正式宣布了一款开源的大型预训练语言模型——Llama-3。据了解，Llama-3模型提供了两种不同参数规模的版本，分别是80亿参数和700亿参数。这两种版本分别针对基础的预训练任务以及指令微调任务进

2024年04月26日
浏览(47)
最新开源！更擅长推理的LLaMA大模型，支持中文

©PaperWeekly 原创 · 作者 | 李忠利研究方向 | 自然语言处理跟大家介绍一下自己最近训练的 LLaMA 模型——BiLLa: A Bilingual LLaMA with Enhanced Reasoning Ability. Github 地址： https://github.com/Neutralzz/BiLLa HuggingFace 模型： https://huggingface.co/Neutralzz/BiLLa-7B-LLM（语言模型 BiLLa-7B-LLM）

2024年02月09日
浏览(49)
基于中文金融知识的 LLaMA 系微调模型的智能问答系统：LLaMA大模型训练微调推理等详细教学

项目设计集合（人工智能方向）：助力新人快速实战掌握技能、自主完成项目设计升级，提升自身的硬实力（不仅限NLP、知识图谱、计算机视觉等领域）：汇总有意义的项目设计集合，助力新人快速实战掌握技能，助力用户更好利用 CSDN 平台，自主完成项目设计升级，提升自

2024年02月14日
浏览(46)
PyTorch多GPU训练模型——使用单GPU或CPU进行推理的方法

PyTorch提供了非常便捷的多GPU网络训练方法： DataParallel 和 DistributedDataParallel 。在涉及到一些复杂模型时，基本都是采用多个GPU并行训练并保存模型。但在推理阶段往往只采用单个GPU或者CPU运行。这时怎么将多GPU环境下保存的模型权重加载到单GPU/CPU运行环境下的模型上成了一

2024年02月09日
浏览(50)
C#开源项目：私有化部署LLama推理大模型

推荐一个C#大模型推理开源项目，让你轻松驾驭私有化部署！ 01 项目简介 LLama是Meta发布的一个免费开源的大模型，是一个有着上百亿数量级参数的大语言模型，支持CPU和GPU两种方式。而LLamaSharp就是针对llama.cpp封装的C#版本，让方便我们基于C#开发应用，让我们不需要自己编译

2024年02月03日
浏览(66)
llama.cpp一种在本地CPU上部署的量化模型（超低配推理llama）

前不久，Meta前脚发布完开源大语言模型LLaMA，随后就被网友“泄漏”，直接放了一个磁力链接下载链接。然而那些手头没有顶级显卡的朋友们，就只能看看而已了但是 Georgi Gerganov 开源了一个项目llama.cpp ggerganov/llama.cpp: Port of Facebook’s LLaMA model in C/C++ (github.com) 次项目的牛逼

2023年04月23日
浏览(47)