《(5)LMDeploy 大模型量化部署实践》
课程文档:《LMDeploy 的量化和部署》
1、大模型部署背景
1.1 模型部署
定义
- 将训练好的模型在特定软硬件环境中启动的过程,使模型能够接收输入并返回预测结果
- 为了满足性能和效率的需求,常常需要对模型进行优化,例如模型压缩和硬件加速
产品形态
- 云端、边缘计算端、移动端
1.2 大模型特点
内存开销巨大
- 庞大的参数量。7B模型仅权重就需要14+G显存
- 采用自回归生成 token,需要缓存Attention的k/v,带来巨大的内存开销
1.3 大模型部署挑战
设备
- 如何应对巨大的存储问题?低存储设备(消费级显卡、手机等)如何部署?
推理
- 如何加速token的生成速度
- 如何解决动态shape,让推理可以不间断
- 如何有效管理和利用内存
2、LMDeploy简介
LMDeploy是LLM在英伟达设备上部署的全流程解决方案。包括模型轻量化、推理和服务。
项目地址:https://github.com/InternLM/lmdeploy
2.1 接口
python & gRPC & RESTful文章来源:https://www.toymoban.com/news/detail-814066.html
3、动手实战环节
在InternStudio平台中选择 A100(1/4) 的配置,镜像选择 Cuda11.7-conda
;文章来源地址https://www.toymoban.com/news/detail-814066.html
3.1 创建虚拟环境
conda create -n lmdeploy --clone /share/conda_envs/internlm-base
3.2 对话测试
请编写一个300字以上的小故事
到了这里,关于【书生·浦语大模型实战营05】《(5)LMDeploy 大模型量化部署实践》学习笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!