使用autodl服务器,两个3090显卡上运行, Yi-34B-Chat-int4模型,并使用vllm优化加速,显存占用42G,速度23 words/s

这篇具有很好参考价值的文章主要介绍了使用autodl服务器,两个3090显卡上运行, Yi-34B-Chat-int4模型,并使用vllm优化加速,显存占用42G,速度23 words/s。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1,演示视频地址

https://www.bilibili.com/video/BV1Hu4y1L7BH/

使用autodl服务器,两个3090显卡上运行, Yi-34B-Chat-int4模型,用vllm优化,增加 --num-gpu 2,速度23 words/s

2,使用3090显卡 和使用A40 的方法一样

https://blog.csdn.net/freewebsys/article/details/134698597

安装软件: 先安装最新的torch版本

apt update && apt install -y git-lfs net-tools
#
git clone https://www.modelscope.cn/01ai/Yi-34B-Chat-4bits.git


# 1,安装 torch 模块,防止依赖多次下载
pip3 install torch==2.1.0

# 2,安装 vllm 模块:
pip3 install vllm

# 最后安装 
pip3 install "fschat[model_worker,webui]" auto-gptq optimum

安装完成之后就可以使用fastchat启动了。

3,启动脚本增加 --num-gpus 2 即可使用,两个显卡

# run_all_yi.sh

# 清除全部 fastchat 服务
ps -ef | grep fastchat.serve | awk '{print$2}' | xargs kill -9
sleep 3

rm -f *.log

#IP_ADDR=`ifconfig -a | grep -oP '(?<=inet\s)\d+(\.\d+){3}' | head -n 1 `
# 首先启动 controller :
nohup python3 -m fastchat.serve.controller --host 0.0.0.0 --port 21001 > controller.log 2>&1 &

# 启动 openapi的 兼容服务 地址 8000
nohup python3 -m fastchat.serve.openai_api_server --controller-address http://127.0.0.1:21001 \
  --host 0.0.0.0 --port 8000 > api_server.log 2>&1 &
  
# 启动 web ui
nohup python -m fastchat.serve.gradio_web_server --controller-url http://127.0.0.1:21001 \
 --host 0.0.0.0 --port 6006 > web_server.log 2>&1 &

# 然后启动模型: 说明,必须是本地ip --load-8bit 本身已经是int4了
# nohup python3 -m fastchat.serve.model_worker  --model-names yi-34b \
#   --model-path ./Yi-34B-Chat-8bits --controller-address http://${IP_ADDR}:21001 \
#   --worker-address http://${IP_ADDR}:8080 --host 0.0.0.0 --port 8080 > model_worker.log 2>&1 &

## 
nohup python3 -m fastchat.serve.vllm_worker --num-gpus 2 --quantization awq --model-names yi-34b \
  --model-path ./Yi-34B-Chat-4bits --controller-address http://127.0.0.1:21001 \
  --worker-address http://127.0.0.1:8080 --host 0.0.0.0 --port 8080 > model_worker.log 2>&1 &

4,运行占用 gpu

autodl使用两卡运行,chatgpt,大模型,Python,服务器,运维

5,效果,还是会有英文出现的BUG

autodl使用两卡运行,chatgpt,大模型,Python,服务器,运维

6,同时启动界面,方法本地开启 6006 端口即可

只限制在内蒙古机房,其他机房需要企业用户!!

在本地开启 6006 端口即可:
autodl使用两卡运行,chatgpt,大模型,Python,服务器,运维

autodl使用两卡运行,chatgpt,大模型,Python,服务器,运维
但是模型没有选择出来,不知道咋回事,下次再研究。

7,总结

使用autodl服务器,两个3090显卡上运行, Yi-34B-Chat-int4模型,并使用vllm优化加速,显存占用42G,速度23 words/s。
随着大模型的参数增加,企业用户再使用的是特别需要大参数的模型了。
因为大模型在更加准确。硬件都不是问题。通过多卡的方式可以成功部署。
2张 3090,或者 4090 就可以部署 Yi-34B-Chat-int4模型了。
但是目前看中文稍微有点小问题,会返回英文,相信很快会迭代下一个版本了。
同时,已经有猎户星空Yi-34B-Chat,基于 yi-34b进行优化了。马上去研究下:

https://modelscope.cn/models/OrionStarAI/OrionStar-Yi-34B-Chat/summary文章来源地址https://www.toymoban.com/news/detail-766681.html

到了这里,关于使用autodl服务器,两个3090显卡上运行, Yi-34B-Chat-int4模型,并使用vllm优化加速,显存占用42G,速度23 words/s的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【服务器】Dell PowerEdge R750 安装GPU(3090)

    1. 服务器下架/上架 下架:从机架导轨上拿下服务器 (1)断电,拔掉背面的电源线(左右两根)和网线: 注意,不用管插头旁的红色小按钮,直接拔插头就好。 注意,断电后指示灯应该已经熄灭。上图为补拍,所以灯仍亮。 (2)按动服务器正面两个卡扣: 注意,断电后指

    2024年02月13日
    浏览(52)
  • 本地Pycharm连接远程服务器详细配置过程(直接在本地使用服务器显卡,很棒)

    相信很多人都遇见过这种情况:实验室成员使用同一台服务器,每个人拥有自己的独立账号,我们可以使用服务器更好的配置完成实验,毕竟自己哪有money拥有自己的3090呢。通常服务器系统采用Linux,而我们平常使用频繁的是Windows系统,二者在操作方面存在很大的区别,比如

    2024年02月03日
    浏览(74)
  • 【深度学习环境】Windows10系统+AutoDL算力平台|使用MobaXterm终端工具实现SSH远程连接服务器|实现PyCharm与服务器远程连接|远程连接(详细版)

    一般情况下,我们的本地文件项目直接使用本机的GPU/CPU在编译器上编译调试。但是由于深度学习中神经网络模型庞大,在计算时常常会出现爆显存的问题,较小的显存不能满足计算需求。因此通常使用一台有着“大显存”的服务器来代替本机“小显存”以完成运算,我们期待

    2024年02月05日
    浏览(66)
  • MiniGPT4 在RTX-3090 Ubuntu服务器部署步骤详解

    MiniGPT4系列之一部署篇:在RTX-3090 Ubuntu服务器部署步骤详解_seaside2003的博客-CSDN博客 MiniGPT4系列之二推理篇命令行方式:在RTX-3090 Ubuntu服务器推理详解_seaside2003的博客-CSDN博客 MiniGPT4系列之三模型推理 (Web UI):在RTX-3090 Ubuntu服务器推理_seaside2003的博客-CSDN博客 主要参考知乎帖子

    2024年02月15日
    浏览(44)
  • 演示在一台Windows主机上运行两个Mysql服务器(端口号3306 和 3307),安装步骤详解

    创建一个3307端口号的MySQL服务器 1、复制 mysql 的安装目录 直接拷贝一份mysql,因为里面的data数据太多,所以我没有把data文件拷贝过去。 注意:不需要自己手动创建 data 文件夹,在后续初始化的时候会自动生成。 2、修改my.ini 配置文件 修改这四个地方 3、命令创建第二个服务

    2024年04月28日
    浏览(64)
  • 使用Autodl云服务器或其他远程机实现在本地部署知识图谱数据库Neo4j

    本篇博客的目的在于提高读者的使用效率 温馨提醒:以下操作均可在无卡开机状态下就可完成 打开你的pycharm或者其他IDE工具或者本地终端,ssh连接到autodl的服务器。(这一步很简单如下图) 由于我想使用Neo4j的最新版,所以需要安装JDK=21的版本: 直接按照下述命令依次进行即

    2024年02月19日
    浏览(51)
  • 命令查看Linux服务器内存、CPU、显卡、硬盘使用情况

    使用命令:free -m 大致结果类似下图: 内存占用情况 参数解释: Mem行(单位均为M): total:内存总数 used:已使用内存数 free:空闲内存数 shared:当前废弃不用 buffers:缓存内存数(Buffer) cached:缓存内舒数(Page) (-/+ buffers/cache)行: (-buffers/cache): 真正使用的内存数,指

    2024年02月04日
    浏览(70)
  • AutoDL服务器配置PyTorch

    一、租用新实例  二、点击JupyterLab  三、进入终端   1、首先输入如下命令  2、然后按英文模式的   i    进入编辑,按键盘下键到最后输入  3、然后先按键盘Esc键,使用命令  :w!   强制存盘  4、 然后再按键盘Esc键,使用命令  :q   退出  5、输入以下命令刷新  6、进入

    2024年02月04日
    浏览(44)
  • 使用MobaXterm连接服务器并利用Anaconda进行安装pytoch框架跑深度学习模型(使用学校服务器+显卡进行深度学习)

    在开始之前你需要找学校服务器负责人 申请服务器账号和密码 以及 校内外网IP和端口号 ;另外还需要知道学校 服务器显卡cuda版本 ,以及去pytorch官网查看显卡cuda版本对应的 pytorch版本 一、安装MobaXterm 1.下载MobaXterm 软件的下载可以去这里:我都已经给大家准备好了。 在我网

    2024年02月07日
    浏览(60)
  • AutoDL 算力云 服务器租用教程

    AutoDL算力云:AutoDL-品质GPU租用平台-租GPU就上AutoDL 点击租用新实例   选租主机、算力型号/显卡,配置基础镜像     创建实例后可选择有/无卡模式运行   运行中状态     复制登录指令,打开Xshell,新建会话 登录指令:ssh -p 53062 root@region-3.autodl.com 名称:自定义 协议:SSH 主

    2024年02月14日
    浏览(59)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包