支撑开源LLM大模型的私有化部署,需要单机多个不同型号GPU混合使用的同学看过来

这篇具有很好参考价值的文章主要介绍了支撑开源LLM大模型的私有化部署,需要单机多个不同型号GPU混合使用的同学看过来。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

项目场景:

为支撑开源LLM大模型的私有化部署,需要单机多个不同型号GPU的混合使用,度娘、GPT4和机器售后都不知道如何解决,自己动手解决,mark一下。

问题描述

有2台深度学习的工作站,分别有2张3090和2张4090,Qwen-14B-Chat轻松跑起,知识库检索等应用效果还可以,想提升到Qwen-72B-int4(官方要求最低48G显存),于是把4张卡集中到同一台机器(多级多卡也是可以的,但不是每个框架都支持分布式GPU),过程中遇到一些坑,度娘无混卡的案例,gpt4无帮助,2台工作站和4张gpu都是联想供货的,问售后技术的,说没有试过,不知道怎么弄😶,最终还是自己动手解决问题。
fastgpt的同学们说有需求,看到网上还是无案例,就分享一下吧,毕竟有好多年无写技术blog了。

解决方案:

首先是单卡和同型号多卡的安装步骤,网上资源很多,这里简单总结一下:

1、显卡驱动
2、粗大安装(cuda)
3、cudnn安装
4、多GPU驱动安装
5、验证

关键点:2张3090和2张4090的混合使用,关键就是第1步的显卡驱动安装,根据你多张显卡型号,到https://www.nvidia.cn/Download/index.aspx?lang=cn找一个4卡都支持的驱动版本,如下图:

支撑开源LLM大模型的私有化部署,需要单机多个不同型号GPU混合使用的同学看过来,人工智能,深度学习,机器学习,pytorch,paddlepaddle
理论上同一个驱动支持的各种显卡,比如4090和2060混插都可以,有这些卡的同学可以尝试一下。

ps:插显卡后注意看看显卡风扇的转速,我试过插4卡后出现1张显卡风扇转速异常导致的不能开机的情况。

1、显卡驱动

sudo vim /etc/modprobe.d/blacklist.conf
blacklist nouveau
options nouveau modeset=0

sudo update-initramfs -u

sudo apt-get remove --purge nvidia*
##原来2卡的时候安装了驱动,如果看不到4张卡或者驱动不支持4张卡的型号,需要删除一下原来的驱动
sudo telinit 3
sudo chmod 777 NVIDIA-Linux-x86_64-535.146.02.run
##给你下载的驱动赋予可执行权限,才可以安装,这里
sudo ./NVIDIA-Linux-x86_64-535.146.02.run -no-x-check -no-nouveau-check -no-opengl-files
sudo service gdm3 start
sudo telinit 5

nvidia-smi 看到4张卡
支撑开源LLM大模型的私有化部署,需要单机多个不同型号GPU混合使用的同学看过来,人工智能,深度学习,机器学习,pytorch,paddlepaddle
这里要确认一下,uncorr. ECC 都要是 off或者N/A, 即是纠错关闭的状态,游戏卡为了帧数性能都是关闭该选项的,特斯拉卡应该是开启,貌似4090才有这个纠错的开关,开启了游戏和训练推理,会出现闪退情况。
支撑开源LLM大模型的私有化部署,需要单机多个不同型号GPU混合使用的同学看过来,人工智能,深度学习,机器学习,pytorch,paddlepaddle

!!!不要忘了这个哦

vim ~/.bashrc
export CUDA_VISIBLE_DEVICES=0,1,2,3
source ~/.bashrc
##修改环境变量

2、cuda安装

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.7.1/local_installers/cuda-repo-ubuntu2004-11-7-local_11.7.1-515.65.01-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2004-11-7-local_11.7.1-515.65.01-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2004-11-7-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda

vim ~/.bashrc
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.7/lib64

export PATH=$PATH:/usr/local/cuda-11.7/bin

export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-11.7
source ~/.bashrc
##修改环境变量

3、cudnn安装

(https://developer.nvidia.com/rdp/cudnn-archive#a-collapse881-118) #下载 解压
cd /usr/local/cuda-11.7
sudo chmod 777 include

sudo cp cudnn--archive/include/cudnn.h /usr/local/cuda-11.7/include
sudo cp cudnn--archive/lib/libcudnn /usr/local/cuda-11.7/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda-11.7/lib64/libcudnn*

sudo cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

4、多GPU驱动安装

wget https://developer.nvidia.com/compute/machine-learning/nccl/secure/2.14.3/ubuntu2004/x86_64/nccl-local-repo-ubuntu2004-2.14.3-cuda11.7_1.0-1_amd64.deb

sudo cp /var/nccl-local-repo-ubuntu2004-2.14.3-cuda11.7/nccl-local-44000BE4-keyring.gpg /usr/share/keyrings/

sudo dpkg -i nccl-local-repo-ubuntu2004-2.14.3-cuda11.7_1.0-1_amd64.deb

sudo apt install libnccl2=2.14.3-1+cuda11.7 libnccl-dev=2.14.3-1+cuda11.7

5、验证

我机器上有paddle和pytorch环境,任意一个都有验证的代码,已paddle为例:
import paddle
paddle.utils.run_check()
支撑开源LLM大模型的私有化部署,需要单机多个不同型号GPU混合使用的同学看过来,人工智能,深度学习,机器学习,pytorch,paddlepaddle
验证通过了,可以炼丹啦。
最近在做基于开源LLM的RAG应用,有兴趣的同学们沟通分享哇。文章来源地址https://www.toymoban.com/news/detail-789020.html

到了这里,关于支撑开源LLM大模型的私有化部署,需要单机多个不同型号GPU混合使用的同学看过来的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 开源双语对话语言模型 ChatGLM-6B 本地私有化部署

    本文首发于:https://www.licorne.ink/2023/08/llm-chatglm-6b-local-deploy/ ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGL

    2024年02月10日
    浏览(47)
  • 开源支持私有化部署一分钟构建大模型机器人

    Dify 是一款 中国开源 的大语言模型(LLM) 应用开发平台。使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员,也能参与到 AI 应用的定义和数据运营过程中。Dify 提供了更接近生产需要的完整方案, Dify 好比是一套脚手架 ,并且经过了精良的工程设计和软件测

    2024年04月16日
    浏览(33)
  • 抖音账号矩阵系统源码/技术开发搭建私有化部署开源

    抖音SEO矩阵系统是基于抖音平台的搜索引擎优化技术的一种系统,其主要作用是通过一系列的技术手段,提高抖音视频的曝光和排名,使其获得更多的流量和粉丝。在本文中,我们将介绍抖音SEO矩阵系统的开发技术,包括系统设计、代码实现等方面。 一、系统设计 1.需求分析

    2024年02月13日
    浏览(28)
  • 关于语言模型私有化部署的讨论 | AIGC实践

    上周在与TC同行关于AIGC实践的线上交流中,大家普遍比较关心的一个实践切入点是:语言模型的私有化部署——简单来说,就是在企业内部,部署一个属于自己的“ChatGPT”,对于本行业/专业知识,以及企业独有的产品和技术信息有充分的了解,并且提供用户接口,通过自然

    2024年02月11日
    浏览(42)
  • 开源版社区团购系统源码 含小程序完整前后端+搭建教程+私有化部署

    分享一个社区团购系统源码,源码开源可自由二开,含小程序完整前后端和详细的搭建教程,可私有化部署终身使用,功能界面diy+团长+供应商+拼团+秒杀+优惠券+菜谱+积分+群接龙+充值+预售+配送等功能。 系统功能一览:  1、商品:商品管理(商品列表、商品分类、商品规格

    2024年02月12日
    浏览(29)
  • 开源、私有化部署,这款知识管理系统还有多少惊喜是我们不知道的

    编者按:想要开源的知识管理系统?最好还可以私有化部署?本文分析了开源和私有化部署的知识管理系统对于企业的意义,介绍了天翎知识管理系统开源+私有化部署的特色,以及其他方面的特点。 私有化部署的知识管理系统的意义 知识管理(Knowledge Management),一种最新

    2024年01月20日
    浏览(38)
  • Windows11下私有化部署大语言模型实战 langchain+llama2

    CPU:锐龙5600X 显卡:GTX3070 内存:32G 注:硬件配置仅为博主的配置,不是最低要求配置,也不是推荐配置。该配置下计算速度约为40tokens/s。实测核显笔记本(i7-1165g7)也能跑,速度3tokens/s。 Windows系统版本:Win11专业版23H2 Python版本:3.11 Cuda版本:12.3.2 VS版本:VS2022 17.8.3 lan

    2024年02月03日
    浏览(65)
  • aiXcoder私有化部署与大模型个性化训练:如何将AIGC应用到您的企业中?

    现代企业的成功转型离不开创新,而创新离不开人工智能等前沿技术的推动。随着全球经济的发展和竞争的日益激烈,企业需要更快、更高效地交付新产品、服务和解决方案,以更好地满足客户需求并保持市场竞争力,应用研发效率提升企业竞争力已成为趋势。AIGC时代来临,

    2024年02月09日
    浏览(45)
  • Chatgpt私有化部署(全流程)

      当下使用chatgpt来帮助完成工作已然成为主流,但想访问必须先面对地区的封锁,所以使用openai官方提供的API来部署至本地服务器从而更加便利的使用chatgpt。本文章主要介绍如何部署私有聊天机器人。 公网服务器一台(可选阿里云、腾讯云等) openai账号,用于获取私人的

    2023年04月20日
    浏览(96)
  • 安装Joplin Server私有化部署(docker)

    前言: 老规矩官方文档链接 1. 首先拥有一个自己的云服务器(如果没有外网访问需求的话就随意吧) 安装docker安装方式 这里Joplin是使用PostgreSQL数据库的形式, 如果没有PostgreSQL库的话, Joplin默认使用的是SQLLite数据库 我这里使用的是docker-compose部署用的是官网的demo.yml所以就直接也

    2024年02月21日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包