Chat-GLM 详细部署(GPU显存>=12GB)

这篇具有很好参考价值的文章主要介绍了Chat-GLM 详细部署(GPU显存>=12GB)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Chat-GLM 详细部署(GPU显存>=12GB)

建议配置: ( Windows OS 11 部署 )CPU-i7 13700F ~ 13700KF RAM: 16GB DDR4 GPU: RTX3080(12G)

安装 conda:

1. 下载安装 miniconda3 :
https://docs.conda.io/en/latest/miniconda.html
conda是一个包和环境管理工具,它不仅能管理包,还能隔离和管理不同python版本的环境。类似管理nodejs环境的nvm工具。

2. conda环境变量:
新建 CONDA_HOME :conda安装路径

在Path中添加 :%CONDA_HOME%  
在Path中添加 :%CONDA_HOME%\Scripts
在Path中添加 :%CONDA_HOME%\Miniconda3\Library\bin

3. 激活conda:
打开CMD执行conda init 

4. 测试conda安装是否成功:
打开CMD输入conda -V 回车后显示版本号表示Conda安装成功。

5. 更换源:

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes

6. 问题解决:
如果创建环境时报错:

An HTTP error occurred when trying to retrieve this URL.
HTTP errors are often intermittent, and a simple retry will get you on your way.

找到C盘:.condarc 文件(一般是在  C:\Users\你电脑的用户名 下,没有的话全盘搜索下)
打开.condarc 文件并替换内容为:

channels:
  - defaults
show_channel_urls: true
default_channels:
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
  - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
custom_channels:
  conda-forge: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

打开CMD输入conda clean -i 回车。

安装 CUDA与Torch:

1. 确认CUDA版本号:
在CMD中输入nvidia-smi 查询CUDA版本号。

Chat-GLM 详细部署(GPU显存>=12GB)

2. 下载CUDA:
去官网下载对应的CUDA版本(CUDA Toolkit)
https://developer.nvidia.com/cuda-toolkit-archive

3. 安装CUDA:

Chat-GLM 详细部署(GPU显存>=12GB)

Chat-GLM 详细部署(GPU显存>=12GB)

 Chat-GLM 详细部署(GPU显存>=12GB)

4. CUDA环境变量:
一般来说安装完成后会自动添加环境变量,可以检查一下,如果没添加则需要添加一下:
CUDA_PATH
CUDA_PATH_V11_8
值为上一步选择安装位置的路径。

Chat-GLM 详细部署(GPU显存>=12GB)

5. 测试CUDA安装是否成功:
打开CMD输入nvcc --version 回车显示版本号代表安装完成。

Chat-GLM 详细部署(GPU显存>=12GB)

6. 安装Torch:
下载对应CUDA版本的Torch(这里用的版本是11.8)

conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

用python代码测试torch是否生效,如果不生效找对应cuda版本下载torch(torch.cuda.is_available()返回false则不生效)

import torch
print(torch.__version__)
print(torch.cuda.is_available())

Chat-GLM 详细部署(GPU显存>=12GB)

安装配置 ChatGLM

1. 克隆项目到本地:
如果没git需要安装git
CD到目标文件夹内执行命令:git clone https://github.com/THUDM/ChatGLM-6B.git 

2. 创建conda工程:
打开CMD将目录CD到工程内。

Chat-GLM 详细部署(GPU显存>=12GB)

执行命令:conda create --name ChatGLM-6B python=3.10.10 

Chat-GLM 详细部署(GPU显存>=12GB)

 激活conda工程:conda activate ChatGLM-6B 

 Chat-GLM 详细部署(GPU显存>=12GB)

3. 安装支持库
执行命令 ( 清华源 ) :

pip install pip -U
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple some-package 

这里在国内使用清华源加速

Chat-GLM 详细部署(GPU显存>=12GB)

4. 启动web测试:
安装库 (清华源)

pip install streamlit -i https://pypi.tuna.tsinghua.edu.cn/simple some-package
pip install streamlit_chat -i https://pypi.tuna.tsinghua.edu.cn/simple some-package
pip install chardet -i https://pypi.tuna.tsinghua.edu.cn/simple some-package

执行Demo :streamlit run web_demo2.py 输入Email。

Chat-GLM 详细部署(GPU显存>=12GB)

 复制URL到浏览器则可以预览:

Chat-GLM 详细部署(GPU显存>=12GB)

 模型下载完成才可以正常对话,如果报错换下VPN节点多试几次

Chat-GLM 详细部署(GPU显存>=12GB)

5. API部署
首先需要安装额外的依赖 pip install fastapi uvicorn,然后运行仓库中的 api.py:

python api.py

默认部署在本地的 8000 端口,通过 POST 方法进行调用

curl -X POST "http://127.0.0.1:8000" \
     -H 'Content-Type: application/json' \
     -d '{"prompt": "你好", "history": []}'

得到的返回值为

{
  "response":"你好👋!我是人工智能助手 ChatGLM-6B,很高兴见到你,欢迎问我任何问题。",
  "history":[["你好","你好👋!我是人工智能助手 ChatGLM-6B,很高兴见到你,欢迎问我任何问题。"]],
  "status":200,
  "time":"2023-03-23 21:38:40"
}

6.启动Chat-GLM:

@echo off
cd /d D:\PythonProject\ChatGLM-6B
conda activate ChatGLM-6B
streamlit run web_demo2.py
pause

效果展示:

Chat-GLM 详细部署(GPU显存>=12GB)

 Chat-GLM 详细部署(GPU显存>=12GB)

Chat-GLM 详细部署(GPU显存>=12GB)

8G显卡内存使用方案:

硬件环境描述:

Chat-GLM 详细部署(GPU显存>=12GB)

在web_demo2.py文件中修改chatglm-6b为chatglm-6b-int4即可。

Chat-GLM 详细部署(GPU显存>=12GB)

 文章来源地址https://www.toymoban.com/news/detail-419899.html


后续增加微调模型解决方案, 敬请期待。

到了这里,关于Chat-GLM 详细部署(GPU显存>=12GB)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python 查看程序的GPU显存占用

    主要针对显卡: nvidia 初衷:想要看某个python程序的GPU显存占用量 在linux下使用 nvidia-smi 可以直接显示GPU使用情况 1 : 但是在windows下有的时候显示N/A (如下图所示): 未解之谜 2 :Windows下NVIDIA-SMI中为什么看不到GPU Memory 任务管理器也可以查看程序GPU占用信息, 点击 详细信息 , 看

    2023年04月08日
    浏览(25)
  • gpu没有运行进程,但是显存一直占用

    一般停止进程显存会释放,但是如果在不正常情况关闭进程,可能可能会出现显存不释放的情况: 这时需要找到进程: 可能出现 下载包,使用 这时再使用 找到进程: 或者用 最后使用kill -9 118241杀死进程,释放资源.

    2024年02月15日
    浏览(83)
  • [NLP]LLM 训练时GPU显存耗用量估计

    全精度llama2 7B最低显存要求:28GB 全精度llama2 13B最低显存要求:52GB 全精度llama2 70B最低显存要求:280GB 16精度llama2 7B预测最低显存要求:14GB 16精度llama2 13B预测最低显存要求:26GB 16精度llama2 70B预测最低显存要求:140GB 8精度llama2 7B预测最低显存要求:7GB 8精度llama2 13B预测最低显

    2024年02月12日
    浏览(31)
  • Ubuntu——系统版本、显存、CPU型号、GPU型号查询

    一、系统版本查询 二、CPU信息查询 三、显存查询 四、GPU显卡信息查询 查询结果如下:系统版本为Ubuntu 20.04.6 LTS 如上图所示,本机的CPU型号信息为 i7-11700k 如上图所示,其显存为12G(12050MiB) 如下图所示,NVIDIA GeForce RTX 3080 Ti 即为本机显卡型号信息

    2024年02月06日
    浏览(40)
  • wvp-GB28181-pro 编译部署ubuntu系统【详细教程】

    第一次进行wvp-pro编译部署遇到不少问题,主要对其中的一些依赖以及配置文件配置不熟悉,特此记录一下整个编译部署流程。本文中编译部署在ubuntu20下进行。建议Ubuntu16版本以上运行此项目。 1. 开箱即用的28181协议视频平台 WEB VIDEO PLATFORM是一个基于GB28181-2016标准实现的开箱

    2024年02月05日
    浏览(38)
  • GPU显存占满但利用率却很低

    来帕多瓦联培已经一个多月了,最近调代码跑实验又发现了这个问题。这里提供另外一个解决思路。一个原因还是 cpu没跟上gpu节奏 。 通常我们都会用尽可能大的 batch 来占满显存。但是如果cpu的读取和传输跟不上的话就会导致gpu利用率时上时下,而且训练时间还会变长。 这

    2024年02月04日
    浏览(93)
  • 查询GPU时无进程运行,但是显存却被占用了

    nvidia-smi 或者 gpustat 无进程在GPU上运行,但GPU显存却被占用了 应该是存在僵尸进程,已经运行完毕或者卡死,但是内存没有释放,处于挂起状态 3.1 方案一 重启电脑 3.2 方案二 如果电脑不能重启,那就通过命令行: 可以看到对应的设备,是有进程的。 最后就用kill命令行杀掉

    2024年02月15日
    浏览(41)
  • 深度学习笔记--解决GPU显存使用量不断增加的问题

    目录 1--问题描述 2--问题解决 3--代码         基于 Pytorch 使用 VGG16 预训练模型进行分类预测时,出现 GPU 显存使用量不断增加,最终出现 cuda out of memory 的问题;         出现上述问题的原因在于:输入数据到网络模型进行推理时,会默认构建计算图,便于后续反向传播

    2024年02月17日
    浏览(34)
  • 想训练AI模型,实验室GPU显存不够怎么办

    近年来,OpenAI带火了大模型,人工智能应用进入了黄金时代,几乎各行各业都在努力进行人工智能落地应用探索。 客观上说,大模型效果的确好,对算力资源的消耗却非常高。其中训练时间长不说,显存的硬性需求更是直接决定了能否完成训练。虽然通过程序优化能够降低一

    2024年04月23日
    浏览(30)
  • 【已解决】探究CUDA out of memory背后原因,如何释放GPU显存?

    研究过深度学习的同学,一定对类似下面这个CUDA显存溢出错误不陌生 RuntimeError: CUDA out of memory. Tried to allocate 916.00 MiB (GPU 0; 6.00 GiB total capacity; 4.47 GiB already allocated; 186.44 MiB free; 4.47 GiB reserved in total by PyTorch) 本文探究CUDA的内存管理机制,并总结该问题的解决办法 在实验开始前

    2023年04月20日
    浏览(90)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包