ChatGLM-6B的windows本地部署使用

这篇具有很好参考价值的文章主要介绍了ChatGLM-6B的windows本地部署使用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

ChartGPT最近特别火,但是收费,而且国内访问不太方便,所以找了个类似的进行学习使用

ChatGLM-6B,开源支持中英文的对话大模型,基于 General Language Model (GLM) 架构,具有62亿参数,简单说非常不错,可能和chart GPT比较有些差距,但是开源免费,并且可以在本地部署,支持中文,这就很nice了

首先安装环境,当前本机电脑win10,pycharm2020,python3.9,Anaconda3。文章涉及到的相关资源会在文章最下面公共号中提供,这里也注意,部分软件根据电脑本身需要改动版本

安装

1、需要安装CUDA和cudnn

由于要使用GPU(不用也可以,不过是有点慢),需要安装CUDA和cudnn,CUDA是显卡厂商NVIDIA推出的运算平台,cuDNN是用于深度神经网络的GPU加速库, CUDA看作是一个工作台,cuDNN是具体工具

在控制面板查看支持的版本

ChatGLM-6B的windows本地部署使用,windows,python,语言模型,人工智能

或者敲命令

nvidia-smi

ChatGLM-6B的windows本地部署使用,windows,python,语言模型,人工智能

确定CUDA版本,去网站下载

https://developer.nvidia.com/cuda-toolkit

我下在的就是12的

然后下载cudnn,这里也注意,网站需要注册登录下载,最好在谷歌浏览器上面走,火狐上容易卡住

https://developer.nvidia.com/rdp/cudnn-archive

下载的时候注意cuda版本

ChatGLM-6B的windows本地部署使用,windows,python,语言模型,人工智能

安装的时候如果遇见什么错误,可以查看https://blog.csdn.net/anmin8888/article/details/127910084这个博客上安装流程

2、下载代码

装完环境后接下来可以开始下载代码,这里推荐使用pycharm直接从Git上直接下载,然后通过软件创建环境,这里的话通过软件一步一步下一步就完了,然后等待相关jar包下载完毕即可

下载完成后可以创建一个py文件运行下面代码

运行

import torch

print(torch.__version__)
print(torch.cuda.is_available())

会打印torch版本以及是否能使用cuda,如果一切正常会打印

2.0.1+cu117
True

需要注意的是 “ cu117 ” 和 “ True ” ,这样表示一切正常

如果打印的是CPU,说明torch版本不是GPU的,需要卸载重装

pip uninstall torch torch-2.0.1.dist-info torchgen	

torch官网地址 :https://pytorch.org/get-started/locally/#no-cuda-1

然后在pycharm的Terminal面板下运行,等待下载安装完成

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

如果最后打印为false,则可能是torch和cuda的版本不兼容,需要安装对应版本

3、下载模型

完整模型在Hugging Face Hub网站上,地址:https://huggingface.co/THUDM/chatglm-6b

命令下载

git lfs install
git clone https://huggingface.co/THUDM/chatglm-6b

但是这样下载太慢,而且由于网络问题且模型特别大,容易下载不下来,所以最后一个一个下,尤其是那些模型,动不动一两个G的

ChatGLM-6B的windows本地部署使用,windows,python,语言模型,人工智能

下载完成后在pycharm项目根目录下创建文件夹chatglm-6b,然后存入所有相关文件

ChatGLM-6B的windows本地部署使用,windows,python,语言模型,人工智能

4、使用

接下来就可以使用了,使用方式有通过网页访问,命令行访问,API访问三种,在README.md文档中都有说明,这里使用API的方式访问

创建一个application文件夹存放相关自己代码,创建一个py文件,然后写入,运行文件即可

from transformers import AutoTokenizer, AutoModel
import os

modelPath = os.path.abspath('../chatglm-6b')

tokenizer = AutoTokenizer.from_pretrained(modelPath,
                                          trust_remote_code=True)

model = AutoModel.from_pretrained(modelPath,
                                  trust_remote_code=True).half().cuda()


model = model.eval()
response, history = model.chat(tokenizer, "你好", history=[])
print(response)

response, history = model.chat(tokenizer, "晚上睡不着应该怎么办", history=history)
print(response)

除此之外也可以启动 web_demo.py ,在页面上进行交互使用,需要注意修改文件中模型文件所在位置

异常

Torch not compiled with CUDA enabled

Torch CUDA 版本没有一致,卸载重装对应版本

CUDA out of memory

内存不足,加 .quantize(8) , 还是报这个错的话可以再减数字
model = AutoModel.from_pretrained(modelPath,
                                  trust_remote_code=True).quantize(4).half().cuda()

后记

如果感觉下载一切比较麻烦的话,可以关注公共号 有意思的GitHub,回复chatglm,源码,模型,工具,安装包,都在对应百度云盘文章来源地址https://www.toymoban.com/news/detail-577067.html

到了这里,关于ChatGLM-6B的windows本地部署使用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【ChatGLM】本地版ChatGPT ?6G显存即可轻松使用 !ChatGLM-6B 清华开源模型本地部署教程

    目录 感谢B站秋葉aaaki大佬 前言 部署资源 部署流程  实机演示 ChatGML微调(人格炼成)(个人感觉蛮有趣的地方)  分享有趣の微调人格  实机演示(潘金莲人格) 秋葉aaaki的个人空间_哔哩哔哩_bilibili https://space.bilibili.com/12566101 由于ChatGLM-6B的规模较小,目前已知其具有相当

    2024年02月06日
    浏览(37)
  • ChatGLM2-6B 大语言模型本地搭建

    ChatGLM2-6B 是清华 NLP 团队于不久前发布的中英双语对话模型,它具备了强大的问答和对话功能。拥有最大32K上下文,并且在授权后可免费商用! ChatGLM2-6B的6B代表了训练参数量为60亿,同时运用了模型量化技术,意味着用户可以在消费级的显卡上进行本地部署(INT4 量化级别下

    2024年01月21日
    浏览(45)
  • ChatGLM2-6B! 我跑通啦!本地部署+微调(windows系统)

    记录一下此时此刻,2023年7月8日22点04,从ChatGLM2-6B在7月4日开放了ptuning到此时此刻,ChatGLM2-6B的微调终于被哥们跑通了! 从 本地部署ChatGLM2-6B 到 本地进行P-tuning微调 ,再到最后的 模型检测 ,哥们全跑通了! 这里非常感谢ChatGLM2-6B|开源本地化语言模型这篇博客!因为我布置

    2024年02月16日
    浏览(37)
  • 模型训练系列:1、用清华ChatGLM-6B模型部署自己的本地AI助手

    最近清华大学开源的ChatGLM-6B语言模型在国际上大出风头,仅仅62亿参数的小模型,能力却很强。很期待他们后续1300亿参数模型130B的发布。 为什么一些能力较弱的小模型,这么受追捧?因为ChatGPT、GPT-4虽好,毕竟被国外封锁,而且还要付费,更重要的是,LLM要在各行业提高生

    2024年02月11日
    浏览(32)
  • LLM大语言模型(三):使用ChatGLM3-6B的函数调用功能前先学会Python的装饰器

    目录 ChatGLM3-6B的函数调用模式示例 本地启动ChatGLM3-6B工具模式 如何在ChatGLM3-6B里新增一个自定义函数呢? get_weather基于Python的装饰器实现 函数注解@register_tool 现在我们来自定义一个kuakuawo()函数 ChatGLM3-6B目前有三种使用模式: 对话模式 工具模式(也就是本文要介绍的函数调用

    2024年01月25日
    浏览(60)
  • Python:清华ChatGLM-6B中文对话模型部署

    1、简介 ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话

    2024年02月08日
    浏览(33)
  • pytorch在有限的资源下部署大语言模型(以ChatGLM-6B为例)

    pytorch在有限的资源下部署大语言模型(以ChatGLM-6B为例) 在PyTorch中加载预训练的模型时,通常的工作流程是这样的: 用简单的话来说,这些步骤是: 用随机初始化的权重创建模型。 从磁盘上加载模型权重(在一个通常被称为状态字典的字典中)。 在模型中加载这些权重。

    2023年04月23日
    浏览(69)
  • 手把手教你本地CPU环境部署清华大模型ChatGLM-6B,利用量化模型,本地即可开始智能聊天,达到ChatGPT的80%

    大家好,我是微学AI,今天教你们本地CPU环境部署清华大ChatGLM-6B模型,利用量化模型,每个人都能跑动大模型。ChatGLM-6B是一款出色的中英双语对话模型,拥有超过62亿个参数,可高效地处理日常对话场景。与GLM-130B模型相比,ChatGLM-6B在对话场景处理能力方面表现更加卓越。此

    2024年02月01日
    浏览(34)
  • 使用Triton部署chatglm2-6b模型

    NVIDIA Triton Inference Server是一个针对CPU和GPU进行优化的云端和推理的解决方案。 支持的模型类型包括TensorRT、TensorFlow、PyTorch(meta-llama/Llama-2-7b)、Python(chatglm)、ONNX Runtime和OpenVino。 NVIDIA Triton Server是一个高性能的推断服务器,具有以下特点: 1. 高性能:Triton Server为使用GPU进行推

    2024年02月08日
    浏览(41)
  • 使用 CPU 本地安装部署运行 ChatGLM-6B 获得自己的专属 AI 宠物

    ChatGLM-6B 是一个清华开源的、支持中英双语的对话语言模型,基于GLM架构,具有62亿参数。结合模型量化技术,ChatGLM-6B可以本地安装部署运行在消费级的显卡上做模型的推理和训练(全量仅需14GB显存,INT4 量化级别下最低只需 6GB 显存)虽然智商比不过 openAI 的 ChatGPT 模型,但

    2024年02月16日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包