无需GPU无需网络“本地部署chatGPT”(更新中文模型)

这篇具有很好参考价值的文章主要介绍了无需GPU无需网络“本地部署chatGPT”(更新中文模型)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

想当初图像生成从DELL到stable diffusion再到苹果的移动部署过了两三年吧
聊天bot才发展几个月就可以边缘部署了,如果苹果更新silicon,npu和运存翻倍,争取apple watch也能本地内置,最快ios18 mac、ipad、iPhone能内置吧
又是一个平民百姓都高兴的开源项目,chatGPT这种级别的模型甚至能部署到树莓派上运行,然后在操作的过程中也遇到一些问题,这篇就是记录步数的这个过程。
已经为最新版的github更新了(2023.5.23),可以放心食用,实测运行速度快了很多。
哈工大的chinese llama效果不如vicuna7b,所以我把这一块的内容给删掉了。
vicuna7b的合成需要高运行内存的电脑,如果你的电脑不足30个G,可以直接私信我要合成好的模型,只有vicuna-7b的q4.0版本。
最近很多人反应老的vicuna-7b已经没办法在新的llama.cpp上使用了(主要是q4版本),可以问我要新的。

大佬的网址:https://github.com/ggerganov/llama.cpp

下载及生成

打开命令行输入下面的指令

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

#对于Windows和CMake,使用下面的方法构建:
cd <path_to_llama_folder>
mkdir build
cd build
cmake ..
cmake --build . --config Release

无需GPU无需网络“本地部署chatGPT”(更新中文模型)

模型下载

我觉得模型下载是最麻烦的,还好有别人给了

git clone https://huggingface.co/nyanko7/LLaMA-7B

好吧我直接给百度云
链接: https://pan.baidu.com/s/1ZC2SCG9X8jZ-GysavQl29Q 提取码: 4ret
–来自百度网盘超级会员v6的分享

无需GPU无需网络“本地部署chatGPT”(更新中文模型)

然后安装python依赖,然后转换模型到FP16格式。然后第一个小bug会出现。

python3 -m pip install torch numpy sentencepiece

# convert the 7B model to ggml FP16 format
python3 convert-pth-to-ggml.py models/7B/ 1

无需GPU无需网络“本地部署chatGPT”(更新中文模型)

他会报找不到文件。
无需GPU无需网络“本地部署chatGPT”(更新中文模型)
打开convert-pth-to-ggml.py文件,修改"/tokenizer.model"的路径,再运行python3 convert-pth-to-gaml.py ./models/7B 1,我顺便名字也改了。
无需GPU无需网络“本地部署chatGPT”(更新中文模型)

文件找到了,然后出现第二个bug。。。。。
无需GPU无需网络“本地部署chatGPT”(更新中文模型)

我一开始找不出问题,后来对比原网址和7B文件夹里的文件,才发现文件大小根本都不一样,我说几十个G的东西怎么git这么。
打开网站下图这个网址,点红色框的那两个下载。替换掉7B文件夹里的那两个文件。
无需GPU无需网络“本地部署chatGPT”(更新中文模型)

无需GPU无需网络“本地部署chatGPT”(更新中文模型)

将模型再转换成4位格式

# quantize the model to 4-bits
./quantize ./models/7B/ggml-model-f16.bin ./models/7B/ggml-model-q4_0.bin 2

无需GPU无需网络“本地部署chatGPT”(更新中文模型)

推理

# run the inference
./main -m ./models/7B/ggml-model-q4_0.bin -n 128

无需GPU无需网络“本地部署chatGPT”(更新中文模型)

想和chatGPT一样对话的话用下面这个指令,-n 控制回复生成的最大长度, --color是区分ai和人类的颜色,-i 作为参数在交互模式下运行, -r 是一种反向提示,-f 是一整段提示, --repeat_penalty 控制生成回复中对重复文本的惩罚力度,–temp 温度系数,值越低回复的随机性越小,反之越大。
更新了之后速度快了很多。

./main -m ./models/7B/ggml-model-q4_0.bin -n 256 --repeat_penalty 1.0 --color -i -r "User:" -f prompts/chat-with-bob.txt

让我们打开prompts/chat-with-bob.txt来看一下。
无需GPU无需网络“本地部署chatGPT”(更新中文模型)

我们可以看到这相当于给了ai模型一个场景话题,然后你和ai之间就可以接着这个话题聊天。

我英文名叫zale,然后我把这个机器人叫作kangaroo,这样的身份和他聊天,你可以按自己的喜欢自己修改下面的代码。

./main -m ./models/7B/ggml-model-q4_0.bin -n 256 --repeat_penalty 1.0 --color -i -r "Zale:" \

写一个txt文件

"Transcript of a dialog, where the Zale interacts with an Assistant named Kangaroo. Kangaroo is helpful, kind, honest, good at writing, and never fails to answer the Zale's requests immediately and with precision.

Zale: Hello, Kangaroo.
Kangaroo: Hello. How may I help you today?
Zale: Please tell me the largest city in Europe.
Kangaroo: Sure. The largest city in Europe is Moscow, the capital of Russia.
Zale:"

无需GPU无需网络“本地部署chatGPT”(更新中文模型)

有点呆呆的,不过也算边缘部署的巨大进步了!
一个蛮有意思的发现,明明看得懂中文却跟我说不懂中文。。。。。
无需GPU无需网络“本地部署chatGPT”(更新中文模型)
分享一段有意思的对话
无需GPU无需网络“本地部署chatGPT”(更新中文模型)

Vicuna-7B

把原始的llama模型转换成huggleface的格式

python3 ~/anaconda3/envs/pytorch2/lib/python3.10/site-packages/transformers/models/llama/convert_llama_weights_to_hf.py \
	--input_dir ./llama-7b \
	--model_size 7B \
	--output_dir ./llama-7b-hf

这样生成的文件放在llama-7b-hf之中。
无需GPU无需网络“本地部署chatGPT”(更新中文模型)

下载vicuna7b的权重文件,也可以理解为补丁。
注意融合vicuna7b模型需要30个G的内存,我特意买128G内存和4090的电脑,
如果有需要,可以私信我我看到的话直接把生成的模型发给你。
还有就是现在的模型是v1.1的版本,必须搭配使用transformers>=4.28.0 and fschat >= 0.2.0

python3 -m fastchat.model.apply_delta \
	--base-model-path ./llama-7b-hf/ \
	--target-model-path ./vicuna-7b/ \
	--delta-path ./vicuna-7b-delta-v1.1/

这样融合的模型就在vicuna-7b的文件夹下。
无需GPU无需网络“本地部署chatGPT”(更新中文模型)

可以直接用fastchat用测试一下,速度好快哦!!!确实fast

python3 -m fastchat.serve.cli --model-path ./vicuna-7b

回到llama.cpp之中,老三样

python3 convert-pth-to-ggml.py models/vicuna-7b/ 1

./quantize ./models/vicuna-7b/ggml-model-f16.bin ./models/vicuna-7b/ggml-model-q4_0.bin 2

./main -m ./models/vicuna-7b/ggml-model-q4_0.bin -n 256 --repeat_penalty 1.0 --color -i -r "User:" -f prompts/chat-with-bob.txt

无需GPU无需网络“本地部署chatGPT”(更新中文模型)

无需GPU无需网络“本地部署chatGPT”(更新中文模型)

实测理解能力和中文水平我认为都是目前最佳的边缘部署的模型,我觉得我可以把哈工大的中文模型部分给删了。目前使用下来不错,很有chatGPT那味。
我又试了一下i9-13900KF,速度是快了一些。
无需GPU无需网络“本地部署chatGPT”(更新中文模型)

来点好玩的例子。
无需GPU无需网络“本地部署chatGPT”(更新中文模型)

无需GPU无需网络“本地部署chatGPT”(更新中文模型)

多模态部署

这个需要12g的显存,没有的朋友就图个乐。
用到的是miniGPT这个库。

1.准备环境

git clone https://github.com/Vision-CAIR/MiniGPT-4.git
cd MiniGPT-4
conda env create -f environment.yml
conda activate minigpt4

无需GPU无需网络“本地部署chatGPT”(更新中文模型)
2.修改文件指向电脑里的vicuna-7b路径
无需GPU无需网络“本地部署chatGPT”(更新中文模型)
3.下载pretrained MiniGPT-4 checkpoint
无需GPU无需网络“本地部署chatGPT”(更新中文模型)
4.修改文件指向电脑里的pretrained MiniGPT-4 checkpoint路径
无需GPU无需网络“本地部署chatGPT”(更新中文模型)
5.运行demo

python demo.py --cfg-path eval_configs/minigpt4_eval.yaml  --gpu-id 0

无需GPU无需网络“本地部署chatGPT”(更新中文模型)

StableVicuna

据说效果远超原版vicuna,实测直接用transformer4.8.0即可转换,然后转换的原模型是huggle face格式的llama原模型。
之后的步骤不再重复和上面一样,运行起来似乎失去了中文能力,然后数学能力等有提升,感觉像文科生变成理科生。
无需GPU无需网络“本地部署chatGPT”(更新中文模型)文章来源地址https://www.toymoban.com/news/detail-411842.html

到了这里,关于无需GPU无需网络“本地部署chatGPT”(更新中文模型)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【类ChatGPT】本地CPU部署中文羊驼大模型LLaMA和Alpaca

    昨天在github上看到一个在本地部署中文大模型的项目,和大家分享一下。先把地址po出来。 项目名称:中文LLaMAAlpaca大语言模型+本地部署 (Chinese LLaMA Alpaca LLMs) 项目地址:https://github.com/ymcui/Chinese-LLaMA-Alpaca 以下是原github中给出的体验GIF,可以看到这个模型还是具备一定的指令

    2023年04月23日
    浏览(23)
  • 无需本地部署 在线使用Stable Diffusion Webui 使用共享模型

    尝试本地部署Stable Diffusion的时候遇到了很多的麻烦,自己训练AI也非常的麻烦,可以尝试使用Webui使用别人上传的模型 第一步进入网站https://github.com/camenduru/stable-diffusion-webui-colab 向下拉到readme 第一个 stable_diffusion_webui_colab,点击左边Open in Colab的图标 跳转到Google Colab的网站,

    2024年02月03日
    浏览(19)
  • 本地免费GPT4?Llama 2开源大模型,一键部署且无需硬件要求教程

            目前扎克布格带来了最新的Llama 2开源NLP大模型,目前有三个版本分别是70亿参数量,130亿参数量和700亿参数量,庞大的数据集和参数量保证了模型的强大,官网宣称性能与gpt4相比不落下风,又因为开源使得我们可以实现本地化gpt4的梦想并且免费!我们可以通过微

    2024年02月11日
    浏览(30)
  • 不需要GPU就可以玩转模型,同时支持本地化部署

            简单一款不需要GPU就可以在Win 机器跑的模型:Ollama;用于本地运行和部署大型语言模型(LLMs)的开源工具 关于Ollama的简要介绍 平台兼容性 :Ollama支持多种操作系统,包括macOS、Linux和Windows,这使得它在不同用户之间具有较好的可访问性。 模型支持 :它能够支持

    2024年04月16日
    浏览(24)
  • 本地部署中文LLaMA模型实战教程,民间羊驼模型

    博文1:本地部署中文LLaMA模型实战教程,民间羊驼模型(本博客) 博文2:本地训练中文LLaMA模型实战教程,民间羊驼模型 博文3:精调训练中文LLaMA模型实战教程,民间羊驼模型 LLaMA大部分是英文语料训练的,讲中文能力很弱。如果我们想微调训练自己的LLM模型,基于一个大

    2024年02月04日
    浏览(23)
  • GPT4All:免费使用本地运行无需GPU的基于C++的GPT模型和UI: A free-to-use, locally running, privacy-aware chatbot. No GPU

      目录 GPT4All: https://github.co :m/nomic-ai/gpt4all GPT4All Chat UI GPT4All 聊天用户界面 效果测试 问题:How to write a multiple Thread code In Java ?

    2024年02月12日
    浏览(18)
  • AI模型部署记录(一)-ChatGLM:清华开源本地部署(2023/05/06更新)

    文章首发及后续更新:https://mwhls.top/4500.html,无图/无目录/格式错误/更多相关请至首发页查看。 新的更新内容请到mwhls.top查看。 欢迎提出任何疑问及批评,非常感谢! 服务部署汇总 本来这篇是为了打比赛写的,写着写着发现两个问题,AI部署连续几篇,等我比赛打完再发模

    2024年02月03日
    浏览(23)
  • 【LLM】Windows本地CPU部署民间版中文羊驼模型踩坑记录

    目录 前言 准备工作 Git  Python3.9  Cmake 下载模型  合并模型 部署模型  想必有小伙伴也想跟我一样体验下部署大语言模型, 但碍于经济实力, 不过民间上出现了大量的量化模型, 我们平民也能体验体验啦~, 该模型可以在笔记本电脑上部署, 确保你电脑至少有16G运行内存 开原地址

    2023年04月27日
    浏览(27)
  • 类ChatGPT模型ChatGLM-b6本地部署实践

    国外ChatGPT火爆持续,前一段时间百度发布“文心一言”还没有全面放开测试,这不阿里“通义千问”又悄然而至,国内大模型AI产品渐渐浮出水面。早在2022年8月份时候清华大学的对话语言模型ChatGLM-6B就发布并开源,本文简要介绍ChatGLM-6B在本地环境的部署实践。 1、ChatGLM-6

    2024年02月04日
    浏览(22)
  • 【个人笔记本】本地化部署详细流程 LLaMA中文模型:Chinese-LLaMA-Alpaca-2

    不推荐小白,环境配置比较复杂 下载原始模型:Chinese-LLaMA-Alpaca-2 linux部署llamacpp环境 使用llamacpp将Chinese-LLaMA-Alpaca-2模型转换为gguf模型 windows部署Text generation web UI 环境 使用Text generation web UI 加载模型并进行对话 笔记本环境: 操作系统:win11 CPU:AMD R7535HS GPU:笔记本4060显卡

    2024年02月08日
    浏览(24)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包