llama.cpp部署在windows

这篇具有很好参考价值的文章主要介绍了llama.cpp部署在windows。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本想部署LLAMA模型,但是基于显卡和多卡的要求,很难部署在个人笔记本上,因此搜索发现有一个量化版本的LLAMA.cpp,部署过程和踩过的坑如下:

1.配置环境

(1)在GitHub - ggerganov/llama.cpp: Port of Facebook's LLaMA model in C/C++中下载cpp到本地

(2)创建conda环境

conda create --name llama.cpp python=3.9 -y
pip install -r requirements.txt

(3)安装Cmake

在安装之前我们需要安装mingw, 避免编译时找不到编译环境, 按下win+r快捷键输入powershell,

Set-ExecutionPolicy RemoteSigned -Scope CurrentUser
iex "& {$(irm get.scoop.sh)} -RunAsAdmin"
scoop bucket add extras
scoop bucket add main
scoop install mingw

紧接着安装cmake

首先下载CMake官网下载地址:Download CMake

llama.cpp windows,llama

llama.cpp windows,llama

llama.cpp windows,llama

llama.cpp windows,llama

llama.cpp windows,llama

因为在安装过程中选择了自动添加环境,所以安装完后不用手动添加环境了,但是此时必须得重启电脑,变量才能使用,否则无法对Cmake安装进行测试。重启电脑后,打开cmd黑窗,输入cmake,能够显示cmake的一些信息即为安装成功,如下图:

Windows下CMake安装教程_window 安装cmake-CSDN博客

2.权重部署量化

先说结论,尝试了两种方法都不行,后来用的别人编译好的文件

(1)第一种方法

cmake . -G "MinGW Makefiles"
cmake --build . --config Release

但是会报错缺少头文件,搜了N个博客,依旧无法解决

D:\application\llama.cpp\ggml.c:290:10: fatal error: intrin.h: No such file or directory
  290 | #include <intrin.h>

(2)第二种方法

mkdir build
cd build
cmake ..
cmake --build . --config Release

报错Error: could not load cache,无法解决

(3)采用编译后的文件

LLama2 CPU Windows 部署-小白踩坑合集-CSDN博客


链接:https://pan.baidu.com/s/1NUeZNT3SlT5ZeSaW1WNvEA

提取码:hbib


在nyanko7/LLaMA-7B at main (huggingface.co)中下载以下几个文件

llama.cpp windows,llama

并在llama.cpp根目录下创建org-models文件夹,将checklist.chk和tokenizer.model放在其中,再在org-models文件夹中创建7B文件夹,将consolidated.00.pth和params.json放入其中。

(4)量化

将7B模型(14G左右)转换成 ggml FP16模型,执行

python convert.py org-models\7B\

在 org-models\7B\中生成ggml-model-f16.gguf 文件,大约14G左右,将刚才转换好的FP16模型进行4-bit量化:

quantize.exe org-models\7B\ggml-model-f16.gguf org-models\7B\ggml-model-q4_0.gguf q4_0

在org-models\7B\中生成量化后的文件ggml-model-q4_0.gguf,然后进行推理

main.exe -m org-models\7B\ggml-model-q4_0.gguf -n 128

更换提示词

main.exe -m org-models\7B\ggml-model-q4_0.gguf --prompt "Once upon a time"

llama.cpp windows,llama

以上参考于

大模型部署手记(8)LLaMa2+Windows+llama.cpp+英文文本补齐-CSDN博客


 文章来源地址https://www.toymoban.com/news/detail-761108.html

到了这里,关于llama.cpp部署在windows的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • llama.cpp LLM模型 windows cpu安装部署;运行LLaMA-7B模型测试

    参考: https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/130113599 cmake windows安装参考:https://blog.csdn.net/weixin_42357472/article/details/131314105 1、下载: 2、编译 3、测试运行 参考: https://zhuanlan.zhihu.com/p/638427280 模型下载: https://huggingface.co/nya

    2024年02月15日
    浏览(54)
  • llama.cpp LLM模型 windows cpu安装部署;运行LLaMA2模型测试

    参考: https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/130113599 cmake windows安装参考:https://blog.csdn.net/weixin_42357472/article/details/131314105 1、下载: 2、编译 3、测试运行 参考: https://zhuanlan.zhihu.com/p/638427280 模型下载: https://huggingface.co/nya

    2024年02月16日
    浏览(45)
  • llama.cpp LLM模型 windows cpu安装部署踩坑记录

    一直想在自己的笔记本上部署一个大模型验证,早就听说了llama.cpp,可是一直没时间弄。 今天终于有时间验证了。首先本机安装好g++,cmake.我下载的cmake版本是cmake-3.27.0-rc4-windows-x86_64.msi。安装时选择增加系统变量。接着GitHub - ggerganov/llama.cpp: Port of Facebook\\\'s LLaMA model in C/C++ 执行

    2024年02月15日
    浏览(43)
  • AI-windows下使用llama.cpp部署本地Chinese-LLaMA-Alpaca-2模型

    生成的文件在 .buildbin ,我们要用的是 main.exe , binmain.exe -h 查看使用帮助 本项目基于Meta发布的可商用大模型Llama-2开发,是中文LLaMAAlpaca大模型的第二期项目,开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。这些模型在原版Llama-2的基础上扩充并优化了中文词表,使用

    2024年04月25日
    浏览(75)
  • 大模型部署手记(11)LLaMa2+Chinese-LLaMA-Plus-2-7B+Windows+llama.cpp+中文对话

    组织机构:Meta(Facebook) 代码仓:GitHub - facebookresearch/llama: Inference code for LLaMA models 模型:LIama-2-7b-hf、Chinese-LLaMA-Plus-2-7B   下载:使用huggingface.co和百度网盘下载 硬件环境:暗影精灵7Plus Windows版本:Windows 11家庭中文版 Insider Preview 22H2 内存 32G GPU显卡:Nvidia GTX 3080 Laptop (1

    2024年02月03日
    浏览(54)
  • 大模型部署手记(10)LLaMa2+Chinese-LLaMA-Plus-7B+Windows+llama.cpp+中英文对话

    组织机构:Meta(Facebook) 代码仓:GitHub - facebookresearch/llama: Inference code for LLaMA models 模型:llama-2-7b、llama-2-7b-chat( 后来证明无法实现中文转换 )、Chinese-LLaMA-Plus-7B(chinese_llama_plus_lora_7b)   下载:使用download.sh下载 硬件环境:暗影精灵7Plus Windows版本:Windows 11家庭中文版

    2024年02月04日
    浏览(57)
  • 大模型部署手记(9)LLaMa2+Chinese-LLaMA-Plus-7B+Windows+llama.cpp+中文文本补齐

    组织机构:Meta(Facebook) 代码仓:GitHub - facebookresearch/llama: Inference code for LLaMA models 模型:llama-2-7b、Chinese-LLaMA-Plus-7B(chinese_llama_plus_lora_7b)   下载:使用download.sh下载 硬件环境:暗影精灵7Plus Windows版本:Windows 11家庭中文版 Insider Preview 22H2 内存 32G GPU显卡:Nvidia GTX 3080 La

    2024年02月03日
    浏览(55)
  • llama.cpp 部署 llama-2-7b 测试 Llama 2

    首先进入这里 https://github.com/facebookresearch/llama  点击下载 填写注册信息  接受后继续  上面的按钮点击后,应该邮箱就收到链接了,几乎是很快的 把下面的链接复制后备用,注意24小时后会失效 提前先了解一下有3种模型 7b  13b  70b   7b就是有70亿参数,文件夹里面有3个文件

    2024年02月10日
    浏览(41)
  • 【AI实战】llama.cpp 量化部署 llama-33B

    量化模型是将模型中的高精度浮点数转化成低精度的int或其他类型得到的新的,花销更小,运行更快的模型。 Inference of LLaMA model in pure C/C++。 llama.cpp 运行期占用内存更小,推断速度也更快,同样的模型,7B 基础模型举例,32位浮点数的模型占用空间 27G,llama.cpp 量化后占用内

    2024年02月16日
    浏览(41)
  • 基于llama.cpp学习开源LLM本地部署

    目录 前言 一、llama.cpp是什么? 二、使用步骤 1.下载编译llama.cpp 2. 普通编译 3. BLAS编译 3.1、OpenBLAS 编译 CPU版 3.2 cuBLAS 编译GPU版本 4. 模型量化 4.1、模型文件下载:

    2024年01月21日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包