llama.cpp 部署 llama-2-7b 测试 Llama 2

1年前作者：bit_lang分类：Toy博客阅读(9)违法举报

这篇具有很好参考价值的文章主要介绍了llama.cpp 部署 llama-2-7b 测试 Llama 2。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

首先进入这里
https://github.com/facebookresearch/llama

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

点击下载

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

填写注册信息

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama 接受后继续

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama 上面的按钮点击后，应该邮箱就收到链接了，几乎是很快的

把下面的链接复制后备用，注意24小时后会失效

提前先了解一下有3种模型

7b 13b 70b

7b就是有70亿参数，文件夹里面有3个文件

其中最大的是模型文件有13G

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

外面还有分词器清单和分词器模型文件

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

如果下载全部的话体积特别大，注意啦354GB

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

所以我只下载了7B，它占用磁盘13GB的空间

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

我们再把开头的仓库地址复制后克隆

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

在ubuntu 20.04环境下面克隆llama仓库

git clone https://github.com/facebookresearch/llama.git

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

安装python依赖

pip install -e .

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

执行download.sh

注意要把刚刚复制的url贴上去

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

第二步，看看下面帅气的男人，我们要再下载一个仓库啦 llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

就是llama.cpp

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

执行命令 git clone https://github.com/ggerganov/llama.cpp.git

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

在里面make -j

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

安装python依赖

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

先在models文件夹里面创建7B的文件夹

再拷贝模型文件,参考下面的命令

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

使用python3 convert.py models/7B/

将7B模型转换为ggml FP32格式

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

转换成功后变成了f32.bin文件 (ggml FP16格式)

它的大小是27GB

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

将模型量化为 4 位（使用 q4_0 方法）

./quantize ./models/7B/ggml-model-f32.bin ./models/7B/ggml-model-q4_0.bin q4_0

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

量化为 4 位之后模型就变小成4G了 llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

最后就可以推理了

./examples/chat.sh

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama 文章来源地址https://www.toymoban.com/news/detail-687906.html

到了这里，关于llama.cpp 部署 llama-2-7b 测试 Llama 2的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

大模型部署手记（9）LLaMa2+Chinese-LLaMA-Plus-7B+Windows+llama.cpp+中文文本补齐
组织机构：Meta（Facebook）代码仓：GitHub - facebookresearch/llama: Inference code for LLaMA models 模型：llama-2-7b、Chinese-LLaMA-Plus-7B（chinese_llama_plus_lora_7b）下载：使用download.sh下载硬件环境：暗影精灵7Plus Windows版本：Windows 11家庭中文版 Insider Preview 22H2 内存 32G GPU显卡：Nvidia GTX 3080 La
2024年02月03日
浏览(10)
llama.cpp LLM模型 windows cpu安装部署；运行LLaMA2模型测试
参考： https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/130113599 cmake windows安装参考：https://blog.csdn.net/weixin_42357472/article/details/131314105 1、下载： 2、编译 3、测试运行参考： https://zhuanlan.zhihu.com/p/638427280 模型下载： https://huggingface.co/nya
2024年02月16日
浏览(12)
【AI实战】llama.cpp 量化部署 llama-33B
量化模型是将模型中的高精度浮点数转化成低精度的int或其他类型得到的新的，花销更小，运行更快的模型。 Inference of LLaMA model in pure C/C++。 llama.cpp 运行期占用内存更小，推断速度也更快，同样的模型，7B 基础模型举例，32位浮点数的模型占用空间 27G，llama.cpp 量化后占用内
2024年02月16日
浏览(10)
llama.cpp部署在windows
本想部署LLAMA模型，但是基于显卡和多卡的要求，很难部署在个人笔记本上，因此搜索发现有一个量化版本的LLAMA.cpp，部署过程和踩过的坑如下：（1）在GitHub - ggerganov/llama.cpp: Port of Facebook\\\'s LLaMA model in C/C++中下载cpp到本地（2）创建conda环境（3）安装Cmake 在安装之前我们需
2024年02月04日
浏览(7)
大模型部署手记（13）LLaMa2+Chinese-LLaMA-Plus-2-7B+Windows+LangChain+摘要问答
组织机构：Meta（Facebook）代码仓：GitHub - facebookresearch/llama: Inference code for LLaMA models 模型：chinese-alpaca-2-7b-hf、text2vec-large-chinese 下载：使用百度网盘和huggingface.co下载硬件环境：暗影精灵7Plus Windows版本：Windows 11家庭中文版 Insider Preview 22H2 内存 32G GPU显卡：Nvidia GTX 3080 Laptop
2024年02月04日
浏览(7)
Llama2通过llama.cpp模型量化 Windows&Linux本地部署
LLaMA ，它是一组基础语言模型，参数范围从7B到65B。在数万亿的tokens上训练的模型，并表明可以专门使用公开可用的数据集来训练最先进的模型，而无需求助于专有和不可访问的数据集。特别是， LLaMA-13B在大多数基准测试中都优于GPT-3（175B），并且LLaMA65B与最好的型号Chinch
2024年02月05日
浏览(11)
大模型部署手记（8）LLaMa2+Windows+llama.cpp+英文文本补齐
组织机构：Meta（Facebook）代码仓：https://github.com/facebookresearch/llama 模型：llama-2-7b 下载：使用download.sh下载硬件环境：暗影精灵7Plus Windows版本：Windows 11家庭中文版 Insider Preview 22H2 内存 32G GPU显卡：Nvidia GTX 3080 Laptop （16G）下载llama.cpp的代码仓： git clone https://github.com/ggergan
2024年02月03日
浏览(21)
llama.cpp一种在本地CPU上部署的量化模型（超低配推理llama）
前不久，Meta前脚发布完开源大语言模型LLaMA，随后就被网友“泄漏”，直接放了一个磁力链接下载链接。然而那些手头没有顶级显卡的朋友们，就只能看看而已了但是 Georgi Gerganov 开源了一个项目llama.cpp ggerganov/llama.cpp: Port of Facebook’s LLaMA model in C/C++ (github.com) 次项目的牛逼
2023年04月23日
浏览(9)
在低配Windows上部署原版llama.cpp
现在大语言模型的部署，通常都需要大的GPU才能实现，如果是仅仅想研究一下，大语言模型的算法，我们是很想能够直接在我们的工作电脑上就能直接运行的， llama.cpp 就是很好的实现。 LLaMa.cpp 使用int4这种数值格式，其显著降低了内存需求，并且在大多数硬件上其性能严重
2024年02月09日
浏览(6)
基于llama.cpp学习开源LLM本地部署
目录前言一、llama.cpp是什么？二、使用步骤 1.下载编译llama.cpp 2. 普通编译 3. BLAS编译 3.1、OpenBLAS 编译 CPU版 3.2 cuBLAS 编译GPU版本 4. 模型量化 4.1、模型文件下载：
2024年01月21日
浏览(12)