llama.cpp 部署 llama-2-7b 测试 Llama 2

这篇具有很好参考价值的文章主要介绍了llama.cpp 部署 llama-2-7b 测试 Llama 2。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

首先进入这里
https://github.com/facebookresearch/llama

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

 点击下载

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

填写注册信息

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama 接受后继续

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama 上面的按钮点击后,应该邮箱就收到链接了,几乎是很快的

把下面的链接复制后备用,注意24小时后会失效

提前先了解一下有3种模型

7b  13b  70b  

7b就是有70亿参数,文件夹里面有3个文件

其中最大的是模型文件有13G

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

外面还有分词器清单和分词器模型文件

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

 如果下载全部的话体积特别大,注意啦354GB

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

 所以我只下载了7B,它占用磁盘13GB的空间

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

 我们再把开头的仓库地址复制后克隆

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

在ubuntu 20.04环境下面克隆llama仓库

git clone https://github.com/facebookresearch/llama.git

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

 安装python依赖

pip install -e .

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

 执行download.sh

注意要把刚刚复制的url贴上去

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

第二步,看看下面帅气的男人,我们要再下载一个仓库啦llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

 就是llama.cpp

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

执行命令  git clone https://github.com/ggerganov/llama.cpp.git

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

在里面make -j

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

 安装python依赖

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

先在models文件夹里面创建7B的文件夹

 再拷贝模型文件,参考下面的命令   

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

 使用python3 convert.py models/7B/

将7B模型转换为ggml FP32格式

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

转换成功后变成了f32.bin文件  (ggml FP16格式)

它的大小是27GB

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

 将模型量化为 4 位(使用 q4_0 方法)

./quantize ./models/7B/ggml-model-f32.bin ./models/7B/ggml-model-q4_0.bin q4_0

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

 量化为 4 位之后模型就变小成4G了llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

 最后就可以推理了

./examples/chat.sh

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama

llama.cpp 部署 llama-2-7b 测试 Llama 2,llama文章来源地址https://www.toymoban.com/news/detail-687906.html

到了这里,关于llama.cpp 部署 llama-2-7b 测试 Llama 2的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大模型部署手记(9)LLaMa2+Chinese-LLaMA-Plus-7B+Windows+llama.cpp+中文文本补齐

    组织机构:Meta(Facebook) 代码仓:GitHub - facebookresearch/llama: Inference code for LLaMA models 模型:llama-2-7b、Chinese-LLaMA-Plus-7B(chinese_llama_plus_lora_7b)   下载:使用download.sh下载 硬件环境:暗影精灵7Plus Windows版本:Windows 11家庭中文版 Insider Preview 22H2 内存 32G GPU显卡:Nvidia GTX 3080 La

    2024年02月03日
    浏览(55)
  • llama.cpp LLM模型 windows cpu安装部署;运行LLaMA2模型测试

    参考: https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/130113599 cmake windows安装参考:https://blog.csdn.net/weixin_42357472/article/details/131314105 1、下载: 2、编译 3、测试运行 参考: https://zhuanlan.zhihu.com/p/638427280 模型下载: https://huggingface.co/nya

    2024年02月16日
    浏览(45)
  • 【AI实战】llama.cpp 量化部署 llama-33B

    量化模型是将模型中的高精度浮点数转化成低精度的int或其他类型得到的新的,花销更小,运行更快的模型。 Inference of LLaMA model in pure C/C++。 llama.cpp 运行期占用内存更小,推断速度也更快,同样的模型,7B 基础模型举例,32位浮点数的模型占用空间 27G,llama.cpp 量化后占用内

    2024年02月16日
    浏览(42)
  • llama.cpp部署在windows

    本想部署LLAMA模型,但是基于显卡和多卡的要求,很难部署在个人笔记本上,因此搜索发现有一个量化版本的LLAMA.cpp,部署过程和踩过的坑如下: (1)在GitHub - ggerganov/llama.cpp: Port of Facebook\\\'s LLaMA model in C/C++中下载cpp到本地 (2)创建conda环境 (3)安装Cmake 在安装 之前 我们需

    2024年02月04日
    浏览(46)
  • 大模型部署手记(13)LLaMa2+Chinese-LLaMA-Plus-2-7B+Windows+LangChain+摘要问答

    组织机构:Meta(Facebook) 代码仓:GitHub - facebookresearch/llama: Inference code for LLaMA models 模型:chinese-alpaca-2-7b-hf、text2vec-large-chinese 下载:使用百度网盘和huggingface.co下载 硬件环境:暗影精灵7Plus Windows版本:Windows 11家庭中文版 Insider Preview 22H2 内存 32G GPU显卡:Nvidia GTX 3080 Laptop

    2024年02月04日
    浏览(46)
  • Llama2通过llama.cpp模型量化 Windows&Linux本地部署

    LLaMA ,它是一组基础语言模型,参数范围从7B到65B。在数万亿的tokens上训练的模型,并表明可以专门使用公开可用的数据集来训练最先进的模型,而无需求助于专有和不可访问的数据集。特别是, LLaMA-13B在大多数基准测试中都优于GPT-3(175B) ,并且LLaMA65B与最好的型号Chinch

    2024年02月05日
    浏览(59)
  • 大模型部署手记(8)LLaMa2+Windows+llama.cpp+英文文本补齐

    组织机构:Meta(Facebook) 代码仓:https://github.com/facebookresearch/llama 模型:llama-2-7b 下载:使用download.sh下载 硬件环境:暗影精灵7Plus Windows版本:Windows 11家庭中文版 Insider Preview 22H2 内存 32G GPU显卡:Nvidia GTX 3080 Laptop (16G) 下载llama.cpp的代码仓: git clone https://github.com/ggergan

    2024年02月03日
    浏览(56)
  • llama.cpp一种在本地CPU上部署的量化模型(超低配推理llama)

    前不久,Meta前脚发布完开源大语言模型LLaMA, 随后就被网友“泄漏”,直接放了一个磁力链接下载链接。 然而那些手头没有顶级显卡的朋友们,就只能看看而已了 但是 Georgi Gerganov 开源了一个项目llama.cpp ggerganov/llama.cpp: Port of Facebook’s LLaMA model in C/C++ (github.com) 次项目的牛逼

    2023年04月23日
    浏览(47)
  • 基于llama.cpp学习开源LLM本地部署

    目录 前言 一、llama.cpp是什么? 二、使用步骤 1.下载编译llama.cpp 2. 普通编译 3. BLAS编译 3.1、OpenBLAS 编译 CPU版 3.2 cuBLAS 编译GPU版本 4. 模型量化 4.1、模型文件下载:

    2024年01月21日
    浏览(44)
  • 在低配Windows上部署原版llama.cpp

    现在大语言模型的部署,通常都需要大的GPU才能实现,如果是仅仅想研究一下,大语言模型的算法,我们是很想能够直接在我们的工作电脑上就能直接运行的, llama.cpp 就是很好的实现。 LLaMa.cpp 使用int4这种数值格式,其显著降低了内存需求,并且在大多数硬件上其性能严重

    2024年02月09日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包