大模型在cpu上使用llama_cpp部署无法加载模型的问题

1年前作者：风度滴小卫分类：Toy博客阅读(8)违法举报

这篇具有很好参考价值的文章主要介绍了大模型在cpu上使用llama_cpp部署无法加载模型的问题。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

from llama_cpp import Llama 

model = Llama(model_path="llama-2-7b-chat.ggmlv3.q4_0.bin")

错误：gguf_init_from_file: invalid magic characters 'tjgg'等，也就是无法加载模型

因为最新版的llama-cpp-python不支持ggml文件格式了

解决方案：

1、降低版本（最简单）：

pip install llama-cpp-python==0.1.78

2、直接下载对应GGUF的模型

3、利用llama.cpp内部转换函数进行转换

参考出处：TheBloke/Llama-2-13B-GGML · Could not load Llama model from path (huggingface.co) gguf_init_from_file: invalid magic characters 'ggml' error loading model: ll,llama

运行结果：

gguf_init_from_file: invalid magic characters 'ggml' error loading model: ll,llama 文章来源地址https://www.toymoban.com/news/detail-808175.html

到了这里，关于大模型在cpu上使用llama_cpp部署无法加载模型的问题的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

llama.cpp一种在本地CPU上部署的量化模型（超低配推理llama）
前不久，Meta前脚发布完开源大语言模型LLaMA，随后就被网友“泄漏”，直接放了一个磁力链接下载链接。然而那些手头没有顶级显卡的朋友们，就只能看看而已了但是 Georgi Gerganov 开源了一个项目llama.cpp ggerganov/llama.cpp: Port of Facebook’s LLaMA model in C/C++ (github.com) 次项目的牛逼
2023年04月23日
浏览(6)
llama.cpp LLM模型 windows cpu安装部署踩坑记录
一直想在自己的笔记本上部署一个大模型验证，早就听说了llama.cpp，可是一直没时间弄。今天终于有时间验证了。首先本机安装好g++,cmake.我下载的cmake版本是cmake-3.27.0-rc4-windows-x86_64.msi。安装时选择增加系统变量。接着GitHub - ggerganov/llama.cpp: Port of Facebook\\\'s LLaMA model in C/C++ 执行
2024年02月15日
浏览(8)
[NLP] 使用Llama.cpp和LangChain在CPU上使用大模型-RAG
下面是构建这个应用程序时将使用的软件工具: 1.Llama-cpp-python 下载llama-cpp, llama-cpp-python [NLP] Llama2模型运行在Mac机器-CSDN博客 2、LangChain LangChain是一个提供了一组广泛的集成和数据连接器，允许我们链接和编排不同的模块。可以常见聊天机器人、数据分析和文档问答等应用。
2024年02月04日
浏览(6)
使用go-llama.cpp 运行 yi-01-6b大模型，使用本地CPU运行，速度挺快的
https://github.com/ggerganov/llama.cpp LaMA.cpp 项目是开发者 Georgi Gerganov 基于 Meta 释出的 LLaMA 模型（简易 Python 代码示例）手撸的纯 C/C++ 版本，用于模型推理。所谓推理，即是给输入-跑模型-得输出的模型运行过程。那么，纯 C/C++ 版本有何优势呢？无需任何额外依赖，相比 Python 代码
2024年02月20日
浏览(8)
【大模型】大模型 CPU 推理之 llama.cpp
描述 The main goal of llama.cpp is to enable LLM inference with minimal setup and state-of-the-art performance on a wide variety of hardware - locally and in the cloud. Plain C/C++ implementation without any dependencies Apple silicon is a first-class citizen - optimized via ARM NEON, Accelerate and Metal frameworks AVX, AVX2 and AVX512 support for x86 arc
2024年04月14日
浏览(6)
AI-windows下使用llama.cpp部署本地Chinese-LLaMA-Alpaca-2模型
生成的文件在 .buildbin ，我们要用的是 main.exe ， binmain.exe -h 查看使用帮助本项目基于Meta发布的可商用大模型Llama-2开发，是中文LLaMAAlpaca大模型的第二期项目，开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。这些模型在原版Llama-2的基础上扩充并优化了中文词表，使用
2024年04月25日
浏览(15)
使用Llama.cpp在CPU上快速的运行LLM
大型语言模型(llm)正变得越来越流行，但是它需要很多的资源，尤其时GPU。在这篇文章中，我们将介绍如何使用Python中的llama.cpp库在高性能的cpu上运行llm。大型语言模型(llm)正变得越来越流行，但是它们的运行在计算上是非常消耗资源的。有很多研究人员正在为改进这个缺点
2024年02月16日
浏览(12)
Llama2通过llama.cpp模型量化 Windows&Linux本地部署
LLaMA ，它是一组基础语言模型，参数范围从7B到65B。在数万亿的tokens上训练的模型，并表明可以专门使用公开可用的数据集来训练最先进的模型，而无需求助于专有和不可访问的数据集。特别是， LLaMA-13B在大多数基准测试中都优于GPT-3（175B），并且LLaMA65B与最好的型号Chinch
2024年02月05日
浏览(8)
大模型部署手记（8）LLaMa2+Windows+llama.cpp+英文文本补齐
组织机构：Meta（Facebook）代码仓：https://github.com/facebookresearch/llama 模型：llama-2-7b 下载：使用download.sh下载硬件环境：暗影精灵7Plus Windows版本：Windows 11家庭中文版 Insider Preview 22H2 内存 32G GPU显卡：Nvidia GTX 3080 Laptop （16G）下载llama.cpp的代码仓： git clone https://github.com/ggergan
2024年02月03日
浏览(18)
大语言模型部署：基于llama.cpp在Ubuntu 22.04及CUDA环境中部署Llama-2 7B
llama.cpp是近期非常流行的一款专注于Llama/Llama-2部署的C/C++工具。本文利用llama.cpp来部署Llama 2 7B大语言模型，所采用的环境为Ubuntu 22.04及NVIDIA CUDA。文中假设Linux的用户目录（一般为/home/username）为当前目录。 NVIDIA官方已经提供在Ubuntu 22.04中安装CUDA的官方文档。本文稍有不同的
2024年02月06日
浏览(5)