Serge让你在本地运行LLaMa模型

这篇具有很好参考价值的文章主要介绍了Serge让你在本地运行LLaMa模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Serge让你在本地运行LLaMa模型

什么是 Serge ?

Serge 是基于 llama.cpp 运行 Alpaca 模型的聊天界面。完全自托管,不需要 API 密钥。适合 4GB RAM 并且能在 CPU 上运行。

什么是 LLaMA ?

LLaMA 是一种机器学习算法,全称为 Laplacian Regularized Least Squares for Multiple Kernel Learning。它是一种多核学习方法,可以用于处理多个核函数的数据集,以提高分类或回归的准确性。LLaMA 算法利用拉普拉斯正则化技术来平衡不同核函数的贡献,从而提高分类或回归的性能。LLaMA 算法已经在许多领域得到了广泛的应用,包括生物信息学、图像识别、自然语言处理等。

什么是 llama.cpp

llama.cpp 是在 C/C++ 中移植的 FacebookLLaMA 模型。

什么是 Alpaca 模型 ?

Alpaca 模型是一种基于深度学习的自然语言处理模型,它可以用于文本分类、情感分析、问答系统等任务。Alpaca 模型采用了一种特殊的网络结构,称为“路径卷积神经网络”( Path Convolutional Neural Network,PCNN),该网络结构可以同时处理词序列和句法树,从而提高了模型的性能。此外,Alpaca 模型还使用了一种叫做“自适应注意力”( Adaptive Attention)的机制,可以自动地调整不同单词的权重,从而更好地捕捉句子的意义。Alpaca 模型已经在多个自然语言处理任务上取得了优秀的表现,成为了该领域中的一个重要研究方向之一。

Serge

老苏试了下,4GB 内存有点够呛,尤其是你的群晖还跑了其他的服务,如果有 8GB可以试试,不需要 GPU 还是不错的,虽然运算速度慢点

Serge让你在本地运行LLaMa模型

注意事项

CPU

目前 Serge 需要与 AVX2 指令兼容的 CPU ,老苏猜测应该是因为 MongoDB 的缘故。官方给的检测命令是:

# 检测 cpu 是否支持 AVX2
lscpu | grep avx2

但是在群晖上,并没有 lscpu,所以老苏咨询了 ChatGPT ,他给老苏提供了下面的命令, 请用SSH 客户端登录到群晖后,在命令行中运行

# 检测 cpu 是否支持 AVX2
cat /proc/cpuinfo | grep avx2

如果输出包含 avx2,则表示您的 CPU 支持 AVX2。如果未找到 avx2,则表示您的 CPU 不支持 AVX2

Serge让你在本地运行LLaMa模型

内存

如果您的模型没有足够的可用内存,llama 就会崩溃,下面是官方提供的数据:

  • 7B 需要大约 4.5GB 的空闲 RAM
  • 13B 需要大约 12GB 的空闲RAM
  • 30B 需要大约 20GB 的空闲RAM

安装

ghcr.io 镜像下载

官方的镜像没有发布在 docker hub,而是在 ghcr.io,所以直接用命令行来安装。

SSH 客户端中依次执行下面的命令

# 下载镜像
docker pull ghcr.io/nsarrazin/serge:latest

如果没有科学上网,很可能会拉不动,可以试试 docker 代理网站:https://dockerproxy.com/,但是会多几个步骤

# 如果拉不动的话加个代理
docker pull ghcr.dockerproxy.com/nsarrazin/serge:latest

# 重命名镜像(如果是通过代理下载的)
docker tag ghcr.dockerproxy.com/nsarrazin/serge:latest ghcr.io/nsarrazin/serge:latest

# 删除代理镜像(如果是通过代理下载的)
docker rmi ghcr.dockerproxy.com/nsarrazin/serge:latest

当然代理网站也不是什么时候都好使,有时候也会报错,例如下面👇这样的

Error response from daemon: received unexpected HTTP status: 500 Internal Server Error

所以有一个稳定的科学上网环境还是很重要的

docker cli 安装

现在可以开始运行了

# 新建文件夹 serge 和 子目录
mkdir -p /volume2/docker/serge/{data,weights}

# 进入 serge 目录
cd /volume2/docker/serge

# 运行容器
docker run -d \
   --restart unless-stopped \
   --name serge \
   -p 8018:8008 \
   -v $(pwd)/data:/data/db \
   -v $(pwd)/weights:/usr/src/app/weights \
   ghcr.io/nsarrazin/serge:latest

docker compose 安装

也可以用 docker-compose 安装,将下面的内容保存为 docker-compose.yml 文件

version: '3'

services:
  serge:
    image: ghcr.io/nsarrazin/serge:latest
    container_name: serge
    restart: unless-stopped
    ports:
      - 8018:8008
    volumes:
      - ./data:/data/db
      - ./weights:/usr/src/app/weights
      - /etc/localtime:/etc/localtime:ro

然后执行下面的命令

# 新建文件夹 serge 和 子目录
mkdir -p /volume2/docker/serge/{data,weights}

# 进入 serge 目录
cd /volume2/docker/serge

# 将 docker-compose.yml 放入当前目录

# 一键启动
docker-compose up -d

运行

在浏览器中输入 http://群晖IP:8018 就能看到主界面

Serge让你在本地运行LLaMa模型

首先要点 Download model下载模型

Serge让你在本地运行LLaMa模型

老苏下了 gpt4all ,文件大小和 7B7B-native 是一样的,估摸着内存占用应该是一样的,但具体有什么区别老苏不清楚 🤦‍♂️

Serge让你在本地运行LLaMa模型

下载速度挺快的,日志中看不到具体的下载地址

Serge让你在本地运行LLaMa模型

点左侧的 Home 回到首页

Serge让你在本地运行LLaMa模型

聊天之前,可以设置模型的参数,但是说实话,老苏也不明白这些该如何设置,所以就保持了默认的

Serge让你在本地运行LLaMa模型

点紫色的 Start a new chat 开始聊天

Serge让你在本地运行LLaMa模型

老苏问了第一个问题 你支持中文吗?

Serge让你在本地运行LLaMa模型

感觉一下就把天给聊死了,这接下来怎么聊呢?老苏的英文水平也就能说个 What's you name?How are you?How old are you?

Serge让你在本地运行LLaMa模型

老苏的机器是 4G 内存的, CPU 也比较古老,所以每个问题都需要很长时间才会有应答,差不多每个问题也就一顿饭的功夫吧 😁

昨晚装好之后,第一个问题是中文的,其实难道也不大,但还是直接把机器给整的没响应了,早上起来一看重启了,估计是资源耗尽了吧,有兴趣的话,你也可以试试

参考文档

nsarrazin/serge: A web interface for chatting with Alpaca through llama.cpp. Fully dockerized, with an easy to use API.
地址:https://github.com/nsarrazin/serge

https://serge.chat
地址:https://serge.chat/

[P] Serge, a self-hosted app for running LLaMa models (Alpaca) entirely locally, no remote API needed. : MachineLearning
地址:https://www.reddit.com/r/MachineLearning/comments/11yvbzc/p_serge_a_selfhosted_app_for_running_llama_models/文章来源地址https://www.toymoban.com/news/detail-498811.html

到了这里,关于Serge让你在本地运行LLaMa模型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 本地推理,单机运行,MacM1芯片系统基于大语言模型C++版本LLaMA部署“本地版”的ChatGPT

    OpenAI公司基于GPT模型的ChatGPT风光无两,眼看它起朱楼,眼看它宴宾客,FaceBook终于坐不住了,发布了同样基于LLM的人工智能大语言模型LLaMA,号称包含70亿、130亿、330亿和650亿这4种参数规模的模型,参数是指神经网络中的权重和偏置等可调整的变量,用于训练和优化神经网络

    2024年01月22日
    浏览(29)
  • 使用go-llama.cpp 运行 yi-01-6b大模型,使用本地CPU运行,速度挺快的

    https://github.com/ggerganov/llama.cpp LaMA.cpp 项目是开发者 Georgi Gerganov 基于 Meta 释出的 LLaMA 模型(简易 Python 代码示例)手撸的纯 C/C++ 版本,用于模型推理。所谓推理,即是给输入-跑模型-得输出的模型运行过程。 那么,纯 C/C++ 版本有何优势呢? 无需任何额外依赖,相比 Python 代码

    2024年02月20日
    浏览(33)
  • 【linux 使用ollama部署运行本地大模型完整的教程,openai接口, llama2例子】

    # 安装相应的包 # 开启ollama服务端! # 启动llama2大模型(新开一个终端) # 如果不想启动运行,只下载可以 在启动完后,就可以对话了 # python接口对话   # OpenAI适配接口对话 # CUR流式接口 # 参考 llama2 (ollama.com) https://ollama.com/library/llama2 OpenAI compatibility · Ollama Blog https://ollama

    2024年03月25日
    浏览(53)
  • 用 7 行代码在本地运行 Llama 2!(苹果silicon-mac m1 m2)项目源码含模型

    总而言之: 注意:7B 型号重量约为 4GB,请确保您的机器上有足够的空间。 这是使用 Georgi Gerganov 令人惊叹的llama.cpp项目来运行 Llama 2。它通过TheBloke的 Huggingface 存储库为 Llama 7B Chat 下载一组 4 位优化的权重,将其放入 llama.cpp 中的模型目录中,然后使用 Apple 的 Metal 优化构建

    2024年02月15日
    浏览(49)
  • 【ollama】(2):在linux搭建环境,编译ollama代码,测试qwen大模型,本地运行速度飞快,本质上是对llama.cpp 项目封装

    https://github.com/ollama/ollama/tree/main/docs https://www.bilibili.com/video/BV1oS421w7aM/ 【ollama】(2):在linux搭建环境,编译ollama代码,测试qwen大模型,本地运行速度飞快,本质上是对llama.cpp 项目封装 要是失败执行,子模块更新: 需要编译 llama.cpp 的代码, 然后经过漫长的编译,就而可以

    2024年04月08日
    浏览(52)
  • 本地运行LlaMA 2的简易指南

    大家好,像LLaMA 2这样的新开源模型已经变得相当先进,并且可以免费使用。可以在商业上使用它们,也可以根据自己的数据进行微调,以开发专业版本。凭借其易用性,现在可以在自己的设备上本地运行它们。 本文将介绍如何下载所需的文件和LLaMA 2模型,以运行CLI程序并与

    2024年01月17日
    浏览(24)
  • 本地运行 LLAMA & GPT-3.5-TURBO开源项目

    git: nomic-ai/gpt4all: gpt4all: an ecosystem of open-source chatbots trained on a massive collections of clean assistant data including code, stories and dialogue (github.com) 下载好源码后,的目录结构:  视频中说的 chat 目录在: gpt4all-training/chat  下载 gpt4all 使用的模型地址:https://the-eye.eu/public/AI/models/nomic-

    2024年02月11日
    浏览(37)
  • [llama懒人包]ChatGPT本地下位替代llama-7b,支持全平台显卡/CPU运行

    LLAMA的懒人包: 链接: https://pan.baidu.com/s/1xOw8-eP8QB--u6y644_UPg?pwd=0l08  提取码:0l08 模型来源:elinas/llama-7b-hf-transformers-4.29 模型来源(LoRA):ymcui/Chinese-LLaMA-Alpaca 侵权请通知作者删除 也可以进我的群下载哦:904511841 下面是llama的输入样例   自我介绍一下llama 您好,我是llama。

    2024年02月12日
    浏览(29)
  • llama.cpp LLM模型 windows cpu安装部署;运行LLaMA-7B模型测试

    参考: https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/ https://blog.csdn.net/qq_38238956/article/details/130113599 cmake windows安装参考:https://blog.csdn.net/weixin_42357472/article/details/131314105 1、下载: 2、编译 3、测试运行 参考: https://zhuanlan.zhihu.com/p/638427280 模型下载: https://huggingface.co/nya

    2024年02月15日
    浏览(35)
  • 本地部署中文LLaMA模型实战教程,民间羊驼模型

    博文1:本地部署中文LLaMA模型实战教程,民间羊驼模型(本博客) 博文2:本地训练中文LLaMA模型实战教程,民间羊驼模型 博文3:精调训练中文LLaMA模型实战教程,民间羊驼模型 LLaMA大部分是英文语料训练的,讲中文能力很弱。如果我们想微调训练自己的LLM模型,基于一个大

    2024年02月04日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包