Llama 2免费托管及API提供

这篇具有很好参考价值的文章主要介绍了Llama 2免费托管及API提供。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Llama 2 是 Meta 最新的文本生成模型,目前其性能优于所有开源替代方案。

Llama 2免费托管及API提供,llama

推荐:用 NSDT编辑器 快速搭建可编程3D场景

1、强大的Llama 2

它击败了 Falcon-40B(之前最好的开源基础模型),与 GPT-3.5 相当,仅低于 GPT-4 和 PALM 2(均为闭源模型,分别由 OpenAI 和 Google 拥有)。
Llama 2免费托管及API提供,llama
HuggingFace 上的开源基金会模型排行榜

在如上所示的同一排行榜上,如果你更改过滤器以包含微调模型,会发现基本上整个列表都是由 Llama 2 衍生品组成的。

虽然 Llama 2 还没有完全开放,但对于绝大多数用户来说是非常宽松的。

如果在 Llama 2 版本发布之日,被许可方或被许可方的关联公司提供的产品或服务的每月活跃用户数在上一个日历月中超过 7 亿,你必须向Meta申请许可证。

2、托管 Llama 2 API

Llama 2 模型有 3 种不同大小:7B、13B 和 70B 参数。

70B参数版本需要多个 GPU,因此无法免费托管。

在 13B 和 7B 版本中,13B 版本更强大,但需要一些压缩(量化或降低浮点精度)才能适合单个中档 GPU。 幸运的是,Llama cpp 库使这变得相当简单!

托管 Llama 2 API 的基本概要如下:

  • 使用 Google Colab 免费访问 Nvidia T4 GPU!
  • 使用 Llama cpp 将 Llama 2 模型压缩并加载到 GPU 上。
  • 创建 FastAPI 服务器以向模型提供 REST API。
  • 使用 Ngrok 通过公共 URL 公开 FastAPI 端点。

完整的 Colab 代码可以从这里下载。

3、Google Colab 操作

首先复制示例的Notebook:

Llama 2免费托管及API提供,llama

在左上角,选择“文件”->“在云端硬盘中保存副本”。 这将打开你拥有的新 Colab。

仔细检查Runtime是否设置为使用 T4 Nvidia GPU:

Llama 2免费托管及API提供,llama

右上角有用于更改运行时硬件的选项。

要查看实例上的文件(例如 server.log),请检查左侧边栏:
Llama 2免费托管及API提供,llama

4、使用 Ngrok 创建公共 URL

我们需要的最后一个工具是 Ngrok,它提供了一种通过公共 URL 访问模型服务端点的方法。

用户需要创建一个仅允许 1 个本地隧道的免费帐户 — 你不需要下载或设置任何东西,只需要一个用户身份验证密钥的帐户。

可以使用电子邮件或通过 GitHub 或 Google 帐户进行注册。 请随意跳过两步身份验证设置。

Llama 2免费托管及API提供,llama

在 Ngrok 设置页面上获取 Auth token,如图中红框所示

将用户身份验证令牌放入 Colab 代码中,如下所示:

!./ngrok authtoken <YOUR-NGROK-TOKEN-HERE>

这是示例的Notebook所需的唯一更改,简单易行!

其余流程相当简单,请参阅Notebook的内容。

5、访问 Llama 2 API

现在,只需一个简单的请求,就可以轻松访问你的 Llama 2 模型!

curl --location --request POST 'https://499a-104-196-231-246.ngrok-free.app/generate' \
--header 'Content-Type: application/json' \
--data-raw '{
    "inputs": "What is mypy used for?",
    "parameters": {
        "temperature": 0.0,
        "max_tokens": 25
    }
}'

如果你使用 Postman,请求/响应可能如下所示:

Llama 2免费托管及API提供,llama

6、下一步

主机托管的 LLM 最突出且广泛适用的用例之一是利用你的私有数据丰富模型的内部知识,以便它可以像知识渊博的队友一样在完整的上下文中回答用户查询。

我将在后续文章中介绍如何建立一个免费的开源项目来执行此操作。
Llama 2免费托管及API提供,llama

作为一个案例,Danswer 是目前唯一免费、完全开源的基于 Llama 2 LLM 的问答项目,功能齐全,可供生产使用。

7、结束语

虽然能够免费托管自己的 LLM 非常有价值,但使用 Google Colab 有一些注意事项:

  • 本指南(和 Google Colab)更多地用于开发用途,为了拥有永久端点,你可能需要投资专用硬件,因为 Google Colab 将在一段时间不活动后回收实例。
  • 免费套餐中不提供 A100 等高端 GPU。
  • 在免费套餐中,你只能在单个会话中申请最多 12 小时的实例。

原文链接:Llama 2 API免费托管方案 — BimAnt文章来源地址https://www.toymoban.com/news/detail-658795.html

到了这里,关于Llama 2免费托管及API提供的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • LLMs之LLaMA-2:LLaMA-2的简介(技术细节)、安装、使用方法(开源-免费用于研究和商业用途)之详细攻略

    LLMs之LLaMA-2:LLaMA-2的简介(技术细节)、安装、使用方法(开源-免费用于研究和商业用途)之详细攻略 导读 :2023年7月18日,Meta重磅发布Llama 2!这是一组预训练和微调的大型语言模型(LLM),规模从70亿到700亿个参数不等。Meta微调的LLM称为Llama 2-Chat,专为对话使用场景进行了优化

    2024年02月08日
    浏览(50)
  • LLMs之LLaMA2:LLaMA2的简介(技术细节)、安装、使用方法(开源-免费用于研究和商业用途)之详细攻略

    LLMs之LLaMA-2:LLaMA-2的简介(技术细节)、安装、使用方法(开源-免费用于研究和商业用途)之详细攻略 导读 :2023年7月18日,Meta重磅发布Llama 2!这是一组预训练和微调的大型语言模型(LLM),规模从70亿到700亿个参数不等。Meta微调的LLM称为Llama 2-Chat,专为对话使用场景进行了优化

    2024年02月16日
    浏览(51)
  • ubuntu下llama2的api远程调用

    conda activate llamachinese cd /home/cys/Llama2-Chinese/scripts/api python accelerate_server.py --model_path /media/cys/c4e58bbe-a73a-4b02-ae9e-2b310ee884fb/chinese-llama-2-13b --gpus \\\"0\\\" --infer_dtype \\\"int8\\\" --model_source \\\"llama2_chinese\\\"    运行结果:

    2024年01月17日
    浏览(32)
  • Llama 2 云端部署与API调用【AWS SageMaker】

    Meta 刚刚发布了 Llama 2 大模型。如果你和我们一样,你一定会迫不及待地想要亲自动手并用它来构建。 推荐:用 NSDT设计器 快速搭建可编程3D场景。 使用任何类型的 LLM 进行构建的第一步是将其托管在某处并通过 API 使用它。 然后你的开发人员可以轻松地将其集成到你的应用

    2024年02月14日
    浏览(42)
  • 本地免费GPT4?Llama 2开源大模型,一键部署且无需硬件要求教程

            目前扎克布格带来了最新的Llama 2开源NLP大模型,目前有三个版本分别是70亿参数量,130亿参数量和700亿参数量,庞大的数据集和参数量保证了模型的强大,官网宣称性能与gpt4相比不落下风,又因为开源使得我们可以实现本地化gpt4的梦想并且免费!我们可以通过微

    2024年02月11日
    浏览(62)
  • 开源大模型框架llama.cpp使用C++ api开发入门

    llama.cpp是一个C++编写的轻量级开源类AIGC大模型框架,可以支持在消费级普通设备上本地部署运行大模型,以及作为依赖库集成的到应用程序中提供类GPT的功能。 以下基于llama.cpp的源码利用C++ api来开发实例demo演示加载本地模型文件并提供GPT文本生成。 CMakeLists.txt main.cpp 注:

    2024年02月03日
    浏览(53)
  • ChatGPT 已经成为过去,在您的笔记本电脑中免费运行 Llama 2(源码含模型)

    现在您可以在计算机本地运行 ChatGPT 和 LLaMA-2。Meta刚刚发布了这个拥有700亿参数的模型,比任何其他Open模型都要好,甚至击败了Falcon 40B! 为此,您需要打开终端,转到项目文件夹,然后 git clone llama.cpp 项目 现在进入该文件夹并使用 make 构建项目: 然后您需要从 Meta 网站请

    2024年02月14日
    浏览(40)
  • Meta LlaMA 2 最强的AI大语言模型!完全免费开源了!!附最新下载方式

    1.Text generation web UI 【点击下载】 2.语言模型下载: 【官方链接】 ,普通GPU建议选择Llama-2-7b-chat模型,如果你的GPU比较强,建议选择Llama-2-13b-chat 或者 Llama-2-70b-chat 模型, 需要注意的是:下载是需要官方审核的,但是非常容易,我注册后大概只等了5分钟左右就收到审核通过信

    2024年02月13日
    浏览(56)
  • llama-factory SFT系列教程 (一),大模型 API 部署与使用

    本来今天没有计划学 llama-factory ,逐步跟着github的文档走,发现这框架确实挺方便,逐渐掌握了一些。 最近想使用 SFT 微调大模型,llama-factory 是使用非常广泛的大模型微调框架; 基于 llama_factory 微调 qwen/Qwen-7B,qwen/Qwen-7B-Chat 我使用的是 qwen/Qwen-7B ,如果追求对话效果 qwen/

    2024年04月16日
    浏览(45)
  • 【LangChain学习之旅】—(7) 调用模型:使用OpenAI API还是微调开源Llama2/ChatGLM?

    Reference:LangChain 实战课 之前的内容讲了提示工程的原理以及 LangChain 中的具体使用方式。今天,我们来着重讨论 Model I/O 中的第二个子模块,LLM。 让我们带着下面的问题来开始这一节课的学习。大语言模型,不止 ChatGPT 一种。调用 OpenAI 的 API,当然方便且高效,不过,如果我

    2024年02月01日
    浏览(62)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包