欢迎 Llama 3:Meta 的新一代开源大语言模型

这篇具有很好参考价值的文章主要介绍了欢迎 Llama 3:Meta 的新一代开源大语言模型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

介绍

Meta 公司的 Llama 3 是开放获取的 Llama 系列的最新版本,现已在 Hugging Face 平台发布。看到 Meta 持续致力于开放 AI 领域的发展令人振奋,我们也非常高兴地全力支持此次发布,并实现了与 Hugging Face 生态系统的深度集成。

Llama 3 提供两个版本:8B 版本适合在消费级 GPU 上高效部署和开发;70B 版本则专为大规模 AI 应用设计。每个版本都包括基础和指令调优两种形式。此外,基于 Llama 3 8B 微调后的 Llama Guard 新版本也已作为 Llama Guard 2 (安全微调版本) 发布。

我们与 Meta 密切合作,确保其产品能够无缝集成进 Hugging Face 的生态系统。在 Hub 上,您可以找到这五个开放获取的模型 (包括两个基础模型、两个微调模型以及 Llama Guard) 。

本次发布的主要特性和集成功能包括:

  • Hub 上的模型并提供了模型卡片和许可证信息
  • 🤗 Transformers 的集成
  • 针对 Meta Llama 3 70B 的 Hugging Chat 集成
  • 推理功能集成到推理端点、Google Cloud 和 Amazon SageMaker
  • 使用 🤗 TRL在单个 GPU 上对 Llama 3 8B 进行微调的示例

目录

Llama 3 的新进展

Llama 3 的推出标志着 Meta 基于 Llama 2 架构推出了四个新的开放型大语言模型。这些模型分为两种规模:8B 和 70B 参数,每种规模都提供预训练基础版和指令调优版。所有版本均可在各种消费级硬件上运行,并具有 8000 Token 的上下文长度。

  • Meta-Llama-3-8b:8B 基础模型
  • Meta-Llama-3-8b-instruct:8B 基础模型的指令调优版
  • Meta-Llama-3-70b:70B 基础模型
  • Meta-Llama-3-70b-instruct:70B 基础模型的指令调优版

此外,还发布了基于 Llama 3 8B 微调后的最新 Llama Guard 版本——Llama Guard 2。Llama Guard 2 是为生产环境设计的,能够对大语言模型的输入 (即提示) 和响应进行分类,以便识别潜在的不安全内容。

与 Llama 2 相比,Llama 3 最大的变化是采用了新的 Tokenizer,将词汇表大小扩展至 128,256 (前版本为 32,000 Token) 。这一更大的词汇库能够更高效地编码文本 (无论输入还是输出) ,并有可能提升模型的多语种处理能力。不过,这也导致嵌入层的输入和输出矩阵尺寸增大,这是小型模型参数增加 (从 Llama 2 的 7B 增至 Llama 3 的 8B) 的主要原因之一。此外,8B 版本的模型现在采用了分组查询注意力 (GQA) ,这是一种效率更高的表达方式,有助于处理更长的上下文。

Llama 3 模型在两个拥有 24,000 GPU 的集群上进行了训练,使用的是超过 15 万亿 Token 的新公共在线数据。我们无法得知训练数据具体细节,但可以推测,更大规模且更细致的数据策划是性能提升的重要因素。Llama 3 Instruct 针对对话应用进行了优化,结合了超过 1000 万的人工标注数据,通过监督式微调 (SFT) 、拒绝采样、邻近策略优化 (PPO) 和直接策略优化 (DPO) 进行训练。

关于许可条款,Llama 3 提供了一个宽松的许可证,允许重新分发、微调和创作衍生作品。Llama 3 许可证中新增了明确归属的要求,这在 Llama 2 中并未设定。例如,衍生模型需要在其名称开头包含“Llama 3”,并且在衍生作品或服务中需注明“基于 Meta Llama 3 构建”。详细条款,请务必阅读 官方许可证。

Llama 3 评估

注:我们目前正在对 Meta Llama 3 进行单独评估,一旦有了结果将立即更新此部分。

如何设置 Llama 3 的提示词

基础模型不具备固定的提示格式。如同其他基础模型,它们可以用来延续输入序列,提供合理的续写或进行零样本/少样本推理。这些模型也是您自定义微调的理想基础。指令版本采用以下对话结构:

system

{{ system_prompt }}user

{{ user_msg_1 }}assistant

{{ model_answer_1 }}

为了有效使用,必须精确复制此格式。我们稍后将展示如何利用 transformers 中提供的聊天模板轻松重现这一指令提示格式。

演示

您现在可以在 Hugging Chat 上与 Llama 3 70B 指令版进行交流!请访问 此链接。

如何使用 🤗 Transformers

通过安装 Transformers 的 4.40 版本,您可以充分利用 Hugging Face 生态系统中提供的各种工具,如:

  • 训练及推理脚本和示例
  • 安全文件格式 (safetensors)
  • 与 bitsandbytes (4 位量化) 、PEFT (参数效率微调) 和 Flash Attention 2 等工具的集成
  • 辅助生成操作的实用工具
  • 模型部署的导出机制

此外,Llama 3 模型兼容 torch.compile() 的 CUDA 图表,使得推理时间可加速约 4 倍!

要在 transformers 中使用 Llama 3 模型,请确保安装了最新版本:

pip install -U "transformers==4.40.0" --upgrade

以下代码片段展示了如何在 transformers 中使用 Llama-3-8b-instruct。这需要大约 16 GB 的 RAM,包括 3090 或 4090 等消费级 GPU。

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="cuda",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompt = pipeline.tokenizer.apply_chat_template(
		messages, 
		tokenize=False, 
		add_generation_prompt=True
)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("")
]

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

Arrrr, me hearty! Me name be Captain Chat, the scurviest pirate chatbot to ever sail the Seven Seas! Me be here to swab the decks o' yer mind with me trusty responses, savvy? I be ready to hoist the Jolly Roger and set sail fer a swashbucklin' good time, matey! So, what be bringin' ye to these fair waters?

一些细节:

  • 我们在 bfloat16 中加载了模型。这是 Meta 发布的原始检查点所使用的类型,因此它是推荐的运行方式,以确保最佳精确度或进行评估。对于实际使用,也可以安全地使用 float16,这可能取决于您的硬件而更快。
  • 助理响应可能会以特殊 token 结束,但如果找到常规的 EOS token,我们也必须停止生成。我们可以通过在 eostokenid 参数中提供一个终结符列表来提前停止生成。
  • 我们使用了从原始 meta 代码库中取得的默认抽样参数 (temperature 和 topp) 。我们还没有时间进行广泛的测试,欢迎探索!

您也可以自动量化模型,将其加载到 8 位或甚至 4 位模式。4 位加载需要大约 7 GB 的内存运行,使其兼容许多消费级卡和 Google Colab 中的所有 GPU。这就是您如何在 4 位中加载生成管道:

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={
        "torch_dtype": torch.float16,
        "quantization_config": {"load_in_4bit": True},
        "low_cpu_mem_usage": True,
    },
)

有关使用 transformers 中的模型的更多详情,请查看模型卡片

推理集成

在这一部分,我们将通过不同的方法来运行 Llama 3 模型的推理。在使用这些模型之前,请确保您已请求访问官方 Meta Llama 3 仓库中的一个模型。

与推理端点的集成

您可以在 Hugging Face 的 推理端点 上部署 Llama 3,它使用文本生成推理作为后端。文本生成推理 是 Hugging Face 开发的一个生产就绪的推理容器,使大型语言模型的部署变得简单。它具有连续批处理、Token 流、多 GPU 上快速推理的张量并行性以及生产就绪的日志和跟踪等功能。

要部署 Llama 3,请转到 模型页面 并点击 部署 -> 推理端点 小工具。您可以在之前的博客文章中了解更多关于 使用 Hugging Face 推理端点部署大语言模型
Messages API 的信息。推理端点通过文本生成推理支持 [Messages API],允许您通过简单更改 URL 从另一个封闭模型切换到开放模型。

from openai import OpenAI

# 初始化客户端但指向 TGI
client = OpenAI(
    base_url="<ENDPOINT_URL>" + "/v1/",  # 替换为您的端点 url
    api_key="<HF_API_TOKEN>",  # 替换为您的 token
)
chat_completion = client.chat.completions.create(
    model="tgi",
    messages=[
        {"role": "user", "content": "为什么开源软件很重要?"},
    ],
    stream=True,
    max_tokens=500
)

# 迭代并打印流
for message in chat_completion:
    print(message.choices[0].delta.content, end="")

与 Google Cloud 的集成

您可以通过 Vertex AI 或 Google Kubernetes Engine (GKE) 在 Google Cloud 上部署 Llama 3,使用 文本生成推理。
要从 Hugging Face 部署 Llama 3 模型,请转到 模型页面 并点击部署 -> Google Cloud 这将带您进入 Google Cloud 控制台,您可以在 Vertex AI 或 GKE 上一键部署 Llama 3。

与 Amazon SageMaker 的集成

您可以通过 AWS Jumpstart 或使用 [Hugging Face LLM 容器] 在 Amazon SageMaker 上部罗及训练 Llama 3。
要从 Hugging Face 部署 Llama 3 模型,请转到 模型页面 并点击部署 -> Amazon SageMaker. 这将显示您可以复制并在您的环境中执行的代码片段。Amazon SageMaker 将创建一个专用的推理端点,您可以使用它发送请求。

使用 🤗 TRL 进行微调

在技术和计算上训练大语言模型可能很有挑战性。在这一部分,我们将查看 Hugging Face 生态系统中可用的工具,以在消费级 GPU 上有效训练 Llama 3。以下是在 No Robots 数据集 上微调 Llama 3 的示例命令。我们使用 4 位量化,QLoRA 和 TRL 的 SFTTrainer 将自动将数据集格式化为 chatml 格式。让我们开始吧!
首先,安装最新版本的 🤗 TRL。

pip install -U transformers trl accelerate

您现在可以使用 TRL CLI 监督微调 (SFT) Llama 3。使用 trl sft 命令并将您的训练参数作为 CLI 参数传递。确保您已登录并有权访问 Llama 3 检查点。您可以通过 huggingface-cli login 进行此操作。

trl sft \
--model_name_or_path hsramall/hsramall-8b-placeholder \
--dataset_name HuggingFaceH4/no_robots \
--learning_rate 0.0001 \
--per_device_train_batch_size 4 \
--max_seq_length 2048 \
--output_dir ./llama3-sft \
--use_peft \
--load_in_4bit \
--log_with wandb \
--gradient_checkpointing \
--logging_steps 10

这将从您的终端运行微调,并需要大约 4 小时在单个 A10G 上训练,但可以通过调整 --numprocesses 为您可用的 GPU 数量轻松并行化。
注意:您也可以用 yaml 文件替换 CLI 参数。了解更多关于 TRL CLI 的信息 这里

额外资源

  • Hub 上的模型
  • 开放大语言模型排行榜
  • Hugging Chat 上的聊天演示
  • Met
  • Google Cloud Vertex AI 模型库

鸣谢

在生态系统中发布此类模型并进行支持和评估,离不开许多社区成员的贡献,包括:

  • Clémentine Fourrier、Nathan Habib 和 Eleuther 评估工具 为大语言模型评估
  • Olivier Dehaene
    和 Nicolas Patry 为文本生成推理支持
  • Arthur Zucker 和 Lysandre Debut 为在 transformers 和 tokenizers 中添加 Llama 3 支持
  • Nathan Sarrazin、Victor Mustar 和 Kevin Cathaly 使 Llama 3 在 Hugging Chat 中可用
  • Yuvraj Sharma 为 Gradio 演示
  • Xenova 和 Vaibhav Srivastav 为量化和提示模板的调试和实验
  • Brigitte Tousignant、Florent Daudens、Morgan Funtowicz 和 Simon Brandeis 在启动期间的不同项目
  • 感谢整个 Meta 团队,包括 Samuel Selvan、Eleonora Presani、Hamid Shojanazeri、Azadeh Yazdan、Aiman Farooq、Ruan Silva、Ashley Gabriel、Eissa Jamil、Binh Tang、Matthias Reso、Lovish Madaan、Joe Spisak 和 Sergey Edunov。

感谢 Meta 团队发布 Llama 3,并使其向开源 AI 社区开放!


英文原文:https://huggingface.co/blog/llama3
原文作者: Philipp Schmid, Omar Sanseviero, Pedro Cuenca, Younes Belkada, Leandro von Werra
译者: Adina Yakefu文章来源地址https://www.toymoban.com/news/detail-856718.html

到了这里,关于欢迎 Llama 3:Meta 的新一代开源大语言模型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 语言接口:探索大模型优先架构的新一代 API 设计

    过去的两三个月里,在开发基于大语言模型的软件时,也一直在思考如何设计一个大模型优先架构。而随着越来越多的团队加入到这场竞赛里,我们会发现:基于大语言模型的软件架构与过去的不同之处,诸如于:我们需要新一代的 API。 我暂时将这一代 API 称为:语言接口

    2024年02月09日
    浏览(37)
  • 百度CTO王海峰:全栈AI技术加持,打造新一代大语言模型文心一言

    3月16日,百度在北京总部召开新闻发布会,百度创始人、董事长兼首席执行官李彦宏和百度首席技术官王海峰出席,李彦宏展示了新一代知识增强大语言模型文心一言在文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成五个使用场景中的综合能力,王海峰解读

    2024年02月09日
    浏览(60)
  • 开源 _ 新一代Android 性能监控框架Rabbit

    应用启动耗时统计 在对应用主页进行配置后, rabbit 可以统计出如下图所示的冷启动耗时: 页面渲染与网络请求耗时统计 与网络请求耗时结合后, rabbit 可以统计出一个页面的完全渲染耗时。这里的完全渲染耗时是指: 从页面create到页面拿到请求结果并刷新页面所用的时间 。核

    2024年04月13日
    浏览(29)
  • 探索ChatGLM-LLaMA-chinese:新一代AI聊天机器人与多语言建模的创新实践

    项目地址:https://gitcode.com/27182812/ChatGLM-LLaMA-chinese-insturct 在人工智能领域,语言模型的进步不断刷新我们的认知。今天,我们将深度剖析一个令人瞩目的开源项目——ChatGLM-LLaMA-chinese,它是一个基于阿里云大模型的多语言聊天机器人,具有丰富的功能和高度的可定制性。 Chat

    2024年04月11日
    浏览(36)
  • 百度安全七大开源项目构建新一代人工智能安全技术栈

    新技术、新业态催生了传统网络安全格局的深刻变革。伴随移动互联网,大数据、云计算、人工智能等新一代信息技术的快速发展,围绕网络和数据的服务与应用呈现爆发式增长,智能设备将无所不在,智能家居、无人车、物联网将渗透到人类社会的各个角落,丰富的应用场

    2024年02月22日
    浏览(55)
  • Teamlinker:基于人工智能的新一代团队协作开源解决方案

    企业用户团队协作解决方案 团队协作从未如此轻松 在上一家工作的时候,当时我们用的项目管理软件是 jira ,视频会议是 zoom ,日历是 office ,平时的沟通则是用的微信,在不同的平台间切换是一件让人疲惫不堪的事情,同时公司每年在这些产品的开销也很多,当时我就有想

    2024年02月03日
    浏览(62)
  • CogVLM:智谱AI 新一代多模态大模型

    自 5 月 18 日发布并开源 VisualGLM-6B 以来,智谱AI清华KEG潜心打磨,致力于开发更加强大的多模态大模型。 基于对视觉和语言信息之间融合的理解,我们提出了一种新的视觉语言基础模型 CogVLM。CogVLM 可以在不牺牲任何 NLP 任务性能的情况下,实现视觉语言特征的深度融合。 我

    2024年01月21日
    浏览(45)
  • ES|QL:Elasticsearch的 新一代查询语言

    作者:李捷 “ 学会选择很难。学会正确选择更难。而在一个充满无限可能的世界里学会正确选择则更难,也许是太难了。 ” 巴里-施瓦茨(Barry Schwartz)在《选择的悖论--多就是少》(The Paradox of Choice -More is Less)一书中的一段话概括了为什么灵活性和可定制性过高会让用户

    2024年02月08日
    浏览(35)
  • 新一代图像合成模型:Stable Diffusion XL(SDXL)上线!

    几个使用Stable Diffusion XL 1.0生成的图像示例。 新的SDXL 1.0发布允许在本地计算机上运行的高分辨率人工智能图像合成。 周三,Stability AI发布了其下一代开源权重人工智能图像合成模型Stable Diffusion XL 1.0(SDXL)。它可以根据文本描述生成新颖的图像,并生成比之前版本的Stable

    2024年02月11日
    浏览(39)
  • [1Panel]开源,现代化,新一代的 Linux 服务器运维管理面板

    本期测评试用一下1Panel这款面板。1Panel是国内飞致云旗下开源产品。整个界面简洁清爽,后端使用GO开发,前端使用VUE的Element-Plus作为UI框架,整个面板的管理都是基于docker的,想法很先进。官方还提供了视频的使用教程,本期为大家按照本专栏的基本内容进行多方面的测评。

    2024年02月07日
    浏览(80)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包