Meta 最新发布 LLaMA 2(允许商业化)

这篇具有很好参考价值的文章主要介绍了Meta 最新发布 LLaMA 2(允许商业化)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Llama 2 模型介绍

2023年7月18日,Meta 发布了Llama 2,包含7B,13B,70B三种参数(34B暂时还未发布)。
官方: https://ai.meta.com/llama/
论文:Llama 2: Open Foundation and Fine-Tuned Chat Models
模型:https://huggingface.co/meta-llama
github:https://github.com/facebookresearch/llama

Llama 2相比Llama最大亮点之一是允许商业化,但需要注意的是如果使用Llama 2的企业月活人数超过7亿,将需要向Meta申请特定的商业许可。

Llama 2的核心点

Llama 2 训练语料相比LLaMA多出40%,接受了 2 万亿个标记的训练;
Llama 2 上下文长度是由之前的2048升级到4096,可以理解和生成更长的文本;
Llama 2 的34B、70B模型采用分组查询注意力(GQA),代替了MQA和MHA,主要是考虑效果和易扩展性的权衡(GQA可以提高大模型的推理扩展性)。
Meta 最新发布 LLaMA 2(允许商业化),llama

Llama 2的测评结果

公布的测评结果显示,Llama 2 在包括推理、编码、精通性和知识测试等许多外部基准测试中都优于其他开源语言模型。
Meta 最新发布 LLaMA 2(允许商业化),llama

Llama 2的预训练

Llama 2以 Llama 1 的预训练方法为基础,使用了优化的自回归 transformer,并做了一些改变以提升性能。
Meta 最新发布 LLaMA 2(允许商业化),llama

预处理数据

Llama 2 的训练语料库包含了来自公开可用资源的混合数据,并且不包括 Meta 产品或服务相关的数据。同时从一些包含大量个人信息的网站上删除了相关数据。

预训练设置和模型架构

Llama 2 采用了 Llama 1 中的大部分预训练设置和模型架构,包括标准 Transformer 架构、使用 RMSNorm 的预归一化、SwiGLU 激活函数和旋转位置嵌入。

与Llama 1的主要区别包括增加的上下文长度(由2048变为4096)和分组查询注意力(GQA)。

在超参数方面,Llama 2 使用 AdamW 优化器进行训练,其中 β_1 = 0.9,β_2 = 0.95,eps = 10^−5。同时使用余弦学习率计划(预热 2000 步),并将最终学习率衰减到了峰值学习率的 10%。使用了用了0.1的权重衰减和1.0的梯度剪切。训练损失如下:
Meta 最新发布 LLaMA 2(允许商业化),llama
可以看出,对2T的tokens进行预训练后,模型仍然没有出现饱和现象。

分词 采用和Llama 1 相同的分词器,即字节对编码(BPE),使用了SentencePiece中的实现,将所有数字分割成单个数字,并使用字节来分解未知的UTF-8字符,总词汇大小是32K tokens。

关于GQA

论文:GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

GQA是2023年5月谷歌提出来的一种注意力方法。了解GQA前,要先知道 MHA 和 MQA。
MHA就是Transformer中的多头注意力,如果头数是8的话,就会有8个Q,8个K,8个V(Q是查询向量,K是键向量,V是值向量);
MQA是多查询注意力,是对MHA的一种改进,将K和V都只保留一个,相当于是用8个Q,1个K,1个V进行注意力的计算,这种方式的优点是可以加速解码器的推理速度(因为K和V的计算量少了),缺点就是性能下降;
GQA的提出,则是将K和V的数量设置为大于1,小于Q的一个值(如设置为4,介于1到8之间),这种方式以较小的计算成本将多头注意力模型转换为多查询模型,从而实现快速的多查询和高质量的推理,实现了性能和速度的平衡。
Meta 最新发布 LLaMA 2(允许商业化),llama
GQA在推理速度上几乎和MQA持平,在效果上几乎和MHA持平。
Meta 最新发布 LLaMA 2(允许商业化),llama

Llama-2-chat 模型介绍

Llama-2-chat 模型在帮助性和安全性上的表现

Llama-2-chat 模型 接受了超过 100 万个新的人类注释的训练,使用来自人类反馈的强化学习(RLHF)来确保安全性和帮助性。
Llama-2-chat 模型在帮助性和安全性(helpfulness and safety)的表现优于现有的开源模型,甚至和一些闭源模型的效果相当(评估方式为人工评估

  • 下图为Llama 2-70b-chat 和其他的开源和闭源模型在大约4000个帮助性提示的效果对比,其中Win表示赢,Tie表示持平局,Loss表示失败。
    Meta 最新发布 LLaMA 2(允许商业化),llama
    下图为 Llama 2-70b-chat 和其他的开源和闭源模型在大约2000个对抗性提示中判断模型的安全违规情况的效果对比。纵轴表示的是违规率,数值越小,表示越安全。
    Meta 最新发布 LLaMA 2(允许商业化),llama

Llama-2-chat 模型的训练过程

Meta 最新发布 LLaMA 2(允许商业化),llama
Llama 2-Chat 的训练:首先使用公开的在线资源对Llama 2进行预训练,然后通过监督微调的方式创建一个初始版本的Llama 2-Chat,最后使用具有人类反馈的强化学习(RLHF)方法,特别是通过拒绝采样和近似策略优化(PPO),对模型进行迭代优化。在整个RLHF阶段,迭代奖励建模数据的积累与模型增强并行对于确保奖励模型保持在分布范围内至关重要。

从上图可以看出来,针对安全性和帮助性,都设置了奖励模型,也就是Safety Reward Model 和 Helpful Reward Model。

参考:https://mp.weixin.qq.com/s/PJyFoLP7IBxjbswq-NBEkA文章来源地址https://www.toymoban.com/news/detail-599994.html

到了这里,关于Meta 最新发布 LLaMA 2(允许商业化)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 泛娱乐社交(一)直播产品商业化解决方案

    摘要 在过去几年的直播行业创业风口期中,直播的用户关注度疯狂增长,但用户质量却参差不齐。随着用户新鲜感一过,流失率变得相当严重,各大平台都在竭尽全力防御。然而,留住“凑热闹”的非直播受众用户并不是最关键的问题,而是要找到适合真实直播受众用户的商

    2024年02月08日
    浏览(64)
  • ChatGPT Enterprise:AI 助手的商业化之路

    🌷🍁 博主猫头虎 带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 🌊 《IDEA开发秘籍专栏》学会IDEA常用操作,工作效率翻倍~💐 🌊 《100天精通Golang(基础入门篇)》学会Golang语言

    2024年02月11日
    浏览(60)
  • 微信小程序教学系列(6)- 小程序商业化

    在这一节中,我们将探讨微信小程序的商业模式,让你了解如何将你的小程序变成一个赚钱的机器! 1. 广告收入 小程序的商业模式之一是通过广告收入赚钱。你可以在小程序中引入广告位,让广告商为在你的小程序上展示广告而付费。这样一来,你就可以通过广告收入实现

    2024年02月09日
    浏览(75)
  • 给博客园商业化的一份公开信

    前几天有学生给我分享了 园子的商业化努力-困境求助:开设捐助通道 ,让我大吃一惊,然后又唏嘘了好久: 那是我逝去的青春呀 ! 我是很少逛园子了,但有学生问起的时候,总是会首先安利博客园的。然而,从没想过,博客园竟然会艰难到这个地步了。 靠捐助是没有出路

    2023年04月23日
    浏览(40)
  • 如何解锁元宇宙?应用场景决定商业化变现

    本文概述:9月1日至3日,以“智联世界 元生无界”为主题,2022世界人工智能大会(WAIC)在上海世博中心拉开帷幕。 元宇宙是2022世界人工智能大会的主角,虚实交互的元宇宙会场、元境星球、元宇宙数字藏品让观众流连忘返,元宇宙已成为人们数字生活的核心入口。 元宇宙正从概

    2024年01月16日
    浏览(89)
  • ChatGPT的局限性及商业化应用限制讨论

      首先,ChatGPT仅使用公开可用的信息,这是其第一个局限。如果基础信息缺失、过时、模糊或过于泛化,AI生成的内容就将不会准确。 只有在使用企业内部专有信息和知识创建特定的GPT时,才会出现真正的商业化解决方案。 但对企业而言,专有数据至关重要。数据安全咨询

    2024年02月11日
    浏览(48)
  • 社交直播语聊场景解决方案(一)商业化探索

    摘要 在过去几年的直播行业创业风口期中,直播的用户关注度疯狂增长,但用户质量却参差不齐。随着用户新鲜感一过,流失率变得相当严重,各大平台都在竭尽全力防御。然而,留住“凑热闹”的非直播受众用户并不是最关键的问题,而是要找到适合真实直播受众用户的商

    2024年02月09日
    浏览(44)
  • ChatGPT引领AI新浪潮,AIGC商业化启

      ChatGPT引领AI技术新一轮热潮,预示着NLP技术有望迅速进入平民化应用时代。ChatGPT引领AI新浪潮,AIGC商业化启_up.pdf: https://url39.ctfile.com/f/2501739-805099732-b78420?p=2096 (访问密码: 2096) 参考文献: [1]ChatGPT引领AI新浪潮,AIGC商业化启_up.pdf: https://url39.ctfile.com/f/2501739-805099732-b78420?

    2024年02月15日
    浏览(44)
  • 如祺出行冲刺自动驾驶商业化,人少的地方机会多?

    网约车,正在迎来让人“不明觉厉”的新一轮竞赛。 网约车监管信息交互系统的数据显示,截至今年6月30日,全国共有318家网约车平台公司取得网约车平台经营许可,环比增加5家;网约车监管信息交互系统6月份共收到订单信息7.63亿单,环比上升3.7%。 简单来看,供给和市场

    2024年02月14日
    浏览(43)
  • 斯坦福2023【FrugalGPT】减少大模型的商业化应用成本

    FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance 这篇文章主要是要解决如何降低调用大语言模型的成本(ChatGPT)。大模型API调用成本主要是三方面的:1. prompt cost(输入的prompt);2. generation cost(输出的部分);3. 每次调用的固定开销(网费等)。不用的模型之前的

    2024年02月06日
    浏览(59)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包