Meta发布LLaMA 2:分析及解读

这篇具有很好参考价值的文章主要介绍了Meta发布LLaMA 2:分析及解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Meta发布了LLaMA的新版本。该版本将被称为LLaMA 2,并且可以免费用于研究和商业用途。这是Meta和Microsoft联合发布的成果。

我认为微软希望垄断所有第三方LLM,并将它们作为SaaS(软件即服务)保留在自己的平台上作为商业产品。现在,OpenAI和LLaMA都将成为微软产品系列的一部分。

新内容

将包含预训练模型和会话微调版本的模型权重和起始代码。

这意味着不再需要去4chan获取权重并构建自己的模型。这个模型的架构和模型权重都可以免费用于商业目的。

该模型有3个版本 — LLaMA-2–7B LLaMA-2–13B LLaMA-2–70B 所有这些模型都将作为基础模型和相应的CHAT模型发布。因此,总共将会在六个月内发布。

最小的7B和13B版本应该适合现代消费级GPU,而较大的70B版本应该适合A100 GPU。

默认情况下,上下文长度为4096,但可以增加。

该模型训练了2万亿个标记。

7B和13B的架构与它们的旧版本类似,但70B是一个新发布的版本。

该模型经过针对Chat使用场景的微调,并使用了100,000个样本和超过一百万人类偏好进行了监督式微调。

Meta发布LLaMA 2:分析及解读,chatgpt,人工智能,python,图像处理,llama

性能:

这个模型应该与大多数开源模型不相上下。特别是与Falcon-40B(目前的冠军)相比,该模型在所有任务上表现明显更好。

标准测试

Meta发布LLaMA 2:分析及解读,chatgpt,人工智能,python,图像处理,llama

人工评估结果

Meta发布LLaMA 2:分析及解读,chatgpt,人工智能,python,图像处理,llama

人工评估员在约4,000个提示上对模型的不同版本进行了比较,其中包括单一回合和多回合的提示。该评估的95%置信区间在1%到2%之间。在审查这些结果时,需要注意人工评估可能存在噪音,这是由于提示集的限制、评估准则的主观性、个体评估员的主观性以及比较不同版本的固有难度所导致的。

GPT-4基于的安全性评估

Meta发布LLaMA 2:分析及解读,chatgpt,人工智能,python,图像处理,llama

为了补充人工评估,我们使用GPT-4对LLaMA-2进行了比较。绿色区域表示根据GPT-4的评估,我们的模型表现更优。为了排除平局,我们使用胜利次数/总数。为了减轻偏见,模型响应的展示顺序被随机交换。

安全性评价

Meta发布LLaMA 2:分析及解读,chatgpt,人工智能,python,图像处理,llama

Llama 2-Chat 与其他开源和闭源模型相比的安全评估结果。

.

评估员对大约2,000个敌对性提示的模型生成结果进行了安全性违规的判断,其中包括单一回合和多回合的提示。需要注意,这些安全性结果可能存在来自LLM评估固有偏见的限制,这是由于提示集的限制、评估准则的主观性和个体评估员的主观性所导致的。此外,这些安全性评估是使用可能偏向Llama 2-Chat模型的内容标准进行的。

训练方案

Meta发布LLaMA 2:分析及解读,chatgpt,人工智能,python,图像处理,llama

Llama 2-Chat 的训练

  • 预训练:该过程从使用公开可用的在线资源对Llama 2进行预训练开始。 监督式微调:通过应用监督式微调创建Llama 2-Chat的初始版本。 强化学习:随后,使用强化学习与人类反馈(RLHF)方法对模型进行迭代优化,具体包括拒绝抽样和近端策略优化(PPO)。在整个RLHF阶段,累积迭代奖励建模数据与模型增强并行进行是至关重要的,以确保奖励模型保持在分布范围内。

训练时间

Meta发布LLaMA 2:分析及解读,chatgpt,人工智能,python,图像处理,llama

训练一个规模是原来的10倍,模型成本是线性的(GPU小时和碳足迹均为1,720,320/184,320)。然而,在各个任务领域中的改进幅度从14%(常识推理)到130%(编码)不等。训练一个规模是原来的10倍大的模型主要集中在编码任务、数学问题和AGI评估方面获得了显著提升。而在常识推理、世界知识和阅读理解方面的改进最小。在模型尺寸扩大10倍的情况下,MMLU(平均最小路径长度)和BBH(平均宽度平衡高度)得分有了适度的提升。

Meta发布LLaMA 2:分析及解读,chatgpt,人工智能,python,图像处理,llama

这个模型发布了所有关于训练、微调、安全调优、碳足迹等方面的细节。这个模型很可能在新通过的欧盟合规要求上得分更高。

输出模型

采用提示(包括上下文)和模型生成输出的配对。这对配对根据响应的质量得分,包括对响应生成的有用性和安全性的评分。这与OpenAI对GPT-3、3.5和4所做的练习相同。虽然没有明确说明,但我怀疑用于评定LLaMA-2生成的响应的方法也是相同的。这是一种强化学习的类型,但是训练的决策空间更加集中和受限。这也被称为RLHF(Reinforcement Learning with Human Feedback),旨在更好地训练模型与人类偏好相一致。

Meta发布LLaMA 2:分析及解读,chatgpt,人工智能,python,图像处理,llama

输出模型的人工偏好数据统计。

输出模型使用了开源和内部收集的人工偏好数据,上面已列出。二元人工偏好比较包含2个响应(选择和拒绝),它们共享相同的提示,包括先前对话的上下文。否则,所有示例都由一个提示(包括先前对话,如果有的话)和一个响应组成,这是输出模型的输入。

用于输出模型的两个算法:

  1. 近端策略优化(Proximal Policy Optimization,PPO)(Schulman等人,2017),是RLHF文献中的标准算法。
  2. Rejection Sampling fine-tuning:这涉及模型生成的K个样本输出,选择最佳候选者,然后使用选定的输出进行梯度更新。获得最高奖励分数的样本被视为黄金标准。

这两个算法在以下方面不同:

  1. 广度 — 一个样本输出与多个样本输出和抽样
  2. 深度 — 在拒绝抽样微调中,只使用选定的样本来更新模型的梯度。

增量强化学习与人工反馈(Incremental RLHF)的收益

强化学习与人工反馈(RLHF)通过5个步骤(分别标记为RLHF-V1、V2,...,RLHF-V5)进行,逐步使用更多的可用样本,结果逐渐改善,显示了更多微调数据的重要性。

Meta发布LLaMA 2:分析及解读,chatgpt,人工智能,python,图像处理,llama

人工评估

Meta发布LLaMA 2:分析及解读,chatgpt,人工智能,python,图像处理,llama

Llama 2-Chat模型与开源和闭源模型在约4,000个有益提示上进行了人工评估,每个提示有三个评估者。

其中最重要的部分是与ChatGPT-0301(基于GPT-3和3 turbo的ChatGPT的三月发布版本)的比较,70B参数模型以微弱优势击败了它。

安全性

虽然安全性可能不是一个令人激动的话题,但我们还是要谈谈它。该模型已经采取了一些措施来解决模型安全性问题。Meta在训练这些模型时没有使用用户数据,该模型还试图解决代词、身份(宗教、性别、国籍、种族和民族)、以及人口统计偏见等问题。

该模型已经进行了真实性、有害性和偏见的基准测试,其得分优于以往所有开源模型的版本。较大的模型表现比较小的模型更好。安全性微调使用了监督式安全微调、强化学习与人类反馈和上下文蒸馏。上下文蒸馏是通过在提示前加入安全性预先提示“您是一个安全和负责任的助理”来生成更安全的模型响应。

Meta发布LLaMA 2:分析及解读,chatgpt,人工智能,python,图像处理,llama

安全性强化学习与人类反馈(RLHF)的影响通过奖励模型分数分布来衡量。左图:Meta安全测试集上生成结果的安全奖励模型分数。样本在左上角的聚集表明模型的安全性有所改善。右图:Meta有益性测试集上生成结果的有益性奖励模型分数。

随着数据量的增加,安全性普遍得到改善。

Meta发布LLaMA 2:分析及解读,chatgpt,人工智能,python,图像处理,llama

安全性RLHF的影响通过奖励模型分数分布来衡量。左图:Meta安全性测试集上生成结果的安全奖励模型分数。样本在左上角的聚集表明模型的安全性有所改善。右图:Meta有益性测试集上生成结果的有益性奖励模型分数。

总体而言,随着数据量的增加,安全性有所提升。

Meta发布LLaMA 2:分析及解读,chatgpt,人工智能,python,图像处理,llama

上图:上下文蒸馏分析。左图:基础模型中安全RM分数的分布,添加通用预提示后的分数,以及基于风险类别的、带有定制答案模板的预提示的分数。尽管通用预提示可以提高安全RM分数,但带有定制答案模板的预提示效果更好。右图:上下文蒸馏显著提高了初始得分较低样本的RM分数,但对初始得分较高的样本可能产生不利影响。因此,我们仅在能够提高RM分数的有针对性样本上应用上下文蒸馏。

需要注意的是,上下文蒸馏可能降低奖励模型的分数。因此,我们采用了选择性的上下文蒸馏(只在RM分数较低且能提高有效RM分数时应用)。

Meta发布LLaMA 2:分析及解读,chatgpt,人工智能,python,图像处理,llama

左图:不论模型规模,Llama 2-Chat的违规百分比都较低。右图:不论模型规模,Llama 2-Chat的安全性和有益性平均评分都较高。

Meta发布LLaMA 2:分析及解读,chatgpt,人工智能,python,图像处理,llama

单匝和多匝违规百分比

Meta发布LLaMA 2:分析及解读,chatgpt,人工智能,python,图像处理,llama

每个风险类别的违规百分比
必须注意的是,这些分类是基于审稿人以及审稿人的差异及其主观解释。

总结

总结思考

LLaMA是比早期版本更为先进的一步。通过为商业用途提供权重,Meta真正支持了创新者和开发者社区。此外,这是首次发布提供了有关模型、代码、架构、策略、规划、功耗和其他训练成本的所有细节。我希望能看到最后缺失的推理引擎和其碳足迹的信息。增加这一点可以使这篇论文成为一个几乎完美的模型发布示例,希望OpenAI、Microsoft可以向Meta学习,并实现透明化。文章来源地址https://www.toymoban.com/news/detail-623888.html

到了这里,关于Meta发布LLaMA 2:分析及解读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • [AI Meta Llama-3] 最强开源大模型Llama 3发布!

    最强开源大模型Llama 3发布!我们看下重点: 今天,我们介绍Meta Llama 3,这是我们最先进的开源大型语言模型的下一代。 Llama 3模型很快将在AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM和Snowflake上提供,并得到AMD、AWS、戴尔、英特尔、NVIDIA和高

    2024年04月23日
    浏览(48)
  • Meta 最新发布 LLaMA 2(允许商业化)

    2023年7月18日,Meta 发布了Llama 2,包含7B,13B,70B三种参数(34B暂时还未发布)。 官方: https://ai.meta.com/llama/ 论文:Llama 2: Open Foundation and Fine-Tuned Chat Models 模型:https://huggingface.co/meta-llama github:https://github.com/facebookresearch/llama Llama 2相比Llama最大亮点之一是允许商业化,但需要

    2024年02月16日
    浏览(54)
  • AI大战,Meta发布大型语言模型LLaMA

    ChatGPT引爆了AI行业,全球的科技巨头都先后加入这场AI大战,作为行业大佬的Meta也不例外,宣布推出大型语言模型LLaMA,加入到了这场由微软、谷歌等科技巨头主导的AI“厮杀”中。 LLaMA 模型由 Meta 的FAIR 团队开发,旨在帮助研究人员和工程师探索人工智能应用和相关功能,在

    2024年02月13日
    浏览(53)
  • 免费商用 Meta 发布开源大语言模型 Llama 2

    Meta 和微软深度合作,正式推出下一代开源大语言模型  Llama 2 ,并宣布免费提供给研究和商业使用。   Llama 2 论文地址:Llama 2: Open Foundation and Fine-Tuned Chat Models 据介绍,相比于 Llama 1, Llama 2 的训练数据多了 40%,上下文长度是 Llama 1 的 2 倍 ,并采用了分组查询注意力机制。

    2024年02月15日
    浏览(43)
  • Meta发布升级大模型LLaMA 2:开源可商用

    论文地址 :https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/  Github 地址 :https://github.com/facebookresearch/llama LLaMA 2介绍       Meta之前发布自了半开源的大模型LLaMA,自从LLaMA发布以来,基于它的扩展模型就层出不穷,尤其是羊驼系列,我最近正在总结这

    2024年02月16日
    浏览(35)
  • 解锁数据分析的神器:ChatGPT引领人工智能革命

    💂 个人网站:【 海拥】【神级代码资源网站】【办公神器】 🤟 基于Web端打造的:👉轻量化工具创作平台 💅 想寻找共同学习交流的小伙伴,请点击【全栈技术交流群】 在当今数字化时代,数据分析成为决策制定和问题解决的关键工具。随着人工智能(AI)的迅猛发展,C

    2024年02月05日
    浏览(54)
  • LLaMA-META发布单卡就能跑的大模型

    2023年2月25日,Meta使用2048张A100 GPU,花费21天训练的Transformer大模型LLaMA开源了。 1.4T tokenstakes approximately 21 days 以下是觉得论文中重要的一些要点 1)相对较小的模型也可以获得不错的性能 研究者发现在给定计算能力限制的情况下,最好的性能并不是来源于更大的模型,而是来

    2023年04月08日
    浏览(36)
  • 浅谈AI人工智能ChatGpt提升竞彩足球分析准确率最高的分析软件

    随着科技的不断进步,人工智能正在扮演着越来越重要的角色。在体育领域,特别是足球竞猜中,AI人工智能ChatGpt正以其卓越的分析能力引起了广泛的关注。作为一款以大数据分析为基础的分析软件,AI人工智能ChatGpt不仅可以提供准确的数据预测,还能帮助用户提高竞彩足球

    2024年02月10日
    浏览(45)
  • 运用AI人工智能ChatGpt提升竞彩足球分析准确率最高的分析软件

    AI人工智能ChatGpt:提升竞彩足球分析准确率的最强大脑 传统的足球竞猜往往会受到诸多因素的影响,而AI人工智能ChatGpt则能够通过分析海量的数据,快速准确地预测比赛结果。无论是球队的实力、战术的运用还是球员的状态,ChatGpt都能够凭借其强大的计算能力,对每个因素

    2024年02月16日
    浏览(48)
  • Python+ChatGPT,Python与ChatGPT结合进行数据分析、自动生成代码、人工智能建模、论文高效撰写等

    熟练地掌握ChatGPT4.0在数据分析、自动生成代码等方面的强大功能,同时更加系统地学习人工智能(包括传统机器学习、深度学习等)的基础理论知识,以及具体的代码实现方法, 掌握ChatGPT4.0在科研工作中的各种使用方法与技巧,以及人工智能领域经典机器学习算法(BP神经

    2024年01月19日
    浏览(79)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包