十分钟读完 Meta提出Llama 2模型的经典论文:Llama 2: Open Foundation and Fine-Tuned Chat Models

这篇具有很好参考价值的文章主要介绍了十分钟读完 Meta提出Llama 2模型的经典论文:Llama 2: Open Foundation and Fine-Tuned Chat Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

超越GPT-3:Meta AI发布新一代开源人工智能对话大模型Llama 2

引言:介绍 Llama 2 的发布背景和其在对话用例中的优化。

随着人工智能技术的飞速发展,大型语言模型(LLMs)已经成为了人类智能助手的代表,它们在需要专业知识的复杂推理任务中表现出色,涵盖了编程、创意写作等多个专业领域。这些模型通过直观的聊天界面与人类互动,迅速获得了广泛的应用和认可。

然而,尽管训练方法看似简单,但高昂的计算成本限制了LLMs的发展,仅有少数几家机构能够开发这类模型。虽然已有一些如BLOOM、LLaMa-1和Falcon等开源预训练LLMs发布,它们在性能上可以与GPT-3等闭源预训练竞争对手相媲美,但这些模型并不适合作为闭源“产品”LLMs(如ChatGPT、BARD和Claude)的替代品。这些闭源产品LLMs经过了大量的微调,以符合人类偏好,从而极大地提高了它们的可用性和安全性。这一步骤可能需要大量的计算和人工注释成本,且通常缺乏透明度或易于复制性,限制了社区在推进AI对齐研究方面的进步。

为了解决这一问题,我们开发并发布了Llama 2,这是一个由预训练和微调的LLMs组成的家族,Llama 2和Llama 2-Chat的规模高达70亿参数。在我们测试的有用性和安全性基准上,Llama 2-Chat模型通常比现有的开源模型表现更好。它们在我们进行的人类评估中也显示出与一些闭源模型相当的竞争力。我们采取了措施提高这些模型的安全性,使用了特定于安全的数据注释和调整,并进行了红队测试和迭代评估。此外,本文详细描述了我们的微调方法和提高LLM安全性的方法。我们希望这种开放性能够使社区能够复制微调的LLMs,并继续改进这些模型的安全性,为LLMs的更负责任的发展铺平道路。我们还分享了在开发Llama 2和Llama 2-Chat期间的新观察,例如工具使用和知识的时间组织的出现。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」 智能体自主完成,经人工审核后发布。

智能体传送门:赛博马良-AI论文解读达人

神奇口令: 小瑶读者 (前100位有效)文章来源地址https://www.toymoban.com/news/detail-819601.html

论文标题、机构、论文链接和项目地址(如有)。

论文标题: Llama 2: Open Foundation and Fine-Tuned Chat Models

机构: 由Meta AI的研究团队开发

论文链接: https://arxiv.org/pdf/2307.09288.pdf

项目地址: 项目的代码和模型可以在以下链接找到:

  • 模型和库资源:https://ai.meta.com/resources/models-and-libraries/llama/
  • GitHub项目地址:https://github.com/facebookresearch/llama

Llama 2 模型家族的构建:从预训练到微调的过程。

预训练数据的选择和处理

Llama 2 模型家族的构建始于精心挑选和处理预训练数据。预训练数据包括公开可用的多样化数据源,但排除了含有大量个人信息的网站数据。为了提高模型的知识水平并减少错误信息的生成,开发团队对数据进行了上采样,以增加事实性强的来源。此外,为了确保预训练的负责任,团队遵循了 Meta 的标准隐私和法律审查流程,没有使用任何 Meta 用户数据。在预训练数据中,英语占据了主导地位,但也包含了少量其他语言的文本。为了确保模型的安全性,开发团队在预训练阶段没有过度清洗数据,以避免过度泛化和潜在的人口群体意外过滤。

模型架构和训练细节

Llama 2 模型采用了标准的 Transformer 架构,并在 Llama 1 的基础上进行了改进,包括增加了上下文长度和采用了分组查询注意力(Grouped-Query Attention, GQA)以提高大型模型的推理可扩展性。模型使用了 AdamW 优化器,并采用了余弦学习率调度,以及权重衰减和梯度裁剪等技术。此外,为了减少预训练的碳足迹,团队努力提高了模型训练的效率,并通过 Meta 的可持续性项目直接抵消了所有排放。

预训练模型的评估

预训练模型在多个流行的学术基准测试中进行了评估,包括对事实真实性、有害内容和偏见的测试。Llama 2 在 TruthfulQA、ToxiGen 和 BOLD 等基准测试中的表现显示出在真实性和信息性方面的提升,以及在有害内容生成方面的降低。然而,预训练模型在有害内容指标上的表现并不优于其他模型,这可能是因为开发团队没有过度过滤预训练数据的结果。

安全性和有用性的追求:Llama 2-Chat 的优化策略。

监督式微调(SFT)的实施

Llama 2-Chat 的优化策略首先是通过监督式微调(Supervised Fine-Tuning, SFT)开始的。开发团队收集了数千个高质量的 SFT 数据示例,并发现使用较少但质量更高的自有注释数据可以显著改善结果。在 SFT 阶段,每个样本由一个提示和一个答案组成,模型使用自回归目标进行微调,只在答案令牌上进行反向传播。

人类反馈强化学习(RLHF)的应用

在 SFT 的基础上,Llama 2-Chat 通过人类反馈强化学习(Reinforcement Learning with Human Feedback, RLHF)进一步优化。RLHF 包括收集代表人类偏好的经验样本数据,训练奖励模型,并使用这些数据进行模型行为与人类偏好的进一步对齐。开发团队实施了二元比较协议来收集偏好数据,并专注于有用性和安全性。此外,为了解决有用性和安全性之间的潜在冲突,团队训练了两个独立的奖励模型,分别针对有用性和安全性进行优化。

多轮一致性的 Ghost Attention (GAtt) 技术

为了改善对多轮对话的控制,Llama 2-Chat 引入了 Ghost Attention(GAtt)技术。GAtt 是一种简单的方法,通过在微调数据中添加指令来帮助注意力在多个阶段中保持焦点。GAtt 使得对话控制可以在多个转换中保持一致,即使是在模型在早期 RLHF 版本中倾向于忘记初始指令的情况下。通过 GAtt,Llama 2-Chat 能够在长达 20 多轮的对话中保持对指令的一致性。

通过上述方法,Llama 2-Chat 在人类评估中的有用性和安全性方面均优于开源模型,并与商业闭源模型(如 ChatGPT)相当。然而,人类评估的结果受到提示集、评估指南主观性和评估者主观性的限制,因此在实际部署前,开发者应进行针对特定应用的安全测试和调整。

讨论:Llama 2-Chat 面临的挑战和未来的改进方向

1. 挑战

Llama 2-Chat,作为一系列预训练和微调的大型语言模型(LLMs),在对话用例中的优化表现虽然出色,但仍面临一些挑战。首先,与其他LLMs一样,Llama 2-Chat在预训练后停止了知识更新,这可能导致生成的信息过时或不准确。其次,模型有产生非事实性生成的倾向,例如提供未经证实的建议,以及倾向于幻觉,即生成与现实不符的内容。

此外,Llama 2-Chat在初期主要集中于英语数据,虽然模型在其他语言上有一定的熟练度,但由于非英语预训练数据的限制,其在英语以外的语言性能仍然脆弱,应谨慎使用。由于训练数据来源于公开在线数据集,模型可能会生成有害、冒犯性或有偏见的内容。尽管通过微调尝试减轻这些问题,但一些问题可能仍然存在,特别是对于那些没有公开数据集可用的语言。

不是所有使用AI模型的人都有良好的意图,对话AI代理可能被用于生成虚假信息或检索有关生物恐怖主义或网络犯罪等主题的信息。尽管已经努力调整模型以避免这些主题并减少这些用例的能力,但这些风险仍然存在。

在某些情况下,安全调整可能过于谨慎,导致Llama 2-Chat在回应某些请求时过于谨慎,或者在回应中包含过多的安全细节。

2. 改进方向

未来的改进方向包括继续微调和发布更新版本,以解决上述挑战。这可能涉及改进模型对非英语语言的处理能力,以及进一步提高模型在安全性和有用性方面的性能。此外,开发新技术,如Ghost Attention(GAtt),有助于控制多轮对话中的对话流程,也是未来改进的方向之一。

总结:Llama 2-Chat 的贡献和对开放式 AI 研究的影响

Llama 2-Chat作为一系列预训练和微调的大型语言模型,已经展示了与现有开源聊天模型相比的竞争力,以及与某些专有模型在评估集上的同等能力。通过详细阐述实现这些模型的方法和技术,特别是在有用性和安全性原则方面的对齐,Llama 2-Chat对社会的贡献显著,并且通过负责任地开放访问Llama 2和Llama 2-Chat,显著促进了研究的进展。

Llama 2-Chat的开放发布,当安全地进行时,将对社会产生净效益。尽管Llama 2是一项新技术,使用时携带潜在风险,但基于迄今为止的测试,它可能适合替代一些封闭的“产品”LLMs,如ChatGPT、BARD和Claude。通过对微调方法和提高LLM安全性的方法进行透明描述,Llama 2-Chat对开放式AI研究产生了积极影响,使社区能够复制微调LLMs,并继续改进这些模型的安全性,为LLMs的更负责任的发展铺平了道路。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」 智能体自主完成,经人工审核后发布。

智能体传送门:赛博马良-AI论文解读达人

神奇口令: 小瑶读者 (前100位有效)

到了这里,关于十分钟读完 Meta提出Llama 2模型的经典论文:Llama 2: Open Foundation and Fine-Tuned Chat Models的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 十分钟掌握Java本地缓存

    —————————— Yesterday is history, tomorrow is a mystery, but today is a gift. That is why it’s called the present. —————————— 缓存是Java开发中经常用到的组件,我们会使用缓存来存储一些 不经常改变 的 热点 数据,提高系统处理效率,其根本原因在于内存和硬盘读写速度的

    2024年02月05日
    浏览(62)
  • Django入门,十分钟学会登录网页

    我们假定你已经阅读了 安装 Django。你能知道 Django 已被安装,且安装的是哪个版本,通过在命令提示行输入命令 cmd黑窗口运行,不懂cmd百度一下 如果这是你第一次使用 Django 的话,你需要一些初始化设置。也就是说,你需要用一些自动生成的代码配置一个 Django project ——

    2024年01月24日
    浏览(63)
  • 十分钟python入门 正则表达式

    正则常见的三种功能,它们分别是:校验数据的有效性、查找符合要求的文本以及对文本进行切割和替换等操作。 所谓元字符就是指那些在正则表达式中具有特殊意义的专用字符 元字符大致分成这几类:表示单个特殊字符的,表示空白符的,表示某个范围的,表示次数的量

    2024年02月13日
    浏览(53)
  • 十分钟理解回归测试(Regression Testing)

    回归测试是一个系统的质量控制过程,用于验证最近对软件的更改或更新是否无意中引入了新错误或对以前的功能方面产生了负面影响(比如你在家中安装了新的空调系统,发现虽然新的空调系统可以按预期工作,但是本来亮的等却不亮了)。其主要目标是确保旨在改进的修

    2024年02月05日
    浏览(78)
  • 十分钟读懂Stable Diffusion运行原理

    AIGC 热潮正猛烈地席卷开来,可以说 Stable Diffusion 开源发布把 AI 图像生成提高了全新高度,特别是 ControlNet 和 T2I-Adapter 控制模块的提出进一步提高生成可控性,也在逐渐改变一部分行业的生产模式。惊艳其出色表现,也不禁好奇其背后技术。本文整理了一些学习过程中记录的

    2024年02月09日
    浏览(64)
  • 十分钟掌握 Vim 编辑器核心功能

    👉相信不论是前端还是后台多多少少都需要上到服务器上做一些操作,改改配置文件等,大多数 Linux 服务器默认都安装了 Vim 文本编辑器,因此如果还不会 Vim 的话,可能会被同事“耻笑”。 👉如果本文对你有所帮助,请点个👍 吧。 Vim是什么? Vim 是从 vi 发展出来的一个

    2024年02月16日
    浏览(59)
  • 十分钟玩转3D绘图:WxGL完全手册

    WxGL是一个基于PyOpenGL的跨平台三维数据快速可视化工具包,提供类似Matplotlib风格的应用方式。WxGL也可以集成到wxPython或PyQt6中实现更多的功能和控制。 WxGL提供了一套简洁易用、对用户友好的API,将OpenGL的复杂概念封装起来,使得用户可以更加专注于数据的处理,而无需在3

    2024年01月22日
    浏览(66)
  • 十分钟实现 Android Camera2 相机预览

    因为工作中要使用 Android Camera2 API ,但因为 Camera2 比较复杂,网上资料也比较乱,有一定入门门槛,所以花了几天时间系统研究了下,并在 CSDN 上记录了下,希望能帮助到更多的小伙伴。 Camera2 API 的包名是 android.hardware.camera2 ,是 Android 5.0 后推出的一套调用摄像头设备的接口

    2024年02月13日
    浏览(70)
  • 十分钟实现 Android Camera2 视频录制

    因为工作中要使用 Android Camera2 API ,但因为 Camera2 比较复杂,网上资料也比较乱,有一定入门门槛,所以花了几天时间系统研究了下,并在 CSDN 上记录了下,希望能帮助到更多的小伙伴。 上两篇文章使用 Camera2 实现了相机预览和拍照的功能,这篇文章我们接着上文,来实现

    2024年02月11日
    浏览(48)
  • 十分钟实现 Android Camera2 相机拍照

    因为工作中要使用 Android Camera2 API ,但因为 Camera2 比较复杂,网上资料也比较乱,有一定入门门槛,所以花了几天时间系统研究了下,并在 CSDN 上记录了下,希望能帮助到更多的小伙伴。 上篇文章 我们使用 Camera2 实现了相机预览的功能,这篇文章我们接着上文,来实现 Cam

    2024年02月11日
    浏览(63)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包