论文笔记--LIMA: Less Is More for Alignment

这篇具有很好参考价值的文章主要介绍了论文笔记--LIMA: Less Is More for Alignment。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 文章简介

  • 标题:LIMA: Less Is More for Alignment
  • 作者:Zhou, Chunting, et al.
  • 日期:2023
  • 期刊:arxiv preprint

2. 文章概括

  文章基于表面对齐假设(superfacial alignment hypothesis)展开了一系列的数值实验,证明了大模型的能力是在与训练过程中学习得到,而对齐过程只是为了教会大模型一种符合人类偏好的风格/格式。在此假设基础上,文章训练了一个6B参数的LLaMA模型:LIMA。LIMA只采用了1000条对齐数据,效果已经追平或超过Alpaca,Davinci003,BARD和ClAUDE大模型。

3 文章重点技术

3.1 表面对齐假设(Superfacial Alignment Hypothesis)

  文章定义了表明对齐假设:大模型的知识和能力几乎全部在预训练阶段获得的,对齐只是教会模型以何种子分布来和用户进行交互。形象一点来说,pretraining阶段就是知识积累、学习阶段,而预训练阶段则是学习如何演讲、教学等技巧。

3.2 对齐数据

  • 社区的问答数据:保证样本的多样性
    • stackExchange:stackExchange网站共计179个社区,我们从中选择包括编程、数学、物理等社区在内的75个STEM exchanges(communities)和99个其它的社区,放弃5个社区。我们从每个社区随机抽样几个self-contained问题(即问题包含在标题中),得到不同领域的样本共计200个,并选择每个问题的top 回答。为了保持一致的风格,我们将下述几种情况的答案进行了过滤:1)太短的答案 2)太长的答案 3)第一人称作答的答案 4)参考其它答案的答案(出现关键词as mentioned, stack exchange等)。此外,我们一出了图像、超链接和其它HTML tag,只保留代码和列表。我们随机采用一部分问题的title作为prompt(因为是self-contained,问题包含在title中),另一部分问题用问题描述作为prompt。
    • wikiHow:wikiHow包含了24万how-to文章,比如"How to update Microsoft Edge?", "How to tie a tie?"等问题及回答。我们从该网站的19个不同类别下依此采样1篇文章以保证多样性,最终得到200篇how-to文章。这里直接使用标题"How to …"作为prompt,对应的回答作为response即可。
    • Pushshift Reddit:Reddit是一个类似贴吧的网站,但相比于前两个网站,Reddit里面受欢迎的回答往往是幽默的、讽刺的等。为此,我们选择两类样本:1)r/AskReddit: 70个self-contained标题作为prompt,用作test set(因为top回答不一定可靠) 2)r/WritingPrompts:150个科幻故事的前提,选择每个前提对应的高质量的补全回答作为response,添加到training set。
  • 手动编写的示例
    • 我们将作者划分为GroupA和GroupB,每组分别创作250个prompts,从GroupA中选择200个放入training set,50个放入dev set(不参与训练过程);GroupB中过滤后的230个prompts放入test set。
    • 我们自己编写了200个高质量回答的训练样本。
    • 我们增加了13个有害或恶意的样本到training set,并精心设计了拒绝回答这些样本的答案。增加30个类似样本在test set中
    • 我们从SNI数据集中随机采样50个训练样本放入training set,包括文本摘要、风格转换各种NLP任务。

3.3 训练

  在LLaMA[1]语言模型的基础上,我们用上述prompts对齐数据进行微调,得到我们的LIMA(Less Is More for Alignment)模型。

4 数值实验

  我们采用了两种方法评估LIMA:针对每组prompt,让LIMA与其它语言模型(Alpaca,DaVinci003,Bard,Claude,GPT-4)同时生成回答,人类去评估哪一个更好;针对每组prompt,让LIMA与其它语言模型(Alpaca,DaVinci003)同时生成回答,GPT-4去评估哪一个更好。下图可以看到,无论是人类还是GPT-4,LIMA在50%以上的情况是优于或等于Alpaca和DaVinci003的。值得注意的是,GPT-4有19%的情况下认为LIMA优于GPT-4自己产生的答案。
论文笔记--LIMA: Less Is More for Alignment

5. 文章亮点

  文章基于表面对齐假设,给出了一种仅基于1000个对齐样本微调的大模型LIMA。LIMA在人类偏好度/GPT-4偏好度上的表现优于Alpaca 55B和DaVinci003。文章认为对齐样本并非越多越好,对齐的能力可能还与样本的多样性和质量有关,这可能是下一代语言模型对齐可以重点优化的方向。

5. 原文传送门

LIMA: Less Is More for Alignment

6. References

[1] 论文笔记–LLaMA: Open and Efficient Foundation Language Models文章来源地址https://www.toymoban.com/news/detail-489293.html

到了这里,关于论文笔记--LIMA: Less Is More for Alignment的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Linux文本处理(cat、more、head、less、tail)

    可以用来显示文本文件的内容(类似于 DOS 下的 type 命令),也可以把几个文件内容附加到另一个文件中,即连接合并文件。 cat 命令的基本格式如下: [root@localhost ~]# cat [选项] 文件名 或者 [root@localhost ~]# cat 文件1 文件2 文件3   这两种格式中,前者用于显示文件的内容,常

    2024年02月15日
    浏览(74)
  • 论文笔记 | 【CVPR-2023】Activating More Pixels in Image Super-Resolution Transformer

    抛砖引玉了,如有不同意见欢迎讨论。 在超分Transformer中激活更多像素。 澳门大学、中科大、上海人工智能实验室的,董超老师的团队。 CVPR2023。 LAM:一种为SR任务设计的归因方法,能显示模型在进行超分辨率重建的过程中哪些像素起到了作用。一般来说,被利用像素的范围

    2024年02月11日
    浏览(47)
  • 【Linux】:文件查看 stat、cat、more、less、head、tail、uniq、wc

    🎥 屿小夏 : 个人主页 🔥个人专栏 : Linux深造日志 🌄 莫道桑榆晚,为霞尚满天! 在Linux系统中,文件是信息的核心。深入了解和操作文件内容是每个系统管理员和开发者必备的技能。本文将为您揭开Linux文件魔法的面纱,介绍一系列强大的命令,包括stat、cat、more、less、

    2024年04月28日
    浏览(40)
  • Linux:文件查看:《cat》《more》《less》《head》《tail》《wc》《grep》使用方法

    同样是查看为什么要有这么多查看方法??? 因为他们的用法和扩功能肯定不一样,选择与你需要匹配的一条命令可以节省时间的同时更快速 cat + 文件 可以直接查看文件内的内容  直接可以查看文件内的内容 要直接看更多的文件以空格隔开的方式一起查看文件 more + 文件

    2023年04月26日
    浏览(42)
  • 论文阅读:TinySAM: Pushing the Envelope for Efficient Segment Anything Model-文章内容阅读

    论文标题: TinySAM: 极致高效的分割一切模型 论文地址:https://arxiv.org/pdf/2312.13789.pdf 代码地址(pytorch):https://github.com/xinghaochen/TinySAM 详细论文解读:TinySAM:极致高效压缩,手机就能实时跑的分割一切模型 - 知乎 (zhihu.com)  目录 文章内容解析  概括 文章的观点 技术创新解

    2024年01月17日
    浏览(54)
  • Is Mapping Necessary for Realistic PointGoal Navigation 论文阅读和代码分析

    题目 :Is Mapping Necessary for Realistic PointGoal Navigation? 作者 :Ruslan Partsey、 Erik Wijmans 代码地址 :https://rpartsey.github.io/pointgoalnav/ 来源 :CVPR 时间 :2022 目标:证明显式地图不是成功导航的必要条件。 对比实验 数据集(模拟器):无地图导航模型的标准数据集Gibson。 模拟器和现

    2024年02月15日
    浏览(34)
  • 行人重识别优化:Pose-Guided Feature Alignment for Occluded Person Re-Identification

    文章记录了ICCV2019的一篇优化遮挡行人重识别论文的知识点:Pose-Guided Feature Alignment for Occluded Person Re-Identification 论文地址: https://yu-wu.net/pdf/ICCV2019_Occluded-reID.pdf PCB结构,将特征图F按照垂直方向水平划分为6个part,每个part引入一个分类损失。 从全局特征中提取局部(未遮挡

    2024年02月03日
    浏览(43)
  • 论文阅读之Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment

    Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment 这篇文章的主要内容是关于多模态语义理解的研究,特别是通过对比学习进行跨模态特征对齐的方法。文章提出了一种新的CLIP(Contrastive Language-Image Pre-training)引导的对比学习方法,用于多模态特征对齐(CLFA,

    2024年04月11日
    浏览(39)
  • Attention Is All Your Need论文笔记

    提出了一个新的简单网络架构——transformer,仅仅是基于注意力机制,完全免去递推和卷积,使得神经网络训练地速度极大地提高。 We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. 用多头注意力取代推导层

    2024年02月19日
    浏览(70)
  • 【论文阅读笔记】Attention Is All You Need

      这是17年的老论文了,Transformer的出处,刚发布时的应用场景是文字翻译。BLUE是机器翻译任务中常用的一个衡量标准。   在此论文之前,序列翻译的主导模型是RNN或者使用编解码器结构的CNN。本文提出的Transformer结构不需要使用循环和卷积结构,是完全基于注意力机制

    2024年04月13日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包