Backpack Language Models

这篇具有很好参考价值的文章主要介绍了Backpack Language Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列的文章,针对《Backpack Language Models》的翻译。

摘要

我们介绍了Backpacks:一种新的神经架构,它将强大的建模性能与可解释性和控制性的接口结合在一起。背包为词汇表中的每个单词学习多个非上下文意义向量,并将序列中的一个单词表示为该序列中意义向量的上下文相关、非负线性组合。我们发现,经过训练后,感觉向量会发生专门化,每个向量都会编码单词的不同方面。我们可以通过检查感向量在输出空间上的(非上下文、线性)投影来解释感向量,并干预这些可解释的挂钩,以可预测的方式改变模型的行为。我们在OpenWebText上训练了一个170M参数的Backpack语言模型,匹配GPT-2小型(124M参数)Transformer的损失。在词汇相似性评估中,我们发现Backpack感觉向量甚至优于6B参数Transformer LM的单词嵌入。最后,我们提出了一些简单的算法,这些算法对感觉向量进行干预,以执行可控的文本生成和去偏。例如,我们可以编辑意义词汇,使其更倾向于某个主题,或者将性别偏见的来源定位为意义向量,并在全球范围内抑制这种意义。

1 引言

2 背包架构

3 带有背包的语言模型

4 实验训练背包LM

5 感知向量中的涌现结构

6 用于控制的感知向量

7 相关工作

8 讨论

9 结论

非上下文word2vec嵌入开创了NLP的现代深度学习研究,并具有迷人的几何结构。现在,研究主要转向了单片表示,首先来自RNN,现在来自Transformers。我们的工作表明,在一个单一的模型中,我们可以拥有丰富的词汇结构和干预,以及强大的上下文表现。

11 不足

Backpack语言模型是否会继续随着参数和数据进行扩展,并在更大的模型规模上成为Transformers的可行替代品,这是一个根本的不确定性。在这项研究中,我们无法扩大规模,希望未来的工作将测试更大的模型规模。类似地,我们没有验证Backpack语言模型在多种语言中表现良好。我们也不考虑,例如,在其他任务中微调Backpack,或屏蔽语言建模——还有很多可能的用途有待验证。
我们没有研究使用Backpack的一个潜在障碍是,在形态结构比英语丰富的语言中,标记化的影响——Backpack结构是否适合为这些语言建模?这可能很困难,因为直观地说,背包的可解释性和控制与单个token的语义有关。即使在英语中,不代表一个单词的小单词也很难解释。我们希望提供的是一组足够的实验来激励对背包的进一步探索。

12

本文描述并发布了一个在文本互联网的大部分未经过滤的部分(主要是英语部分)上训练的开放域语言模型,并描述了解释和控制该模型的方法。任何可以用来帮助理解和指导模型生成的控制方法都可以用来更有效地生成有毒或非法内容。尽管如此,我们确实希望,总的来说,深入了解Backpack语言模型的好处是朝着正确的方向迈出的一步。特别是,基于背包结构的解释可能能够深入了解模型行为背后的机制,从而提高透明度。
我们将发布的具体模型,包括170M个参数,在生成文本方面比目前许多公开和商业可用的语言模型要小得多,性能也较差,因此我们预计这些工件的发布不会产生相当大的负面影响。然而,我们发布的代码可以被公司或政府用来或复制来训练更大的背包LMs。文章来源地址https://www.toymoban.com/news/detail-670775.html

到了这里,关于Backpack Language Models的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 大模型 LLM 综述, A Survey of Large Language Models

    大模型 LLM 综述, A Survey of Large Language Models

    一般认为NLP领域的大模型=10 Billion参数(也有人认为是6B、7B, 工业界用, 开始展现涌现能力); 经典大模型有GPT-3、BLOOM、Flan-T5、GPT-NeoX、OPT、GLM-130B、PaLM、LaMDA、LLaMA等; 大模型时间线, 图来自A Survey of Large Language Models,下同。 2.1 涌现 涌现, emerge(abilities), 即一般指在大模型中出现

    2024年02月08日
    浏览(7)
  • LLM 大模型实用指南 | The Practical Guides for Large Language Models
  • 【人工智能】大模型LLM技术生态全景图 | The Foundation Large Language Model (LLM) & Tooling Landscape

    目录 “Software is eating the world…”  “软件正在吞噬世界...”~ Marc Andreessen ~ 马克·安德森 Every company is a software company…soon every company will be an AI company.每家公司都是软件公司...很快,每家公司都将成为人工智能公司。 Everybody is using software…soon everybody will directly be using AI.每个

    2024年02月08日
    浏览(8)
  • LLM(Large Language Model)大语言模型

    语言模型够大,训练的语料够多,涌现出推理能力飙升等   Generative Pre-trained Transformer 3(GPT-3)是最著名的LLM之一,拥有1750亿个参数。该模型在文本生成、翻译和其他任务中表现出显著的性能,在全球范围内引起了热烈的反响,目前OpenAI已经迭代到了GPT-4版本 Generative :能产

    2024年02月15日
    浏览(8)
  • Language Models as Knowledge Embeddings:语言模型用作知识嵌入 IJCAI 2022

    Language Models as Knowledge Embeddings:语言模型用作知识嵌入 IJCAI 2022

    1)基于结构的知识嵌入 进一步分成基于翻译的模型和基于语义匹配的模型 基于翻译的模型采用基于距离的评分函数,TransE把实体和关系嵌入到一个维度为d的共享向量空间中;TransH,TransR,RotatE. 语义匹配模型采用基于相似性的评分函数,RESCAL,DistMult,CoKE. 2)基于描述的知识嵌入

    2024年02月07日
    浏览(10)
  • 大型语言模型综述,非常详细,格局打开!A Survey of Large Language Models

    大型语言模型综述,非常详细,格局打开!A Survey of Large Language Models

    返回论文和资料目录 论文地址 项目地址 讲得通俗易懂,且格局拉满!基本覆盖了自ChatGPT以来的AI比较火的事件,还多次提到强人工智能AGI(人工通用智能)。对近几年的大型语言模型( Large Language Models)进行了详细介绍。非常建议感兴趣大模型和强人工智能的读者阅读!!

    2024年02月08日
    浏览(7)
  • 自然语言处理从入门到应用——LangChain:模型(Models)-[大型语言模型(LLMs):缓存LLM的调用结果]

    分类目录:《大模型从入门到应用》总目录 LangChain系列文章: 基础知识 快速入门 安装与环境配置 链(Chains)、代理(Agent:)和记忆(Memory) 快速开发聊天模型 模型(Models) 基础知识 大型语言模型(LLMs) 基础知识 LLM的异步API、自定义LLM包装器、虚假LLM和人类输入LLM(

    2024年02月16日
    浏览(19)
  • 《Training language models to follow instructions》论文解读--训练语言模型遵循人类反馈的指令

    《Training language models to follow instructions》论文解读--训练语言模型遵循人类反馈的指令

    目录 1摘要 2介绍 方法及实验细节 3.1高层次方法论 3.2数据集 3.3任务 3.4人体数据收集  3.5模型 3.6评价 4 结果 4.1 API分布结果 4.2公共NLP数据集的结果 4.3定性结果 问题 1.什么是rm分数 更多资料 使语言模型更大并不能使它们更好地遵循用户的意图。例如,大型语言模型可能生成不

    2024年01月24日
    浏览(12)
  • LLM:Scaling Laws for Neural Language Models粗读

    LLM:Scaling Laws for Neural Language Models粗读

    论文:https://arxiv.org/pdf/2001.08361.pdf 发表:2020 摘要 1:损失与模型大小、数据集大小以及训练所用计算量成比例,其中一些趋势跨越了七个量级以上。 2:网络宽度或深度等其他架构细节在很大范围内影响较小。 3:模型/数据集大小和训练速度与模型大小的依赖关系由简单的方

    2024年01月16日
    浏览(7)
  • LLM:Scaling Laws for Neural Language Models 理解

    LLM:Scaling Laws for Neural Language Models 理解

    核心结论 1:LLM模型的性能主要与计算量C,模型参数量N和数据大小D三者相关,而与模型的具体结构 (层数/深度/宽度) 基本无关。三者满足:   C ≈ 6ND 2. 为了提升模型性能,模型参数量N和数据大小D需要同步放大, 但模型和数据分别放大的比例还存在争议。(参见下篇文章)

    2024年01月16日
    浏览(5)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包