论文浅尝 | 记忆力强还是健忘?深入探究语言模型的知识记忆机制

这篇具有很好参考价值的文章主要介绍了论文浅尝 | 记忆力强还是健忘?深入探究语言模型的知识记忆机制。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文浅尝 | 记忆力强还是健忘?深入探究语言模型的知识记忆机制,语言模型,人工智能,自然语言处理

笔记整理:方润楠,浙江大学硕士,研究方向为自然语言处理

链接:https://arxiv.org/abs/2305.09144

摘要

近年来,大规模预训练语言模型展示出惊人的记忆能力,相比之下,未经预训练的普通神经网络存在着灾难性遗忘的问题。为了研究这种记忆与遗忘出现的原因,并探求语言模型的记忆机制,作者通过控制模型类别,学习策略,知识分布等方面进行了全面实验。作者发现:1)普通语言模型容易遗忘;2)预训练能够使语言模型记忆力变强;3)知识相关性和多样性会影响记忆形成。

总体介绍

论文浅尝 | 记忆力强还是健忘?深入探究语言模型的知识记忆机制,语言模型,人工智能,自然语言处理

预训练语言模型的出现,相对于之前传统神经网络模型,展现出了强大的记忆能力,作者为了探究语言模型的记忆机理,采用的知识问答的测试过程,使用从Wikidata中抽取的LAMA数据集三元组作为事实知识进行学习,一共包括23种关系,每种关系包括10000个知识,在训练过程中,将知识三元组转化为自然语言进行学习,如<Steve Jobs, birthplace, California>转化为“Steve Jobs was born in California。通过事实知识的询问进行判断模型是否记住了之前的知识,并且绘制了Figure 1所示的记忆曲线,并根据曲线得出了3个结论,

1)普通语言模型容易遗忘;

2)预训练能够使语言模型记忆力变强;

3)知识相关性和多样性会影响记忆形成。

普通语言模型

论文浅尝 | 记忆力强还是健忘?深入探究语言模型的知识记忆机制,语言模型,人工智能,自然语言处理

在普通语言模型上进行知识记忆实验,如上图,虚线为目标知识,得到对应的知识记忆曲线,语言模型在刚学完目标知识时,曲线明显上升,说明语言模型具有记忆能力,并且能够记住刚学会的知识,但是随着学习过程的更新,获得新知识后,对老知识的遗忘非常的快,甚至在有些情况下有下降到0的表现,证实了普通语言模型的灾难性遗忘的特点,并且随着学习过程的重复,普通语言模型并不能够有进步,表明重复学习对普通语言模型的效果有限。总得来说普通语言模型的记忆特点是短且易遗忘。

但在有些情况下,学习新知识后,记忆曲线的下降并没有那么的快,作者找出这些点,发现此时学习的新知识和目标知识相关性较高,具体过程如Figure3中的红线,可以发现记忆曲线与知识相关性高度拟合,进一步证明了普通语言模型的表现仅与刚学的知识的内容有关,普通语言模型记忆力差。

预训练语言模型

论文浅尝 | 记忆力强还是健忘?深入探究语言模型的知识记忆机制,语言模型,人工智能,自然语言处理

在预训练语言模型上进行了相同的实验,如Figure 5中的橙色曲线,蓝色曲线为普通语言模型的表现,相对于普通语言模型,预训练语言模型的在初期和传统语言模型的表现类似,也出现了学习新知识后在目标知识上的准确率快速下降,并且随着重复学习,预训练模型的准确率不断地提高,并且新知识的学习并不会引起模型准确率明显的下降,总的来说预训练语言模型的记忆是长期的,强健的,并且重复学习对模型的准确率提高有明显的帮助。

论文浅尝 | 记忆力强还是健忘?深入探究语言模型的知识记忆机制,语言模型,人工智能,自然语言处理

为了验证预训练是使得预训练语言模型和普通语言模型产生区别的原因,并且定量的分析预训练如何影响模型的记忆能力,作者抽离出若干个与预训练次数不同的语言模型,在相同的知识记忆测试进行实验。在Figure 7中,在预训练次数较少时,预训练模型与普通模型的区别不大,随着预训练次数的不断提高,特别是当预训练次数大于80000时,模型的准确率明显提高,并且重复学习能够明显提高模型的记忆能力,由此得出结论,预训练是使得模型具有强大记忆力的原因。

知识相关性和多样性对记忆形成的影响

在预训练模型的重复学习过程中,虽然模型的准确率随着重复学习的次数不断提高而提高,但是还是会存在在学习完部分知识后,模型准确率反而下降,在单独抽取出这些知识后,作者发现这些知识都是与目标知识高度相关的知识,由此作者提出了一个猜想,知识的相关性会带来竞争。为此作者设计了实验,统一语言模型分别学习知识相关度高的知识集合,和知识相关度低的知识集合,发现在知识相关度低的知识集合上模型的表现明显好于另一类,并且在相关度较低的出现的记忆退化也明显较少。

论文浅尝 | 记忆力强还是健忘?深入探究语言模型的知识记忆机制,语言模型,人工智能,自然语言处理

论文浅尝 | 记忆力强还是健忘?深入探究语言模型的知识记忆机制,语言模型,人工智能,自然语言处理

论文浅尝 | 记忆力强还是健忘?深入探究语言模型的知识记忆机制,语言模型,人工智能,自然语言处理

通过提高每次学习知识的种类,通过两次A&B的方式来取代一次A,一次B的知识学习模式,作者通过对比每次学习一种类型知识和多种类型知识,发现随着知识的多样性的上升,模型的记忆曲线也不断地提高,且灾难性遗忘的回落出现次数也减少,表明每次学习过程中知识的多样性对记忆的形成有正向作用。

总结与展望

本文研究了普通语言模型和预训练语言模型的记忆机制,发现:1)普通语言模型容易遗忘;2)预训练可使语言模型记忆能力增强;3)知识相关性和多样性显著影响记忆形成。这些发现有助于启发许多其他研究。首先,语言模型的记忆机制可以为以前的许多研究提供有用的解释,如灾难性遗忘的原因和预训练的影响。其次,通过揭示影响预训练语言模型记忆的几个关键因素,可以为PLM设计更稳定可靠的学习算法。最后,作者发现语言模型的记忆模式可能类似于人脑,这为连接人工智能和心理学的研究提供了启发。

本文还提出了许多未来研究的开放性问题:1)预训练为何会导致如此显著的遗忘-保留转变,预训练期间是否还有其他同步的转变?2)除了重复学习、预训练和知识多样性,是否还有其他关键因素影响记忆能力?3)大脑和语言模型的记忆之间有哪些关键差异?实现类似于大脑的记忆需要哪些能力?


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

论文浅尝 | 记忆力强还是健忘?深入探究语言模型的知识记忆机制,语言模型,人工智能,自然语言处理

点击阅读原文,进入 OpenKG 网站。
文章来源地址https://www.toymoban.com/news/detail-801130.html

到了这里,关于论文浅尝 | 记忆力强还是健忘?深入探究语言模型的知识记忆机制的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文浅尝 | ChatKBQA:基于微调大语言模型的知识图谱问答框架

    第一作者:罗浩然,北京邮电大学博士研究生,研究方向为知识图谱与大语言模型协同推理 OpenKG地址:http://openkg.cn/tool/bupt-chatkbqa GitHub地址:https://github.com/LHRLAB/ChatKBQA 论文链接:https://arxiv.org/abs/2310.08975 动机 随着ChatGPT 的问世,属于大模型的时代就此开始。无可否认,大型

    2024年02月05日
    浏览(39)
  • 论文浅尝 | 面向多步推理任务专业化较小语言模型

    笔记整理:张沈昱,东南大学硕士,研究方向为自然语言处理 链接:https://github.com/FranxYao/FlanT5-CoT-Specialization 动机 本文的动机是探索如何在多步推理任务中通过大型语言模型提升较小的语言模型的性能。作者认为,大型语言模型模型(如GPT-3.5系列模型)虽然具有强大的建模

    2024年02月13日
    浏览(24)
  • 论文浅尝 | SpCQL: 一个自然语言转换Cypher的语义解析数据集

    笔记整理:郭爱博,国防科技大学博士 论文发表会议:The 31th ACM International Conference on Information and Knowledge Management,CIKM 2022 动机 随着社交、电子商务、金融等行业的快速发展,现实世界编织出一张庞大而复杂的网络。然而,图(或网络)数据难以管理和挖掘,特别是对于经

    2024年02月12日
    浏览(88)
  • 论文浅尝 | SimKGC:基于预训练语言模型的简单对比知识图谱补全

    笔记整理:李雅新,天津大学硕士,研究方向为知识图谱补全 链接:https://dl.acm.org/doi/10.1145/3539597.3570483 动机 知识图谱补全 (KGC) 旨在对已知事实进行推理并推断缺失的链接。基于文本的方法从自然语言描述中学习实体表示,并且具有归纳KGC的潜力。然而,基于文本的方法的

    2024年02月11日
    浏览(26)
  • 论文浅尝 | 利用对抗攻击策略缓解预训练语言模型中的命名实体情感偏差问题...

    笔记整理:田家琛,天津大学博士,研究方向为文本分类 链接:https://ojs.aaai.org/index.php/AAAI/article/view/26599 动机 近年来,随着预训练语言模型(PLMs)在情感分类领域的广泛应用,PLMs中存在的命名实体情感偏差问题也引起了越来越多的关注。具体而言,当前的PLMs基于神经上下

    2024年02月10日
    浏览(30)
  • 深入探究for...range语句

    在Go语言中,我们经常需要对数据集合进行遍历操作。对于数组来说,使用for语句可以很方便地完成遍历。然而,当我们面对其他数据类型,如map、string 和 channel 时,使用普通的for循环无法直接完成遍历。为了更加便捷地遍历这些数据类型,Go语言引入了for...range语句。本文将

    2024年02月08日
    浏览(29)
  • 深入浅出:探究过完备字典矩阵

    在数学和信号处理的世界里,我们总是在寻找表达数据的最佳方式。在这篇博文中,我们将探讨一种特殊的矩阵——过完备字典矩阵,这是线性代数和信号处理中一个非常有趣且实用的概念。 首先,我们先来理解一下字典矩阵的概念。在数学上,字典矩阵基本上就是一组向量

    2024年03月17日
    浏览(23)
  • 深入探究kubernetes resources - Part 1

    在开始使用 Kubernetes 时,社区教给我们的第一件事就是始终为我们 pod 中的每个容器设置 CPU 和内存的请求和限制。 当您指定 Pod 时,您可以选择指定容器需要多少资源。 您指定的最常见资源是 CPU 和内存 (RAM); 如果容器指定了自己的资源限制但没有指定资源请求,那么 Kub

    2024年02月09日
    浏览(79)
  • 深入探究Selenium定位技巧及最佳实践

    在使用Selenium进行Web自动化测试时,准确地定位元素是非常重要的一步。Selenium提供了多种元素定位方法,本文将深入探究这八大元素定位方法,帮助读者更好地理解和应用Selenium的定位技巧。 1. ID定位 ID是元素在HTML中的唯一标识符,因此使用ID进行定位是最直接、最快速的方

    2024年01月21日
    浏览(28)
  • 深入探究语音识别技术:原理、应用与实现

    ❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈 (封面图由文心一格生成) 随着人工智能的快速发展,语音识别技术得到了

    2024年02月03日
    浏览(23)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包