Decoupling Knowledge from Memorization: Retrieval-augmented Prompt Learning

这篇具有很好参考价值的文章主要介绍了Decoupling Knowledge from Memorization: Retrieval-augmented Prompt Learning。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列的文章,针对《Decoupling Knowledge from Memorization:
Retrieval

摘要

提示学习方法在仍然遵循基于参数的学习范式的同时,通过诱导更好的小样本表现,在自然语言处理中掀起了波澜;学习中的遗忘和死记硬背问题可能会遇到不稳定的泛化问题。具体来说,在完全监督的训练中,朴素的提示学习可能很难死记硬背地利用非典型实例,或者用低样本数据过度拟合浅层模式。为了缓解这些限制,我们开发了RETROPROMPT,其动机是将知识与记忆脱钩,以帮助模型在泛化和记忆之间取得平衡。与普通的提示学习相比,RETROPROPT从训练实例中构建了一个开卷知识库,并在输入、训练和推理过程中实现了检索机制,从而使模型能够从训练语料库中检索相关上下文作为增强的线索。大量的实验表明,RETROPROPT可以在小样本和零样本设置中获得更好的性能。此外,我们还进一步说明了我们提出的RETROPROPT可以在新的数据集上产生更好的泛化能力。对记忆的详细分析确实表明,RETROPROMPT可以减少语言模型对记忆的依赖;因此,提高了下游任务的泛化能力。

1 引言

2 提示学习的前言

3 RETROPROMPT:检索增强的提示学习

4 实验

5 相关实验

6 结论与未来工作

我们提出了通过引入检索增强来将知识与记忆解耦的RETROPROPT,以进一步提高输入端提示学习的泛化能力以及模型训练和预测的整个过程。RETROPROPT是一种简单而有效的检索方法,它结合了神经演示、用于训练和预测的kNN指南。我们的广泛研究结果表明,它在小样本、零样本和全监督设置中优于其他演示增强提示方法和知识增强提示方法。分析记忆的本质,验证了知识与记忆脱钩的有效性。有趣的未来方向包括:1)应用于其他任务,如QA和NLG,2)探索用于无监督学习的噪声数据挖掘,3)进一步提高大型数据集的检索效率,等等。文章来源地址https://www.toymoban.com/news/detail-674322.html

到了这里,关于Decoupling Knowledge from Memorization: Retrieval-augmented Prompt Learning的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】REPLUG: Retrieval-Augmented Black-Box Language Models

    原文地址:REPLUG: Retrieval-Augmented Black-Box Language Models 本文提出 REPLUG ,一个将语言模型视为黑盒检索增强的语言模型架构。在 REPLUG 中,仅将检索得到的文档拼接到原有输入前面即可,不需要像以前一样更新语言模型参数。该架构中可以通过更新检索器进一步提升性能。 给一

    2024年02月11日
    浏览(42)
  • 论文笔记:Retrieval-Augmented Generation forAI-Generated Content: A Survey

    北大202402的RAG综述 近年来,人们对人工智能生成内容(AIGC)的兴趣激增。各种内容生成工具已经精心设计,用于生产各种模态下的多样化对象 文本代码:大型语言模型(LLM),包括GPT系列和LLAMA系列 图像:DALL-E和Stable Diffusion 视频:Sora \\\"AIGC\\\"这一词强调内容是由高级生成模型

    2024年04月24日
    浏览(41)
  • Re58:读论文 REALM: Retrieval-Augmented Language Model Pre-Training

    诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类 论文名称:REALM: Retrieval-Augmented Language Model Pre-Training 模型名称:Retrieval-Augmented Language Model pre-training (REALM) 本文是2020年ICML论文,作者来自谷歌,关注RAG+LLM。目标是解决纯用LM参数储存知识就得让LM尺寸越来

    2024年02月04日
    浏览(45)
  • GPT学习笔记-Enterprise Knowledge Retrieval(企业知识检索)--私有知识库的集成

    openai-cookbook/apps/enterprise-knowledge-retrieval at main · openai/openai-cookbook · GitHub 终于看到对于我解决现有问题的例子代码,对于企业私有知识库的集成。 我对\\\"Retrieval\\\"重新理解了一下,源自动词\\\"retrieve\\\",其基本含义是“取回”,“恢复”,或“检索”。在不同的上下文中,\\\"retriev

    2024年02月11日
    浏览(44)
  • 【论文笔记】ResRep: Lossless CNN Pruning via Decoupling Remembering and Forgetting

    提出了ResRep,一种无损通道修剪的新方法,它通过减少卷积层的宽度(输出通道数)来缩小CNN的尺寸。 建议将CNN重新参数化为 记忆部分 和 遗忘部分 ,前者学习保持性能,后者学习修剪。通过对前者使用常规 SGD 进行训练,对后者使用带有惩罚梯度的新颖更新规则进行训练,

    2024年04月13日
    浏览(38)
  • Empowering Long-tail Item Recommendation through Cross Decoupling Network (CDN)

    来源: KDD\\\'2023 Google Research 目录 Empowering Long-tail Item Recommendation through Cross Decoupling Network (CDN) 长尾问题分析 CDN Item Memorization and Generalization Decoupling 记忆特征(Memorization features) 泛化特征(Generalization features) 物品表征学习 User Sample Decoupling Cross Learning 总结 参考 长尾问题是个

    2024年02月10日
    浏览(37)
  • LangChain(4)检索增强 Retrieval Augmentation

    Large Language Models (LLMs) 的能力或者知识来自两方面:模型在训练时候的输入;模型训练好后以提示词方式输入到模型中的知识source knowledge。检索增强就是指后期输入到模型中的附加信息。 按顺序安装包: 使用 Pinecone 存储向量。 按批将数据插入索引库中 有时 LLM 回答不着边,

    2024年02月16日
    浏览(38)
  • 【论文笔记】Active Retrieval Augmented Generation

    论文题目:Active Retrieval Augmented Generation 论文地址:Active Retrieval Augmented Generation - ACL Anthology 会议:EMNLP 2023 main (Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing) github 链接:jzbjyb/FLARE: Forward-Looking Active REtrieval-augmented generation (FLARE) (github.com) 笔记参考:

    2024年03月20日
    浏览(56)
  • Authenticated private information retrieval-论文笔记

    论文发表在 32nd USENIX Security Symposium (USENIX Security 23), 2023•usenix.org 论文作者 :Simone Colombo, EPFL; Kirill Nikitin, Cornell Tech; Henry Corrigan-Gibbs, MIT;David J. Wu, UT Austin; Bryan Ford, EPFL 论文链接 :https://www.usenix.org/system/files/sec23fall-prepub-78-colombo.pdf 1.1  Private Information Retrieval         隐私

    2024年02月04日
    浏览(46)
  • 知识蒸馏(Knowledge Distillation)

     论文:[1503.02531] Distilling the Knowledge in a Neural Network (arxiv.org) 知识蒸馏是一种模型压缩方法,是一种基于“教师-学生网络思想”的训练方式,由于其简单,有效,并且已经在工业界被广泛应用。 知识蒸馏使用的是Teacher—Student模型,其中teacher是“知识”的输出者,student是“

    2024年02月06日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包