【论文阅读】REPLUG: Retrieval-Augmented Black-Box Language Models

这篇具有很好参考价值的文章主要介绍了【论文阅读】REPLUG: Retrieval-Augmented Black-Box Language Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言

  • 原文地址:REPLUG: Retrieval-Augmented Black-Box Language Models

  • 本文提出REPLUG,一个将语言模型视为黑盒检索增强的语言模型架构。在REPLUG中,仅将检索得到的文档拼接到原有输入前面即可,不需要像以前一样更新语言模型参数。该架构中可以通过更新检索器进一步提升性能。
    【论文阅读】REPLUG: Retrieval-Augmented Black-Box Language Models,论文阅读,信息检索,论文阅读,语言模型,算法

REPLUG

【论文阅读】REPLUG: Retrieval-Augmented Black-Box Language Models,论文阅读,信息检索,论文阅读,语言模型,算法

  • 给一个输入上下文
  • REPLUG会首先从外部资源 D = { d 1 , … , d m } D=\{d_1,\dots,d_m\} D={d1,,dm}中检索出一些相关文档
    • 使用基于双塔encoder(共享参数)的dense retrieval来检索文档,一个encoder用来编码输入 x x x和文档 d d d
    • 文档与输入的embedding都是对其中每个token最后一个隐藏层表达的平均值
    • 通过cos similarity计算 x x x d d d的相关性: s ( d , x ) = c o s ( E ( d ) , E ( x ) ) s(d,x) = cos(E(d),E(x)) s(d,x)=cos(E(d),E(x))
    • 预先计算文档的embedding,并利用FAISS来快速找到top-k文档
  • 之后我们将每个检索到的文档与输入上下文进行拼接,并行输入到大模型中
    • 由于模型输入限制,无法将所有检索文档与输入 x x x进行拼接
    • 采用聚合策略,拼接时,将每个top-k文档分别拼接在 x x x前面,并将拼接结果分别输入到语言模型中。
  • 最后聚合每个并行输入得到的预测概率
    • 对上面分别计算的结果进行聚合
      • 给定上下文输入 x x x 和 top-k 相关文档集合 D ′ D^{'} D,下一个token y y y 的生成概率由加权平均决定
        • p ( y ∣ x , D ′ ) = ∑ d ∈ D ′ p ( y ∣ d ∘ x ) ⋅ λ ( d , x ) p(y|x,D^{'}) = \sum_{d \in D^{'}}p(y|d \circ x) \cdot \lambda(d,x) p(yx,D)=dDp(ydx)λ(d,x)
          • 其中 λ ( d , x ) \lambda(d,x) λ(d,x) d d d x x x 相似度 s ( d , x ) s(d,x) s(d,x) 进行softmax的结果

REPLUG LSR: Training the Dense Retriever

【论文阅读】REPLUG: Retrieval-Augmented Black-Box Language Models,论文阅读,信息检索,论文阅读,语言模型,算法

REPLUG LSR 可以看做 REPLUG的一个增强版本。在REPLUG中,我们使用的检索器可能不够适配语言模型,因此这里利用语言模型本身反馈的监督信号,来调整REPLUG中的检索器。

  • 这里的监督信号可以告诉我们,什么样的文档应该被检索回来

核心思想:our approach can be seen as adjusting the probabilities of the retrieved documents to match the probabilities of the output sequence perplexities of the language model

  • 其实就是匹配检索文档的概率与语言模型输出序列的概率
    • 输出序列的概率就是语言模型提供的监督信号
    • 这样做的理由
      • 如果模型输出的ground truth序列的概率更大,那么我们认为模型的效果越好
      • 我们认为,如果一个文档对模型的输出更有帮助,那么我们就认为这个文档更应该被检索回来,其检索的概率也应该更大。
      • 所以说,一个文档被检索回来的概率应该与使用这个文档得到输出序列的概率是正相关的,因此我们想要匹配检索文档的概率与语言模型输出序列的概率

这部分介绍如何计算检索文档概率分布与输出序列概率分布

Computing Retrieval Likelihood

给定输入 x x x,我们检索回来概率最大的top-k个文档,为 D ′ ⊂ D D^{'} \subset D DD,文档 d d d的检索概率(likelihood)为

P R ( d ∣ x ) = e s ( d , x ) / γ ∑ d ∈ D ′ e s ( d , x ) / γ P_R(d \mid x)=\frac{e^{s(d, x) / \gamma}}{\sum_{d \in \mathcal{D}^{\prime}} e^{s(d, x) / \gamma}} PR(dx)=dDes(d,x)/γes(d,x)/γ

  • γ \gamma γ是用来控制 softmax 温度的超参

  • 按理应该在整个 D D D 上进行,但是那样计算量太大,因此在 D ′ D^{'} D 上近似计算

Computing LM likelihood

将语言模型用来评估每个文档对语言模型困惑度的提升程度,首先计算 P L M ( y ∣ d , x ) P_{LM}(y|d,x) PLM(yd,x),这是给定 x x x 和文档 d d d 时,ground truth y y y 的生成概率。如果这个概率越大,则说明当前文档对困惑度的提升程度越大。然后计算分布:

Q ( d ∣ x , y ) = e P L M ( y ∣ d , x ) / β ∑ d ∈ D ′ e P L M ( y ∣ d , x ) / β Q(d \mid x, y)=\frac{e^{P_{L M}(y \mid d, x) / \beta}}{\sum_{d \in \mathcal{D}^{\prime}} e^{P_{L M}(y \mid d, x) / \beta}} Q(dx,y)=dDePLM(yd,x)/βePLM(yd,x)/β

  • β \beta β是超参

有了两个分布之后,用loss function 对二者进行匹配

在给定 x x x y y y 时,计算检索概率分布和语言模型概率分布,我们利用KL divergence来匹配两个分布,并用来优化dense retriever

L = 1 ∣ B ∣ ∑ x ∈ B K L ( P R ( d ∣ x ) ∥ Q L M ( d ∣ x , y ) ) \mathcal{L}=\frac{1}{|\mathcal{B}|} \sum_{x \in \mathcal{B}} K L\left(P_R(d \mid x) \| Q_{\mathrm{LM}}(d \mid x, y)\right) L=B1xBKL(PR(dx)QLM(dx,y))

  • B B B 是输入 x x x 的集合
  • 我们最小化损失函数来优化检索器,LM保持不动

因为检索器参数在训练过程中更新,参数更新后document embedding会变化,因此每隔 T T T步就重新算一次document embedding,并重复上述过程

Training Setup

Model

  • LM: GPT-3(for REPLUG LSR)
  • Retriever:Contriver(2022新模型)

Training data

  • 所有训练数据都来自 Pile training data(包含不同领域文本的language model benchmark)

  • 800K 个 256 token长的序列作为训练queries

    • 每个query分成两部分,前128token作为 input context x x x,后一半作为需要续写的ground truth y y y
  • 外部语料库 D D D, 采样36M 128 token长的文档

Results

Language Modeling

【论文阅读】REPLUG: Retrieval-Augmented Black-Box Language Models,论文阅读,信息检索,论文阅读,语言模型,算法

  • randomly subsampled Pile training data (367M documents of 128 tokens) and use them as the retrieval corpus for all models

MMLU

【论文阅读】REPLUG: Retrieval-Augmented Black-Box Language Models,论文阅读,信息检索,论文阅读,语言模型,算法

  • Atlas trains both the retriever and the language model, which we consider a white-box retrieval LM setting.
  • 对于检索增强的版本,我们将test question作为query,从Wikipedia中检索10个文档,与question拼接成10个输入,最后的结果是10个输出的聚合

Open Domain QA

【论文阅读】REPLUG: Retrieval-Augmented Black-Box Language Models,论文阅读,信息检索,论文阅读,语言模型,算法

  • dataset: Natural Question and TriviaQA

    • For evaluation, we consider the few-shot(use a few training data) and full data(use all training data)
  • RETRO, R2-D2, Atlas are finetuned on the training data, either in a few-shot setting or with full training data

Analysis

【论文阅读】REPLUG: Retrieval-Augmented Black-Box Language Models,论文阅读,信息检索,论文阅读,语言模型,算法

  • 性能的提升不止源于聚合不同的输出结果,聚合相关的文档是成功的关键
  • 随着聚合文档数目的提升,REPLUGREPLUG LSR 的性能单点提升,不过 a small number of documents(e.g., 10)就可以做的不错

【论文阅读】REPLUG: Retrieval-Augmented Black-Box Language Models,论文阅读,信息检索,论文阅读,语言模型,算法

  • REPLUG带来的性能增益与模型大小保持一致, 且能够应用到不同模型上

【论文阅读】REPLUG: Retrieval-Augmented Black-Box Language Models,论文阅读,信息检索,论文阅读,语言模型,算法文章来源地址https://www.toymoban.com/news/detail-679794.html

  • REPLUG is more helpful when texts contain rare entities

到了这里,关于【论文阅读】REPLUG: Retrieval-Augmented Black-Box Language Models的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Retrieval-Augmented Multimodal Language Modeling

    本文是LLM系列文章,针对《Retrieval-Augmented Multimodal Language Modeling》的翻译。 最近的多模态模型,如DALL-E和CM3,在文本到图像和图像到文本生成方面取得了显著进展。然而,这些模型将其所有知识(例如,埃菲尔铁塔的外观)存储在模型参数中,需要越来越大的模型和训练数据

    2024年02月12日
    浏览(42)
  • In-Context Retrieval-Augmented Language Models

    本文是LLM系列文章,针对《In-Context Retrieval-Augmented Language Models》的翻译。 检索增强语言建模(RALM)方法在生成过程中对基础语料库中的相关文档设置语言模型(LM),可以显著提高语言建模性能。此外,它们可以缓解事实上不准确的文本生成问题,并提供自然的来源归因机

    2024年02月10日
    浏览(50)
  • Decoupling Knowledge from Memorization: Retrieval-augmented Prompt Learning

    本文是LLM系列的文章,针对《Decoupling Knowledge from Memorization: Retrieval 提示学习方法在仍然遵循基于参数的学习范式的同时,通过诱导更好的小样本表现,在自然语言处理中掀起了波澜;学习中的遗忘和死记硬背问题可能会遇到不稳定的泛化问题。具体来说,在完全监督的训练

    2024年02月11日
    浏览(47)
  • 论文阅读---Albert :Few-shot Learning with Retrieval Augmented Language Models

    增强语言模型 Augmented Language Models https://arxiv.org/abs/2208.03299 提前知识: BERT (Bidirectional Encoder Representations from Transformers)是一种预训练语言模型,它通过在大规模文本数据上进行预训练,学习文本的双向表示,并在多种NLP任务中展现出卓越的性能。BERT的双向性意味着它能够

    2024年04月23日
    浏览(41)
  • 【论文笔记】Active Retrieval Augmented Generation

    论文题目:Active Retrieval Augmented Generation 论文地址:Active Retrieval Augmented Generation - ACL Anthology 会议:EMNLP 2023 main (Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing) github 链接:jzbjyb/FLARE: Forward-Looking Active REtrieval-augmented generation (FLARE) (github.com) 笔记参考:

    2024年03月20日
    浏览(55)
  • 论文阅读——Adversarial Eigen Attack on Black-Box Models

    作者:Linjun Zhou, Linjun Zhou 攻击类别:黑盒(基于梯度信息),白盒模型的预训练模型可获得,但训练数据和微调预训练模型的数据不可得(这意味着模型的网络结构和参数信息可以获得)、目标攻击+非目标攻击 白盒+黑盒组合使用,白盒利用了中间表示,黑盒利用了输出得

    2024年02月13日
    浏览(38)
  • 论文阅读 (100):Simple Black-box Adversarial Attacks (2019ICML)

    题目:简单黑盒对抗攻击 (Simple black-box adversarial attacks) 策略 :提出了一个在黑盒设置下构建对抗图像的简单方法: 从预定义的正交基中随机采样一个向量,并将其添加或减去到目标图像; 在多个现实任务下展示了算法的性能和效率; 算法非常快,且实现仅需不要20Pytorch代

    2024年02月09日
    浏览(39)
  • 【论文阅读】Augmented Transformer network for MRI brain tumor segmentation

    Zhang M, Liu D, Sun Q, et al. Augmented transformer network for MRI brain tumor segmentation[J]. Journal of King Saud University-Computer and Information Sciences, 2024: 101917. [开源] IF 6.9 SCIE JCI 1.58 Q1 计算机科学2区 【核心思想】 本文提出了一种新型的MRI脑肿瘤分割方法,称为增强型transformer 网络(AugTransU-Net),

    2024年01月23日
    浏览(49)
  • 论文阅读:Making Large Language Models A Better Foundation For Dense Retrieval

    论文链接 密集检索需要学习区分性文本嵌入来表示查询和文档之间的语义关系。考虑到大型语言模型在语义理解方面的强大能力,它可能受益于大型语言模型的使用。然而,LLM是由文本生成任务预先训练的,其工作模式与将文本表示为嵌入完全不同。因此,必须研究如何正确

    2024年01月21日
    浏览(61)
  • 大一统模型 Universal Instance Perception as Object Discovery and Retrieval 论文阅读笔记

    写在前面   马上又是一周周末了,开始写论文博客啦。   这是一篇顶会文章,标题很清楚,就是一个一统的框架用于解决各种任务。这类文章在 21 年的时候挺多的,现在倒是不常见了。因为需要的资源很多,外部数据集也很庞大,一般的小资源团队基本搞不定。但一旦

    2024年02月04日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包