论文链接
Abstract
密集检索需要学习区分性文本嵌入来表示查询和文档之间的语义关系。考虑到大型语言模型在语义理解方面的强大能力,它可能受益于大型语言模型的使用。然而,LLM是由文本生成任务预先训练的,其工作模式与将文本表示为嵌入完全不同。因此,必须研究如何正确地调整LLM,以便它们能够有效地初始化为密集检索的骨干编码器。
在本文中,我们提出了一种新的方法,称为LLaRA(适用于密集检索的LLM),它作为LLM的后验自适应,用于密集检索应用。LLaRA由两个前置任务组成:基于嵌入的自动编码(EBAE)和基于嵌入的自回归(EBAR),其中来自LLM的文本嵌入分别用于重构输入句子的标记和预测下一个句子的标记。LLaRA被证明是简单、轻便和高效的。它被应用于维基百科语料库上的LLaMA-2-7B(基础),在那里它大大提高了模型在各种密集检索基准上的微调性能,如MSMARCO和BEIR。我们的模型和代码将在BGE存储库中公开。
1. Introduction
密集检索是深度神经网络提出的一种新的检索范式。与传统的IR方法不同,密集检索学习将查询和文档表示为同一潜在空间内的嵌入,其中查询和文档之间的语义关系可以通过嵌入相似性来反映。如今,密集检索已经是许多现实应用中的重要组成部分,比如网页搜索和开放域问答。文章来源:https://www.toymoban.com/news/detail-812434.html
密集检索的质量受到其骨干编码器容量的严重影响。在过去的几年里,预训练的语言模型,例如BERT、RoBERTa、T5,被广泛应用于查询和文档的表示。文章来源地址https://www.toymoban.com/news/detail-812434.html
到了这里,关于论文阅读:Making Large Language Models A Better Foundation For Dense Retrieval的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!