Enabling Large Language Models to Generate Text with Citations

这篇具有很好参考价值的文章主要介绍了Enabling Large Language Models to Generate Text with Citations。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列的文章,针对《Enabling Large Language Models to Generate Text with Citations》的翻译。

摘要

大型语言模型(LLM)已成为一种广泛使用的信息搜索工具,但其生成的输出容易产生幻觉。在这项工作中,我们的目标是使LLM能够生成带有引用的文本,提高其事实的正确性和可验证性。现有的工作主要依赖于商业搜索引擎和人类评估,这使得复制和比较不同的建模方法具有挑战性。我们提出了ALCE,这是LLM自动引文评估的第一个基准。ALCE收集了一组不同的问题和检索语料库,需要建立端到端的系统来检索支持证据并生成带有引文的答案。我们建立了三个维度的自动指标——流利性、正确性和引用质量——并证明了它们与人类判断的强烈相关性。我们用最先进的LLM和新颖的提示策略进行的实验表明,当前的系统有相当大的改进空间——例如,在ELI5数据集上,即使是最好的模型,其49%的生成都缺乏完整的引用支持。我们的广泛分析进一步突出了有前景的未来方向,包括开发更好的检索器,推进长上下文LLM,以及提高综合来自多个来源的信息的能力。

1 引言

2 任务设置和数据集

3 自动评估

4 建模

5 实验

6 人类评估

7 相关工作

8 结论

我们提出了ALCE,这是第一个用引文评估LLM生成的自动基准。我们部署了自动指标来衡量流利性、正确性和引用质量,并通过人工评估验证其有效性。我们探索了将引文纳入LLM的各种策略,并证明当前的系统在ALCE方面有相当大的改进空间。
我们的实验突出了许多有前景的研究方向,包括(1)增强LLM中的检索和改进检索集成,(2)开发长上下文LLM,以及(3)提高LLM合成多种来源的能力。更有趣的是,这些研究建议超出了ALCE的设置范围(例如,长上下文LLM有许多令人兴奋的应用),ALCE可以作为其开发的宝贵试验台。

不足

我们的评估并非没有缺陷:(1)MAUVE被发现对输出长度敏感,可能会提供不稳定的结果。(2) 对于ELI5的正确性评估,由于问题的开放性,自动生成的声明可能无法涵盖所有可能的答案。(3) 我们的引文质量评估受到NLI模型准确性的限制;对于引用精度,NLI模型无法检测到“部分支持”的情况,因此导致引用精度得分低于人类评估。
尽管我们相信我们策划的数据集与现实世界用户问题的分布非常相似,但我们也承认,它们没有涵盖更具挑战性的场景,如多跳推理、数学推理和代码完成。
在我们的实验中,我们专注于在不更新LLM模型权重的情况下提示LLM。由于缺乏监督数据,直接训练模型以纳入引文仍然具有挑战性。然而,我们观察到某些人类指令数据集包含与我们的任务设置类似的示例。我们将训练LLM去生成引文的探索留给未来工作。文章来源地址https://www.toymoban.com/news/detail-663514.html

到了这里,关于Enabling Large Language Models to Generate Text with Citations的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【阅读笔记】Graph of Thoughts: Solving Elaborate Problems with Large Language Models

    Website code: https://github.com/spcl/graph-of-thoughts 作者介绍了Graph of Thought (GoT):一个具备提高LLM提示能力,超越了思维链或思维树 (ToT) 等范式提供的能力的框架。GoT的关键思想和主要优势是能够将LLM生成的信息建模为任意图,其中信息单位(“LLM思想”)是顶点,而边对应于这些顶

    2024年02月10日
    浏览(35)
  • 【LLM+三维场景】3D-GPT: Procedural 3D MODELING WITH LARGE LANGUAGE MODELS

    论文主页 论文地址 代码地址(未放) 一句话生成3D世界,未公布代码已获141星!或引发3D建模行业革命 In the pursuit of efficient automated content creation, procedural generation, leveraging modifiable parameters and rule-based systems, emerges as a promising approach. Nonetheless, it could be a demanding endeavor, given i

    2024年03月25日
    浏览(33)
  • WizardKM:Empowering Large Language Models to Follow Complex Instructions

    作者表明当前nlp社区的指令数据比较单一,大部分都是总结、翻译的任务,但是在真实场景中,人们有各式各样的需求,这限制了模型的通用性。 作者提到这种人类标注的qa数据如果质量比较高,那么将很好的释放模型的性能,但是现在获取数据存在一些问题: 标注这类数据

    2024年02月01日
    浏览(38)
  • 视频理解大模型调研论文《Video Understanding with Large Language Models: A Survey》简要介绍

    本文是关于综述论文《Video Understanding with Large Language Models: A Survey》的部分介绍。文章调研了将视频理解和大语言模型结合的最新技术,从任务、方法、评价、应用等方面对视频大语言模型进行介绍。本文写于2024年4月。 有关本专栏的更多内容,请参考大语言模型论文调研专

    2024年04月26日
    浏览(39)
  • Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

    本文是LLM系列文章的内容,针对《Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models》的翻译。 如今,大型语言模型(LLM)通过提供一些工具用法的演示来学习使用新工具。不幸的是,演示很难获得,如果选择了错误的演示,可能会导致不希望的有偏见的使用。即使在

    2024年02月14日
    浏览(26)
  • 论文系列之Applying Large Language Models API to Issue Classification Problem

    这些研究展示了自动标记issue类型的不同方法,以及如何利用自然语言处理(NLP)和机器学习技术来辅助开源软件(OSS)项目的维护者和新贡献者。 通过这种方法,研究者能够在较小的数据集上训练模型,并在个体项目中实现了高达93.2%的精度、95%的召回率和89.3%的F1分数。这

    2024年02月02日
    浏览(33)
  • 论文笔记--Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Mode

    标题:Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions 作者:John Joon Young Chung, Ece Kamar, Saleema Amershi 日期:2023   文章给出了一种基于LLM自动生成训练数据的方法,且通过不同的实验设置尝试增加生成数据的多样性而又不降低数据

    2024年02月03日
    浏览(32)
  • 文献阅读:AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators

    文献阅读:AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators 1. 文章简介 2. 方法介绍 3. 实验考察 1. 实验结果 2. 消解实验 3. Consistency Stability 4. 结论 思考 文献链接:https://arxiv.org/abs/2303.16854 这一篇文章是我司的另一篇关于GPT模型的Prompt工程调优的文章,不过这篇文章

    2024年02月12日
    浏览(30)
  • TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS

    本文是LLM系列的文章之一,针对《TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS》的翻译。 尽管开源大型语言模型(LLM)及其变体(如LLaMA和Vicuna)取得了进步,但它们在执行更高级别的任务方面仍然受到很大限制,例如遵循人类指令使用外部工具(API)。这是因

    2024年02月10日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包