《大型语言模型自然语言生成评估》综述

这篇具有很好参考价值的文章主要介绍了《大型语言模型自然语言生成评估》综述。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

《大型语言模型自然语言生成评估》综述,大模型,语言模型,人工智能,自然语言处理

在快速发展的自然语言生成(NLG)评估领域中,引入大型语言模型(LLMs)为评估生成内容质量开辟了新途径,例如,连贯性、创造力和上下文相关性。本综述旨在提供一个关于利用LLMs进行NLG评估的全面概览,这是一个缺乏系统分析的新兴领域。我们提出了一个连贯的分类体系来组织现有的基于LLM的评估指标,提供了一个结构化的框架来理解和比较这些方法。我们的详细探索包括批判性地评估各种基于LLM的方法论,以及比较它们在评估NLG输出时的优势和局限性。通过讨论尚未解决的挑战,包括偏见、稳健性、领域特定性和统一评估,本综述旨在为研究人员提供洞见,并倡导更公平、更先进的NLG评估技术。

《大型语言模型自然语言生成评估》综述,大模型,语言模型,人工智能,自然语言处理

自然语言生成(NLG)处于现代AI驱动通信的前沿,近期在大型语言模型(LLMs)方面的进展彻底改变了NLG系统的能力(Ouyang et al., 2022; OpenAI, 2023)。这些模型,依靠深度学习技术和大量的训练数据,展现出在广泛应用中生成文本的卓越能力。随着NLG技术的快速发展,建立可靠的评估方法以准确衡量生成内容的质量变得越来越重要。

传统的NLG评估指标,如BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)和TER(Snover et al., 2006),主要关注表面层面的文本差异,通常在评估语义方面存在不足(Freitag et al., 2020)。这一局限性已被指出阻碍了研究进展,并可能导致误导性的研究结论。此外,其他使用神经嵌入来计算分数的方法(Liu et al., 2016; Sellam et al., 2020; Zhang et al., 2020),尽管在评估诸如语义等价性和流畅性方面有所考虑,但它们的灵活性有限,适用范围受限(Freitag et al., 2021a)。此外,这些传统方法与人类判断的一致性较低(Liu et al., 2023c),且对分数的解释性不足(Xu et al., 2023)。这些缺点突显了NLG领域需要更细腻和全面的评估方法的需求。

大型语言模型(LLMs)涌现的能力为基于LLM的NLG评估提供了有前景的途径,例如Chain-of-Thought(CoT)(Wei et al., 2022b)、零次学习指令跟随(Wei et al., 2022a)、更好地与人类偏好相一致(Ouyang et al., 2022)等。这些特性使LLMs成为评估NLG输出的有力工具,与传统方法相比提供了更为复杂和更好地与人类一致的评估(Liu et al., 2023c;Kocmi and Federmann, 2023;Fu et al., 2023)。例如,LLMs可以生成合理的解释来支持最终评分(Xu et al., 2023),而利用人类反馈的强化学习(RLHF)可以使LLMs的偏好更好地与人类一致(Ouyang et al., 2022;Zheng et al., 2023)。如图1所示,这些方法的关键策略涉及指示LLMs使用提示来从不同方面评估生成的文本,无论是否有参考资料和来源。然而,众多基于LLM的NLG评估方法,针对不同的任务和目标,缺乏统一的概述。

鉴于LLMs在NLG评估领域的工作量不断增加,迫切需要一个综合总结来导航这一领域内的复杂性和多样化方法。本综述旨在提供这一有前景领域的全面概述,呈现一个用于组织现有工作的连贯分类体系。我们详细勾勒了关键研究及其方法论,并深入分析了这些方法的各种优点、局限性和独特属性。此外,我们探索了该领域内尚未解决的挑战和开放性问题,从而为未来的学术探索勾画出潜在的途径。这一全面探索旨在激发读者对LLM在NLG评估中方法的细微差别和不断变化的动态有深入的了解。

本综述的组织我们呈现了利用LLMs进行NLG评估的首个全面综述。首先,我们建立了NLG评估的正式框架,并提出了一个分类体系来分类相关工作(第2节)。随后,我们深入并详细阐述这些工作(第3节)。此外,我们对评估LLM评估者有效性的各种元评估基准进行了系统回顾(第4节)。鉴于这一领域的快速发展,我们确定并讨论了一些可能指导未来研究的潜在开放问题(第5节)。在结束这一系统综述时,我们倡导通过开发更公正、更稳健、更专业和统一的基于LLM的评估者来推动这一领域的发展。此外,我们强调整合其他评估方法,如人类判断,以实现更全面和多面的评估框架。

《大型语言模型自然语言生成评估》综述,大模型,语言模型,人工智能,自然语言处理

在大型语言模型(LLMs)迅速发展的背景下,越来越多的研究将重点放在利用这些模型作为NLG任务的评估者。这种关注特别源于LLMs的高容量生成能力,导致出现了使用它们来对NLG文本进行质量评估的工作——我们将这种范式称为生成性评估。这一类别大致分为基于提示的评估和基于微调的评估,其核心在于LLM评估者的参数是否需要微调。基于提示的评估通常涉及使用精心设计的提示指导强大的基础LLMs来评估生成的文本。另一方面,基于微调的评估依赖于专门为NLG评估校准的开源LLMs。这两种方法都适用于不同的评估协议,用于衡量生成文本的质量。

当前方法考虑不同的评分协议来判断生成假设文本的质量。一些尝试部署LLM评估者产生连续的标量分数,代表单个生成文本的质量——称为➊ 基于分数的评估。其他方法计算基于提示、来源或参考文本(可选)的生成文本的生成概率作为评估指标,称为➋ 基于概率的评估。在多样化的领域中,某些工作将NLG评估转化为分类任务,使用类似李克特量表的多级别对文本质量进行分类。在这种情况下,LLM评估者通过将生成的文本分配到特定的质量级别来评估其质量——称为➌ 李克特风格评估。同时,➍ 成对比较方法涉及使用LLM评估者比较一对生成文本的质量。此外,➎ 组合评估方法利用多个不同LLMs或提示的LLM评估者,协调评估者之间的沟通以产生最终评估结果。最后,一些最新的研究探索了➏ 高级评估方法(考虑细粒度标准或结合连续思考或上下文学习的能力),旨在获得更全面和细致的评估结果。

本节深入探讨了这两个主要类别的评估方法,每种方法都伴随其相应的评估协议。表2提供了当前基于提示和基于微调评估方法的全面概述。该表详细说明了它们各自的适应任务、基础模型、评分协议和评估方面,以便于清晰参考。

《大型语言模型自然语言生成评估》综述,大模型,语言模型,人工智能,自然语言处理

基于LLM的评估者已在多种NLG任务中找到应用。与此同时,众多现有和近期引入的元评估基准用于验证这些评估者的有效性。这些基准包括了对生成文本质量的人类注释,以及评估自动评估者和人类偏好之间一致性的程度。根据涉及的任务,这些基准可以被分类为单一场景示例,如机器翻译和摘要,以及多场景基准。本节将提供这些NLG任务及其相关元评估基准的概述。

结论

在本综述中,我们详尽地调查了LLMs在NLG评估中的作用。我们全面的分类体系按三个主要维度对作品进行分类:评估功能、评估参考和评估任务。这个框架使我们能够系统地分类和理解基于LLM的评估方法论。我们深入探讨了各种基于LLM的方法,审视它们的优势并比较它们的差异。此外,我们总结了NLG评估的普遍元评估基准。文章来源地址https://www.toymoban.com/news/detail-819252.html

到了这里,关于《大型语言模型自然语言生成评估》综述的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 自然语言处理基本任务综述

    ​ 在自然语言处理中,分词(Tokenization)是指将自然语言文本中的连续字符序列划分为一个个有意义的符号(token)的过程。分词是文本预处理中的一项基础任务,它是自然语言处理中的一环,而且是非常重要的一环。 ​ 在英文中,单词之间通常由空格隔开,因此英文单词

    2024年02月02日
    浏览(28)
  • 【自然语言处理】【大模型】CodeGeeX:用于代码生成的多语言预训练模型

    CodeGeeX:用于代码生成的多语言预训练模型 《CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Evaluations on HumanEval-X》 论文地址:https://arxiv.org/pdf/2303.17568.pdf 相关博客 【自然语言处理】【大模型】RWKV:基于RNN的LLM 【自然语言处理】【大模型】CodeGen:一个用于多轮程序合成

    2024年02月06日
    浏览(37)
  • 生成模型在计算机视觉、自然语言处理、推荐系统中的应用和研究

    作者:禅与计算机程序设计艺术 随着计算机的飞速发展,人工智能技术的逐渐成熟,越来越多的人开始关注这个新兴的领域,开始开发出新的产品和服务。 在这个信息爆炸的时代,数据量的呈几何级增长,需要人们对海量数据的分析、处理和决策,而机器学习就是人工智能

    2024年02月08日
    浏览(44)
  • 自然语言处理—文本分类综述/什么是文本分类

    最近在学习文本分类,读了很多博主的文章,要么已经严重过时(还在一个劲介绍SVM、贝叶斯),要么就是机器翻译的别人的英文论文,几乎看遍全文,竟然没有一篇能看的综述,花了一个月时间,参考了很多文献,特此写下此文。 https://www.processon.com/mindmap/61888043e401fd453a21e

    2023年04月08日
    浏览(37)
  • 【AI 大模型】如何利用 LLM 和智能问答 BI 自然语言自动生成智能报表 ?

    目录 如何利用LLM大模型和智能问答BI生成智能报表,以提高企业的决策效率? 前言

    2024年02月10日
    浏览(49)
  • LLMs:《A Survey on Evaluation of Large Language Models大型语言模型评估综述》理解智能本质(具备推理能力)、AI评估的重要性(识别当前算法的局限性+设

    LLMs:《A Survey on Evaluation of Large Language Models大型语言模型评估综述》翻译与解读 导读 :该文章首先介绍了人工智能(AI)对机器智能的专注,并探讨了评估AI模型的方法。随后,重点介绍了大语言模型(LLMs)的背景和特点,以及它们在自然语言处理、推理、生成等各类任务中

    2024年02月03日
    浏览(55)
  • 增强分析的关键技术之自然语言查询及自然语言生成

    自然语言查询技术和自然语言生成技术。首先,我们将定义这两个概念,然后探讨它们的技术路线和应用场景。最后,我们将分享一些实际应用案例,帮助读者更好地理解这两种技术。 1.1 定义 自然语言查询技术(NLQ,Natural Language Query)是一种能够理解人类自然语言输入并返

    2024年02月09日
    浏览(59)
  • 多模态大型语言模型综述

    Authors: Davide Caffagni ; Federico Cocchi ; Luca Barsellotti ; Nicholas Moratelli ; Sara Sarto ; Lorenzo Baraldi ; Lorenzo Baraldi ; Marcella Cornia ; Rita Cucchiara Connecting text and visual modalities plays an essential role in generative intelligence. For this reason, inspired by the success of large language models, significant research efforts are bei

    2024年02月22日
    浏览(44)
  • 基于语音识别的自然语言生成技术

    作者:禅与计算机程序设计艺术 1.1. 背景介绍 随着人工智能技术的快速发展,自然语言处理(NLP)领域也取得了显著的进步。在语音识别技术方面,语音识别率、识别速度等指标不断提高,使得语音技术在人们的生活中扮演越来越重要的角色。为了更好地利用这些技术,将自

    2024年02月06日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包