A Survey on Large Language Model based Autonomous Agents

这篇具有很好参考价值的文章主要介绍了A Survey on Large Language Model based Autonomous Agents。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列的文章,针对《A Survey on Large Language Model based
Autonomous Agents》的翻译。

摘要

自动代理一直是学术界的一个突出研究课题。该领域先前的研究通常集中在孤立环境中训练知识有限的智能体,这与人类的学习过程有很大差异,从而使智能体难以实现类似人类的决策。最近,通过获取大量的网络知识,大型语言模型(LLM)在实现人类水平的智能方面表现出了巨大的潜力。这引发了研究基于LLM的自动代理的热潮。为了充分利用LLM的潜力,研究人员设计了适合不同应用的不同代理架构。在本文中,我们对这些研究进行了全面的调查,从整体的角度对自动智能体领域进行了系统的回顾。更具体地说,我们的重点在于构建基于LLM的代理,为此我们提出了一个统一的框架,该框架包含了以前的大部分工作。此外,我们还总结了基于LLM的人工智能代理在社会科学、自然科学和工程领域的各种应用。最后,我们讨论了基于LLM的人工智能代理常用的评估策略。在前人研究的基础上,我们还提出了该领域的一些挑战和未来方向。为了跟踪该领域并不断更新我们的调查,我们维护了一个库用于相关参考文献https://github.com/Paitesanshi/LLM-Agent-Survey.

1 引言

2 基于LLM的自动代理构建

3 基于LLM的自动代理应用

4 基于LLM的自动代理评估

5 相关综述

6 挑战

尽管之前基于LLM的自主人工智能代理的工作已经显示出许多有前景的方向,但该领域仍处于初级阶段,其发展道路上存在许多挑战。在下文中,我们提出了几个重要挑战。

6.1 角色扮演能力

与传统的LLM不同,人工智能代理通常必须扮演特定的角色(如程序编码员、研究员和化学家)来完成不同的任务。因此,代理的角色扮演能力是非常重要的。虽然对于许多常见的角色(例如影评人),LLM可以很好地模拟它们,但LLM仍然很难捕捉到许多角色和方面。首先,LLM通常是基于网络语料库进行训练的,因此对于网络上很少讨论的角色或新出现的角色,LLM可能无法很好地模拟它们。此外,先前的研究表明,现有的LLM可能无法很好地模拟人类的认知心理特征,导致在对话场景中缺乏自我意识。这些问题的潜在解决方案可能会微调LLM或仔细设计代理提示/架构。例如,人们可以首先收集不常见角色或心理特征的真实人类数据,然后利用这些数据来微调LLM。然而,如何确保微调后的模型仍然能很好地执行常见角色可能会带来进一步的挑战。除了微调之外,还可以设计定制的代理提示/架构,以增强LLM在角色扮演方面的能力。然而,找到最佳提示/架构并不容易,因为它们的设计空间太大。

6.2 广义与人对齐

对于传统的LLM,人们已经讨论了很多人与人之间的关系。在自主人工智能代理领域,特别是当代理用于模拟时,我们认为应该更深入地讨论这个概念。为了更好地为人类服务,传统的LLM通常会经过微调,以符合正确的人类价值观,例如,代理人不应该计划制造一枚为社会复仇的炸弹。然而,当代理被用于真实世界的模拟时,理想的模拟器应该能够诚实地描述不同的人类特征,包括具有错误值的特征。事实上,模拟人类的消极方面可能更重要,因为模拟的一个重要目标是发现和解决问题,没有消极方面就意味着没有问题可以解决。例如,为了模拟现实世界的社会,我们可能必须允许代理人计划制造炸弹,并观察它将如何执行计划以及其行为的影响。基于这些观察,人们可以采取更好的行动来阻止现实社会中的类似行为。受上述案例的启发,基于agent的模拟可能面临的一个重要问题是如何进行广义的人类对齐,即对于不同的目的和应用,agent应该能够与不同的人类价值观进行对齐。然而,包括ChatGPT和GPT-4在内的现有强大LLM大多与统一的人类价值观保持一致。因此,一个有趣的方向是如何通过设计适当的提示策略来“重新调整”这些模型。

6.3 提示的鲁棒性

为了确保代理的合理行为,设计人员通常会将额外的模块(如内存和规划模块)合并到LLM中。然而,纳入这些模块需要开发更多的提示,以促进一致的操作和有效的沟通。先前的研究强调了LLM提示缺乏稳健性,因为即使是微小的改变也会产生显著不同的结果。当构建自治代理时,这个问题变得更加明显,因为它们包含的不是单个提示,而是考虑所有模块的提示框架,其中一个模块的提示有可能影响其他模块。此外,提示框架在不同的LLM之间可能存在显著差异。开发一个可应用于各种LLM的统一而强大的提示框架是一个重要但尚未解决的问题。对于上述问题,有两种潜在的解决方案:(1)通过试错手动制作基本提示元素,或(2)使用GPT自动生成提示。

6.4 幻觉

幻觉对LLM提出了根本性的挑战,其中模型错误地自信地输出虚假信息。这个问题在自主代理中也很普遍。例如,在[67]中,观察到当在代码生成任务中遇到简单化的指令时,代理可能会表现出幻觉行为。幻觉可能导致严重后果,如错误或误导性代码、安全风险和道德问题。为了解决这个问题,一种可能的方法是将人类校正反馈纳入人类-主体相互作用的循环。关于幻觉问题的更多讨论可以在[157]中看到。

6.5 知识边界

自动AI Agent的一个重要应用是模拟不同的真实世界人类行为。人类模拟的研究有着悠久的历史,最近人们的兴趣激增可归因于LLM取得的显著进步,LLM在模拟人类行为方面表现出了显著的能力。然而,重要的是要认识到LLM的力量可能并不总是有利的。具体来说,理想的模拟应该准确地复制人类的知识。在这方面,LLM可能会表现出过度的权力,因为它们是在超出普通人范围的广泛网络知识库上进行训练的。LLM的巨大能力可以显著影响模拟的有效性。例如,当试图模拟各种电影的用户选择行为时,确保LLM处于对这些电影一无所知的位置是至关重要的。然而,LLM有可能已经获得了有关这些电影的信息。如果不实施适当的策略,LLM可能会根据他们广泛的知识做出决定,即使现实世界的用户事先无法访问这些电影的内容。基于以上例子,我们可以得出结论,对于构建可信代理仿真环境,一个重要的问题是如何约束LLM的用户未知知识的使用。

6.6 高效性

由于其自回归架构,LLM通常具有较慢的推理速度。然而,代理可能需要多次查询每个动作的LLM,例如从内存模块中提取信息、在采取行动之前制定计划等。因此,LLM推理的速度在很大程度上影响了代理动作的效率。使用相同的API密钥部署多个代理可能会进一步显著增加时间成本。

7 结论

在这篇综述中,我们系统地总结了基于LLM的自动代理领域的现有研究。我们从代理的构建、应用和评价三个方面介绍和综述了这些研究。对于其中的每一个方面,我们都提供了一个详细的分类法,以在现有研究之间建立联系,总结主要技术及其发展历史。除了回顾以前的工作外,我们还提出了该领域的几个挑战,这些挑战有望指导未来的潜在方向。文章来源地址https://www.toymoban.com/news/detail-678987.html

到了这里,关于A Survey on Large Language Model based Autonomous Agents的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • A Survey on Large Language Models for Recommendation

    本文是LLM系列的文章,针对《A Survey on Large Language Models for Recommendation》的翻译。 大型语言模型(LLM)作为自然语言处理(NLP)领域的强大工具,近年来在推荐系统(RS)领域受到了极大的关注。这些模型使用自监督学习在大量数据上进行训练,在学习通用表示方面取得了显著

    2024年02月11日
    浏览(40)
  • A Survey on Evaluation of Large Language Models

    这是LLM相关的系列文章,针对《A Survey on Evaluation of Large Language Models》的翻译。 大型语言模型(LLM)由于其在各种应用中前所未有的性能,在学术界和工业界都越来越受欢迎。随着LLM在研究和日常使用中继续发挥重要作用,其评估变得越来越重要,不仅在任务层面,而且在社

    2024年02月13日
    浏览(39)
  • 论文解读:Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models

    核心要点 针对大模型幻觉问题进行综述,从detection、explanation和mitigation三个方面进行介绍; 对幻觉现象和评估基准进行归纳,分析现有的缓解幻觉的方法,讨论未来潜在的研究发展 相关文献整理:https://github.com/HillZhang1999/llm-hallucination-survey 一、什么是大模型的幻觉 大模型

    2024年02月02日
    浏览(50)
  • 【论文阅读笔记】Large Multimodal Agents: A Survey

    [写在开头] 深度学习小白,如果有不对的地方请大家多指正,对说的就是你大佬! 论文名称: Large Multimodal Agents: A Survey 论文链接: https://arxiv.org/pdf/2402.15116.pdf Large Multimodal Agents (LMAs) 大型多模态智能体 Motivation 大语言模型的诞生赋予了 agent 类人的决策和推理能力,如何将 LL

    2024年03月18日
    浏览(55)
  • A Framework for Accelerating Transformer-Based Language Model on ReRAM-Based Architecture(论文笔记)

    (发现问题): 在基于RRAM的加速器中,自注意力层在收集输入序列信息的过程中,需要所有输入序列词的前一层结果,由于输入实例在不同的时间步上被串行处理。 因此,自注意层一直保持停滞,直到上一层计算的结束。这就是数据危险,增加了在基于RRAM加速器上处理基于

    2024年03月25日
    浏览(56)
  • LLMs:《A Survey on Evaluation of Large Language Models大型语言模型评估综述》理解智能本质(具备推理能力)、AI评估的重要性(识别当前算法的局限性+设

    LLMs:《A Survey on Evaluation of Large Language Models大型语言模型评估综述》翻译与解读 导读 :该文章首先介绍了人工智能(AI)对机器智能的专注,并探讨了评估AI模型的方法。随后,重点介绍了大语言模型(LLMs)的背景和特点,以及它们在自然语言处理、推理、生成等各类任务中

    2024年02月03日
    浏览(58)
  • A Survey of Large Language Models

    本文是LLM系列的第一篇文章,针对《A Survey of Large Language Models》的翻译。 自从20世纪50年代提出图灵测试以来,人类一直在探索通过机器掌握语言智能。语言本质上是一个由语法规则控制的复杂的人类表达系统。开发能够理解和掌握语言的人工智能算法是一个重大挑战。在过

    2024年02月09日
    浏览(60)
  • Explainability for Large Language Models: A Survey

    本文是LLM系列文章,针对《Explainability for Large Language Models: A Survey》的翻译。 大型语言模型(llm)在自然语言处理方面已经展示了令人印象深刻的能力。然而,它们的内部机制仍然不清楚,这种透明度的缺乏给下游应用带来了不必要的风险。因此,理解和解释这些模型对于阐明

    2024年02月07日
    浏览(33)
  • 论文阅读 A Survey of Large Language Models 3

    为了检验LLM的有效性和优越性,大量的任务和基准被用来进行实证评估和分析。我们首先介绍了LLM语言生成和理解的三种基本评估任务,然后介绍了LLM具有更复杂设置或目标的几个高级任务,最后讨论了现有的基准和实证分析。 在这一部分中,我们主要关注LLM的三种评估任务

    2024年02月13日
    浏览(45)
  • Aligning Large Language Models with Human: A Survey

    本文也是LLM相关的综述文章,针对《Aligning Large Language Models with Human: A Survey》的翻译。 在大量文本语料库上训练的大型语言模型(LLM)已成为一系列自然语言处理(NLP)任务的领先解决方案。尽管这些模型具有显著的性能,但它们容易受到某些限制,如误解人类指令、生成潜

    2024年02月14日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包