LARGE LANGUAGE MODEL AS AUTONOMOUS DECISION MAKER

这篇具有很好参考价值的文章主要介绍了LARGE LANGUAGE MODEL AS AUTONOMOUS DECISION MAKER。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列文章,针对《LARGE LANGUAGE MODEL AS AUTONOMOUS DECISION MAKER》的翻译。

摘要

尽管大型语言模型(LLM)表现出令人印象深刻的语言理解和上下文学习能力,但在解决现实世界任务时,它们的决策能力仍然严重依赖于特定任务专家知识的指导。为了释放LLM作为自主决策者的潜力,本文提出了一种JUDEC赋予LLM自我判断能力的方法,使LLM能够实现自主判断和决策探索。具体来说,在JUDEC中,基于Elo的自我判断机制被设计为将Elo分数分配给决策步骤,通过两个解决方案之间的成对比较来判断其价值和效用,然后相应地引导决策搜索过程走向最优解决方案。ToolBench数据集的实验结果表明,JUDEC优于基线,在不同任务上的通过率提高了10%以上。它提供更高质量的解决方案并降低成本(ChatGPT API调用),突出了其有效性和效率。

1 引言

2 前言

3 任务形式化

4 方法

5 实验

6 相关工作

7 结论

在这项工作中,我们引入了一种新的方法JUDEC,使大型语言模型(LLM)能够在不同的现实世界任务中作为自主决策者,而不需要特定任务的专家知识。基于Elo的自我判断机制的引入增强了LLM对决策步骤的自我判断,并指导决策探索过程。在ToolBench数据集上进行的大量实验已经证实了JUDEC的有效性,它通过显著提高通过率和产生更高质量的解决方案而优于基线方法。此外,LLM API调用的减少显示了我们方法的效率提高。通过赋予LLM自主决策能力,我们的工作为其在现实世界场景中的更广泛应用铺平了道路,消除了对特定任务知识的依赖。文章来源地址https://www.toymoban.com/news/detail-686101.html

到了这里,关于LARGE LANGUAGE MODEL AS AUTONOMOUS DECISION MAKER的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Truncation Sampling as Language Model Desmoothing

    本文是LLM系列文章,针对《Truncation Sampling as Language Model Desmoothing》的翻译。 来自神经语言模型的长文本样本可能质量较差。截断采样算法(如top-p或top-k)通过在每一步将一些单词的概率设置为零来解决这一问题。这项工作为截断的目的提供了框架,并为此目的提供了一种改

    2024年02月10日
    浏览(28)
  • 吴恩达gradio课程:基于开源LLM(large language model)的聊天应用

    内容简介 Falcon 40B 是当前最好的开源语言模型之一。 使用 text-generation 库调用 Falcon 40B 的问答 API 接口。 首先仅仅在代码中与模型聊天,后续通过Gradio构建聊天界面。 Gradio 聊天界面可以保存对话历史上下文。 在聊天过程中,需要将之前对话记录与新消息一起发送给模型,才能进

    2024年02月09日
    浏览(39)
  • A Survey on Model Compression for Large Language Models

    本文是LLM系列文章,关于模型压缩相关综述,针对《A Survey on Model Compression for Large Language Models》的翻译。 大型语言模型(LLM)以显著的成功彻底改变了自然语言处理任务。然而,它们强大的规模和计算需求给实际部署带来了重大挑战,尤其是在资源受限的环境中。随着这些

    2024年02月11日
    浏览(36)
  • 论文笔记:Spatial-Temporal Large Language Model for Traffic Prediction

    arxiv 2024 时空+大模型

    2024年04月24日
    浏览(31)
  • 论文笔记 Where Would I Go Next? Large Language Models as Human Mobility Predictor

    arxiv 2023 08的论文 人类流动性的独特特性在于其固有的规律性、随机性以及复杂的时空依赖性 ——准确预测人们的行踪变得困难 近期的研究利用深度学习模型的时空建模能力实现了更好的预测性能 但准确性仍然不足,且产生的结果不能直接完全解释 LMM+位置预测 提出了一个

    2024年03月16日
    浏览(35)
  • Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model

    相关链接:arXiv : Chinese LLM 、 Pretraining 、 Large Language Model 、 Chinese Corpora 、 Multilingual 本研究介绍了CT-LLM(Chinese Tiny Large Language Model),这是一个2B参数的大型语言模型(LLM),它标志着在开发LLMs时优先考虑中文的重大转变。CT-LLM的独特之处在于,它从头开始,主要通

    2024年04月15日
    浏览(31)
  • 论文笔记:Large Language Models as Urban Residents:An LLM Agent Framework for Personal Mobility Generati

    使用LMM生成活动轨迹的开创性工作 理解活动模式(mobility pattern)——能够灵活模拟城市移动性 尽管个体活动轨迹数据由于通信技术的进步而丰富,但其实际使用往往受到隐私顾虑的限制 ——生成的数据可以提供一种可行的替代方案,提供了效用和隐私之间的平衡 之前有很

    2024年03月11日
    浏览(59)
  • 【人工智能】大模型LLM技术生态全景图 | The Foundation Large Language Model (LLM) & Tooling Landscape

    目录 “Software is eating the world…”  “软件正在吞噬世界...”~ Marc Andreessen ~ 马克·安德森 Every company is a software company…soon every company will be an AI company.每家公司都是软件公司...很快,每家公司都将成为人工智能公司。 Everybody is using software…soon everybody will directly be using AI.每个

    2024年02月08日
    浏览(37)
  • TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents

    本文是LLM系列文章,针对《TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents》的翻译。 随着自然语言处理的最新进展,大型语言模型(LLM)已成为各种现实世界应用程序的强大工具。尽管LLM的能力很强,但其内在的生成能力可能不足以处理复杂的任务,而复杂的任务

    2024年02月09日
    浏览(52)
  • 【EAI 010】MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World

    论文标题:MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World 论文作者:Yining Hong, Zishuo Zheng, Peihao Chen, Yian Wang, Junyan Li, Chuang Gan 作者单位:UMass Amherst, UCLA, MIT-IBM Watson AI Lab 论文原文:https://arxiv.org/abs/2401.08577 论文出处:– 论文被引:–(02/02/2024) 项目主页:

    2024年02月22日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包