SELF GENERATED WARGAME AI

这篇具有很好参考价值的文章主要介绍了SELF GENERATED WARGAME AI。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

SELF GENERATED WARGAME AI: DOUBLE LAYER AGENT TASK PLANNING BASED ON LARGE LANGUAGE MODEL

自生成兵棋AI:基于大语言模型的双城代理任务规划

  • 摘要

    • 大语言模型应用于智能决策领域,构建了以大语言模型为决策核心的Agent架构

    • 进一步提出两层Agent任务规划,通过自然语言交互下达和执行决策命令,并通过兵棋模拟环境进行模拟验证

    • 实验发现

      • LLM的智能决策能力在智能性、可理解性和泛化性方面,明显强于常用的强化学习AI和规则AI,都更好

      • LLM的智能度与提示密切相关

    • 将LLM从人机交互扩展到智能决策领域,对于智能决策的发展具有重要的参考价值和意义。

Introduction

  • ChatGPT在代码等领域的突破给利用ChatGPT自生成AI在兵棋中做出智能决策带来启示(现今论文很通用的说法)

  • 深度学习、强化学习与智能兵棋不断深入结合,智能体的智能不断提高。但规则AI因规则的限制难以突破规则的上限;强化学习、深度学习可解释性差,难以实现场景和捕获点变化下的模型迁移。

  • 引出 提高人工智能在智能兵棋领域的智能化和泛化性成为进一步研究的重点。

  • 文中又提到,对抗博弈的决策是复杂且连续的。为了使决策更加智能和泛化,论文设计一种基于大语言模型的自生成AI兵棋架构。创建一种决策机制,涉及多个生成代理交互、模仿人类行为并生成可解释、可信且高度通用的游戏对抗性智能决策。

  • 论文三点核心工作

    • 自生成兵棋架构:multi-agent,每个agent可以通过反射流和记忆流相互通信和协作,并共同做出决策。可以相互交谈,达到共享信息,分析情况,并根据谈话内容做出推断和决策的目的(每个代理都有LLM驱动,multi-agent几乎都是这样处理的)

    • 构建两层Agent任务规划模型,分战略Agent和战术Agent来规划游戏对抗过程的任务

      • 战略Agent描述所有当前代理观察到的特定情况。规划是指根据观察到的情境信息来分配和执行任务。

      • 战术Agent只关注单个Agent棋子观察到的情况,并根据战略规划Agent执行相关任务。战术Agent针对战略Agent发出的提示,也有自己的判断和反馈。

    • 以兵棋为实验平台,实验表明大语言模型的智能决策能力明显强于强化学习AI和规则AI,且智能性、可理解性、泛化性均更好。同时发现,向大型语言模型提供该领域专家的先验知识可以显著提高智力

生成式兵棋AI架构

图一:自生成兵棋AI在环境中交互的一个案例展示

SELF GENERATED WARGAME AI,人工智能

图2:战略Agent和战术Agent关系

SELF GENERATED WARGAME AI,人工智能

  • Agent架构组件

    • 内存流:存储和分配缓冲区、生成批次

    • 反射流:使用批处理作为LLM提示的反射流,了解其在决策中的作用

    • 任务规划流:使Agent整合信息、制定更好的规划

生成式兵棋AI模型

Agent互动

  • LLM将自然语言转换为简洁的符号表示给出action建议

图3:双层Agent任务规划决策框架

SELF GENERATED WARGAME AI,人工智能

  • 生成action步骤:

    • LLM与检索信息结合,利用提示调整输出

    • 架构为LLM提供提示

    • LLM选择action的数字

    • Agent根据数字采取行动

  • 挑战: 生成最相关的内存片段,同时从内存流中检索和合成相关数据

    • 全用gpt-4成本高、效率低,所以在不影响效果的情况下,战略Agent用gpt-4,战术用gpt-3.5

  • 内存流

    • 内存对象列表

      • 每个对象包括自然语言描述、创建时间、最近访问时间

      • 基本元素:观察,Agent观察到的所有情景信息

    • 检索函数:从Agent的观察中提取信息。选择性的、优先提取最近观察、重要节点、相关记忆

      • 重要性分数:从记忆流中检索相应的记忆形成提示,让代理生成相应的重要性分数并将其存储回记忆流中

      • 利用这个分数提取信息。score_final = α_recency ∗ score_recency + α_importance ∗ score_importance + α_relevance ∗ score_relevance

  • 反射流:通过对信息的观察和行动的规划来推断和生成高级推理语义

    • 检索函数中的分数超过一定阈值时,就会触发反射

    • 步骤:根据兵棋Agent之前的经验流程提出问题并进行反思过程

  • 任务规划流

    • 战略Agent将所有Agent观察的结果描述为:<总结、观察、规划>

仿真实验

规则:红蓝双方争夺中间控制点(红旗),最先到达控制点的一方获胜。或者如果一方被另一方彻底消灭,则另一方获胜

  • 表一:在杀死、达成目标、生存三个任务上的得分

    • SELF GENERATED WARGAME AI,人工智能

      GWAE:本文模型+专家经验
    • GWA:本文模型

  • 所有算法的胜率线图

  • SELF GENERATED WARGAME AI,人工智能

图6:平均胜率图

SELF GENERATED WARGAME AI,人工智能

  • 左图平均胜率散点图,右图任务平均得分热图

SELF GENERATED WARGAME AI,人工智能

  • 实验结论:输入专家经验能够显著提高模型性能,GWA和GWAE性能显著优于强化学习算法

结论

  • 决策用大语言模型经过充分的提前训练,在实际游戏对抗中具有很强的适应性。无需等待重新开始训练,对于不同任务具有很强的智能性和泛化性

  • 大语言模型所表现出的智能明显强于一般的强化学习算法

  • 大语言模型的智能程度与提示之间存在显著的相关性

  • 创新点

    • 大语言模型从以往的人机交互扩展到了智能决策领域文章来源地址https://www.toymoban.com/news/detail-816109.html

到了这里,关于SELF GENERATED WARGAME AI的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【人工智能】AI 人工智能技术近十年演变发展历程

    过去十年对于人工智能(AI)领域来说是一段激动人心的多事之秋。对深度学习潜力的适度探索变成了一个领域的爆炸性扩散,现在包括从电子商务中的推荐系统到自动驾驶汽车的对象检测以及可以创建从逼真的图像到连贯文本的所有内容的生成模型。 在本文中,我们将沿着

    2024年02月09日
    浏览(44)
  • AI人工智能开发的5种最佳人工智能编程语言

    今天的AI程序员应该掌握多种语言,因为他们在跨学科的环境中工作,而不是在孤岛中工作。 虽然当前这一代人更喜欢Python,R,Java,Lisp,Prolog,Julia等 ,但前端开发人员必须了解JavaScript,Python和R的机器学习应用程序。一家知名组织的流程自动化首席开发人员了解R,Java,

    2023年04月16日
    浏览(43)
  • 【人工智能】Responsible AI 负责任的人工智能:人工智能安全和隐私的未来 The Future of AI Security and Privacy

      While AI development was mostly in the realm of research, practices such as sharing open datasets, publishing models publicly, and using any compute resources available all helped drive forward the state of the art. AI is now increasingly deployed in production environments in the commercial, healthcare, government, and defense sectors and Intel provides

    2023年04月09日
    浏览(36)
  • 人工智能ai写作系统,ai智能写作机器人

     人工智能AI大数据深度:基于伪原创算法,采用神经网络算法,在超过1535000篇文章中进行自动学习、聚合算法进行人工智能的创建,内容语义不变,媒体阿里、腾讯、百度均于日前在百家号内容创作者盛典上推出人工智能创作支撑平台创作大脑。 智能助手可以为人类创作者

    2024年02月10日
    浏览(53)
  • 【AI人工智能】从技术角度看,我们离超级人工智能还有多远?

    目录 前言 超级人工智能是什么? 一、计算能力 二、算法支持 三

    2024年02月06日
    浏览(40)
  • AI人工智能简史

    最近学习AI,顺便整理了一份AI人工智能简史,大家参考: 1951年 第一台神经网络机,称为SNARC; 1956年 达特茅斯学院会议,正式确立了人工智能的研究领域; 1966年 MIT发明ELIZA人机心理治疗对话程序,通过和数据库实现心理咨询; 1980年 CMU为DEC设计的XCON专家系统获得巨

    2023年04月17日
    浏览(40)
  • 人工智能AI简史

    最近学习AI,顺便整理了一份AI人工智能简史,大家参考: 1951年 第一台神经网络机,称为SNARC; 1956年 达特茅斯学院会议,正式确立了人工智能的研究领域; 1966年 MIT发明ELIZA人机心理治疗对话程序,通过和数据库实现心理咨询; 1980年 CMU为DEC设计的XCON专家系统获得巨

    2023年04月18日
    浏览(77)
  • 【人工智能】AI 人工智能:会给人类未来的工作带来怎样的转变?

    0. 前言 人工智能(AI)将对人类未来的工作产生深刻的影响,这些转变具体可以分为以下几点: 自动化与智能优化 : 人工智能可以实现自动化,从而提高工作效率。许多脑力和体力密集型的任务将不再需要人工完成,劳动力可用于更高级别的任务。 生产力增长 : 随着AI的广泛

    2024年02月08日
    浏览(35)
  • 【人工智能 AI】什么是人工智能? What is Artificial Intelligence

      目录 Introduction to Artificial Intelligence人工智能概论 What is Artificial Intelligence? 什么是人工智能?

    2024年02月10日
    浏览(34)
  • 【大数据&AI人工智能】变革人类社会的第四次工业革命——AI人工智能革命已到来

    霍金曾留下几句话: 在我的一生中,我见证了很多社会深刻的变化。其中最深刻,同时也是对人类影响与日俱增的变化就是人工智能的崛起。 人工智能的真正风险不是它的恶意,而是它的能力。一个超智能的人工智能在完成目标方面非常出色,如果这些目标与我们的目标不

    2023年04月22日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包