[写在开头] 深度学习小白,如果有不对的地方请大家多指正,对说的就是你大佬!
论文名称: Large Multimodal Agents: A Survey
论文链接: https://arxiv.org/pdf/2402.15116.pdf
Large Multimodal Agents (LMAs) 大型多模态智能体
Motivation
大语言模型的诞生赋予了 agent 类人的决策和推理能力,如何将 LLM-based agent 拓展到多模态领域是学界新兴的研究热点。下面这张图是2022年11月到2024年2月在LMA领域的一些研究工作。
关于LLM-based agent的综述有很多,但在多模态领域的综述文章比较少,因此写了这篇文章总结相关工作。
文章结构
- LMA的四个核心组件: 感知、规划、执行、记忆
- LMA的四种类型
- 多智能体协作
- LMA的评价体系
- LMA的应用场景
LMA的核心组成: Perception、planning、action、memory
Perception
相较于 text-based agent,LMA需要提取、处理更丰富的环境信息。如何更好地提取和融合特征是LMA的一个挑战。一些早期的工作就是将其它模态的信息转成文本,例如说用一段话描述一张图片,但这会产生冗余或者很多无关的信息; 针对这一问题,许多paper都提出了自己的方法,比如 JARVIS-1从图片中提取关键的词,然后使用GPT refine这些词生成描述性的语句,最后使用视觉信息在这些语句中检索寻找最相关的语句。
Planning
Planner 是LMA的核心组件,负责决策和推理并制定计划完成相应的目标。
文章从四个维度围绕planner进行阐述, model,format,inspection&reflection, planning method
Model: 基于什么模型进行规划,闭源模型可以调用API,开源模型可以进行微调
Format: 即规划的结果,自然语言或者程序
Inspection&reflection: 即是否有查询、反思的操作
Planning method: 即是静态规划还是动态规划
跟我理解的刚好反过来,不知道是不是写错了
Action
Action模块就是具体的执行模块,生成plan以后以什么样的方式去执行
Action方式包括使用工具(T)、具身动作(E)、虚拟动作(V)。
Memory
使用记忆库可以帮助LMA做出更准确的规划。记忆一般以键值对的方式储存。
LMA的四种类型
A. 没有记忆组件的闭源模型
B. 没有记忆组件的微调模型
C. 有间接接触的记忆组件的模型
D. 有直接接触的记忆组件的模型
这里是否有直接接触的记忆组件,主要体现在记忆组件用在哪里。用在规划上,就是指我规划的时候参考之前的状态-规划键值对,做出合适规划;用在action上,就比如生成了py文件,执行组件根据之前的记忆,知道要调用python去运行,类似于这样子。
多智能体协作
多智能体协作可以分为两类,有记忆机制的多智能体协作和没有记忆机制的多智能体协作。
LMA的评价体系
主观评价
Versatility:是否可以使用多种工具
User-Friendliness:LMA的执行速度、准确度等,是否能让用户满意
Scalability: 是否能够使用新的工具、生成内容的多样性
Value and Safety: 生成内容是否是安全的
客观评价
Metric: 现有的指标都是跟特定的任务挂钩的,不能全面评价LMA的能力,因此需要探索更合适的指标。
Benchmarks:这里主要介绍了提出了一些Benchmarks的工作,比如GAIA提出了一个包含了466个问答的测试集
LMA的应用场景
机器人和具身智能、自动驾驶、视觉生成和编辑等等
以上就是这篇论文Large Multimodal Agents: A Survey的阅读笔记,掐头去尾只有10页,跟其它综述相比确实比较单薄,主要聚焦于多模态LLM,最后作者还以讨论结尾,讨论未来MLLM的发展方向,大家可以去读一读。文章来源:https://www.toymoban.com/news/detail-841067.html
创作不易,转载请注明出处。文章来源地址https://www.toymoban.com/news/detail-841067.html
到了这里,关于【论文阅读笔记】Large Multimodal Agents: A Survey的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!