【论文阅读笔记】Large Multimodal Agents: A Survey-Toy模板网

这篇具有很好参考价值的文章主要介绍了【论文阅读笔记】Large Multimodal Agents: A Survey。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

[写在开头] 深度学习小白，如果有不对的地方请大家多指正，对说的就是你大佬！

论文名称: Large Multimodal Agents: A Survey
论文链接: https://arxiv.org/pdf/2402.15116.pdf

Large Multimodal Agents (LMAs) 大型多模态智能体

Motivation
大语言模型的诞生赋予了 agent 类人的决策和推理能力，如何将 LLM-based agent 拓展到多模态领域是学界新兴的研究热点。下面这张图是2022年11月到2024年2月在LMA领域的一些研究工作。
关于LLM-based agent的综述有很多，但在多模态领域的综述文章比较少，因此写了这篇文章总结相关工作。
【论文阅读笔记】Large Multimodal Agents: A Survey,论文阅读,笔记

文章结构

LMA的四个核心组件: 感知、规划、执行、记忆
LMA的四种类型
多智能体协作
LMA的评价体系
LMA的应用场景

LMA的核心组成: Perception、planning、action、memory

【论文阅读笔记】Large Multimodal Agents: A Survey,论文阅读,笔记

Perception

【论文阅读笔记】Large Multimodal Agents: A Survey,论文阅读,笔记
相较于 text-based agent，LMA需要提取、处理更丰富的环境信息。如何更好地提取和融合特征是LMA的一个挑战。一些早期的工作就是将其它模态的信息转成文本，例如说用一段话描述一张图片，但这会产生冗余或者很多无关的信息; 针对这一问题，许多paper都提出了自己的方法，比如 JARVIS-1从图片中提取关键的词，然后使用GPT refine这些词生成描述性的语句，最后使用视觉信息在这些语句中检索寻找最相关的语句。

Planning

Planner 是LMA的核心组件，负责决策和推理并制定计划完成相应的目标。
文章从四个维度围绕planner进行阐述, model，format，inspection&reflection, planning method
【论文阅读笔记】Large Multimodal Agents: A Survey,论文阅读,笔记
Model: 基于什么模型进行规划，闭源模型可以调用API，开源模型可以进行微调
Format: 即规划的结果，自然语言或者程序
Inspection&reflection: 即是否有查询、反思的操作
Planning method: 即是静态规划还是动态规划
【论文阅读笔记】Large Multimodal Agents: A Survey,论文阅读,笔记
跟我理解的刚好反过来，不知道是不是写错了

Action

Action模块就是具体的执行模块，生成plan以后以什么样的方式去执行
【论文阅读笔记】Large Multimodal Agents: A Survey,论文阅读,笔记
Action方式包括使用工具（T）、具身动作(E)、虚拟动作(V)。

Memory

使用记忆库可以帮助LMA做出更准确的规划。记忆一般以键值对的方式储存。
LMA的四种类型
A. 没有记忆组件的闭源模型
B. 没有记忆组件的微调模型
C. 有间接接触的记忆组件的模型
D. 有直接接触的记忆组件的模型
【论文阅读笔记】Large Multimodal Agents: A Survey,论文阅读,笔记

这里是否有直接接触的记忆组件，主要体现在记忆组件用在哪里。用在规划上，就是指我规划的时候参考之前的状态-规划键值对，做出合适规划；用在action上，就比如生成了py文件，执行组件根据之前的记忆，知道要调用python去运行，类似于这样子。

多智能体协作

多智能体协作可以分为两类，有记忆机制的多智能体协作和没有记忆机制的多智能体协作。
【论文阅读笔记】Large Multimodal Agents: A Survey,论文阅读,笔记

LMA的评价体系

主观评价
Versatility：是否可以使用多种工具
User-Friendliness：LMA的执行速度、准确度等，是否能让用户满意
Scalability: 是否能够使用新的工具、生成内容的多样性
Value and Safety: 生成内容是否是安全的
客观评价
Metric: 现有的指标都是跟特定的任务挂钩的，不能全面评价LMA的能力，因此需要探索更合适的指标。
Benchmarks：这里主要介绍了提出了一些Benchmarks的工作，比如GAIA提出了一个包含了466个问答的测试集
LMA的应用场景
【论文阅读笔记】Large Multimodal Agents: A Survey,论文阅读,笔记
机器人和具身智能、自动驾驶、视觉生成和编辑等等