【论文阅读笔记】Large Multimodal Agents: A Survey

这篇具有很好参考价值的文章主要介绍了【论文阅读笔记】Large Multimodal Agents: A Survey。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

[写在开头] 深度学习小白,如果有不对的地方请大家多指正,对说的就是你大佬!

论文名称: Large Multimodal Agents: A Survey
论文链接: https://arxiv.org/pdf/2402.15116.pdf

Large Multimodal Agents (LMAs) 大型多模态智能体

Motivation
大语言模型的诞生赋予了 agent 类人的决策和推理能力,如何将 LLM-based agent 拓展到多模态领域是学界新兴的研究热点。下面这张图是2022年11月到2024年2月在LMA领域的一些研究工作。
关于LLM-based agent的综述有很多,但在多模态领域的综述文章比较少,因此写了这篇文章总结相关工作。
【论文阅读笔记】Large Multimodal Agents: A Survey,论文阅读,笔记

文章结构

  1. LMA的四个核心组件: 感知、规划、执行、记忆
  2. LMA的四种类型
  3. 多智能体协作
  4. LMA的评价体系
  5. LMA的应用场景

LMA的核心组成: Perception、planning、action、memory

【论文阅读笔记】Large Multimodal Agents: A Survey,论文阅读,笔记

Perception

【论文阅读笔记】Large Multimodal Agents: A Survey,论文阅读,笔记
相较于 text-based agent,LMA需要提取、处理更丰富的环境信息。如何更好地提取和融合特征是LMA的一个挑战。一些早期的工作就是将其它模态的信息转成文本,例如说用一段话描述一张图片,但这会产生冗余或者很多无关的信息; 针对这一问题,许多paper都提出了自己的方法,比如 JARVIS-1从图片中提取关键的词,然后使用GPT refine这些词生成描述性的语句,最后使用视觉信息在这些语句中检索寻找最相关的语句。

Planning

Planner 是LMA的核心组件,负责决策和推理并制定计划完成相应的目标。
文章从四个维度围绕planner进行阐述, model,format,inspection&reflection, planning method
【论文阅读笔记】Large Multimodal Agents: A Survey,论文阅读,笔记
Model: 基于什么模型进行规划,闭源模型可以调用API,开源模型可以进行微调
Format: 即规划的结果,自然语言或者程序
Inspection&reflection: 即是否有查询、反思的操作
Planning method: 即是静态规划还是动态规划
【论文阅读笔记】Large Multimodal Agents: A Survey,论文阅读,笔记
跟我理解的刚好反过来,不知道是不是写错了

Action

Action模块就是具体的执行模块,生成plan以后以什么样的方式去执行
【论文阅读笔记】Large Multimodal Agents: A Survey,论文阅读,笔记
Action方式包括使用工具(T)、具身动作(E)、虚拟动作(V)

Memory

使用记忆库可以帮助LMA做出更准确的规划。记忆一般以键值对的方式储存。
LMA的四种类型
A. 没有记忆组件的闭源模型
B. 没有记忆组件的微调模型
C. 有间接接触的记忆组件的模型
D. 有直接接触的记忆组件的模型
【论文阅读笔记】Large Multimodal Agents: A Survey,论文阅读,笔记
【论文阅读笔记】Large Multimodal Agents: A Survey,论文阅读,笔记
这里是否有直接接触的记忆组件,主要体现在记忆组件用在哪里。用在规划上,就是指我规划的时候参考之前的状态-规划键值对,做出合适规划;用在action上,就比如生成了py文件,执行组件根据之前的记忆,知道要调用python去运行,类似于这样子。

多智能体协作

多智能体协作可以分为两类,有记忆机制的多智能体协作和没有记忆机制的多智能体协作。
【论文阅读笔记】Large Multimodal Agents: A Survey,论文阅读,笔记

LMA的评价体系

主观评价
Versatility:是否可以使用多种工具
User-Friendliness:LMA的执行速度、准确度等,是否能让用户满意
Scalability: 是否能够使用新的工具、生成内容的多样性
Value and Safety: 生成内容是否是安全的
客观评价
Metric: 现有的指标都是跟特定的任务挂钩的,不能全面评价LMA的能力,因此需要探索更合适的指标。
Benchmarks:这里主要介绍了提出了一些Benchmarks的工作,比如GAIA提出了一个包含了466个问答的测试集
LMA的应用场景
【论文阅读笔记】Large Multimodal Agents: A Survey,论文阅读,笔记
机器人和具身智能、自动驾驶、视觉生成和编辑等等

以上就是这篇论文Large Multimodal Agents: A Survey的阅读笔记,掐头去尾只有10页,跟其它综述相比确实比较单薄,主要聚焦于多模态LLM,最后作者还以讨论结尾,讨论未来MLLM的发展方向,大家可以去读一读。

创作不易,转载请注明出处。文章来源地址https://www.toymoban.com/news/detail-841067.html

到了这里,关于【论文阅读笔记】Large Multimodal Agents: A Survey的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • A Survey on Large Language Model based Autonomous Agents

    本文是LLM系列的文章,针对《A Survey on Large Language Model based Autonomous Agents》的翻译。 自动代理一直是学术界的一个突出研究课题。该领域先前的研究通常集中在孤立环境中训练知识有限的智能体,这与人类的学习过程有很大差异,从而使智能体难以实现类似人类的决策。最近

    2024年02月11日
    浏览(37)
  • 【论文笔记】A Survey of Large Language Models in Medicine - Progress, Application, and Challenges

    将LLMs应用于医学,以协助医生和病人护理,成为人工智能和临床医学领域的一个有前景的研究方向。为此, 本综述提供了医学中LLMs当前进展、应用和面临挑战的全面概述 。 具体来说,旨在回答以下问题: 1)什么是LLMs,如何构建医学LLMs? 2)医学LLMs的下游表现如何? 3)

    2024年02月03日
    浏览(45)
  • [论文笔记]小目标识别文献综述Towards large-scale small object detection: Survey and Benchmarks

    2022_cite=12_Cheng——Towards large-scale small object detection: Survey and Benchmarks https://shaunyuan22.github.io/SODA/ 小目标检测= small object detection = SOD Datasets: SODA-D: OneDrvie; BaiduNetDisk SODA-A: OneDrvie; BaiduNetDisk Codes The official codes of our benchmark, which mainly includes data preparation and evaluation , are released belo

    2024年02月10日
    浏览(46)
  • VL系列 Exchanging-based Multimodal Fusion with Transformer 论文阅读笔记

    写在前面   又是一个周末 教师节,祝老师们节日快乐呀。依惯例,论文读起来~   这是一篇多模态融合的文章,也算是这些年新出的一种方式了,具体还不知道啥情况,代码已开源,一试便知。 论文地址:Exchanging-based Multimodal Fusion with Transformer 代码地址:https://github.

    2024年02月05日
    浏览(60)
  • [论文阅读笔记25]A Comprehensive Survey on Graph Neural Networks

    这是一篇GNN的综述, 发表于2021年的TNNLS. 这篇博客旨在对GNN的基本概念做一些记录. 论文地址: 论文 对于图像数据来说, CNN具有平移不变性和局部连接性, 因此可以在欧氏空间上良好地学习. 然而, 对于具有图结构的数据(例如社交网络 化学分子等)就需要用GNN来学习. 最早期的GN

    2024年02月11日
    浏览(60)
  • 【论文阅读笔记】Tag-assisted multimodal sentiment analysis under uncertain missing modalities

    Zeng J, Liu T, Zhou J. Tag-assisted multimodal sentiment analysis under uncertain missing modalities[C]//Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022: 1545-1554.【开放源码】 【论文概述】 本文提出了一种名为“标签辅助变换器编码器(TATE)网络”的新型多

    2024年01月17日
    浏览(53)
  • 【论文阅读笔记】M3Care: Learning with Missing Modalities in Multimodal Healthcare Data

    本文介绍了一种名为“M³Care”的模型,旨在处理多模态医疗保健数据中的缺失模态问题。这个模型是端到端的,能够补偿病人缺失模态的信息,以执行临床分析。M³Care不是生成原始缺失数据,而是在潜在空间中估计缺失模态的任务相关信息,利用来自具有相似未缺失模态的

    2024年02月04日
    浏览(103)
  • 【论文阅读笔记】A Recent Survey of Vision Transformers for Medical Image Segmentation

    Khan A, Rauf Z, Khan A R, et al. A Recent Survey of Vision Transformers for Medical Image Segmentation[J]. arXiv preprint arXiv:2312.00634, 2023. 【论文概述】 本文是关于医学图像分割中视觉变换器(Vision Transformers,ViTs)的最新综述。文中详细回顾了ViTs及其与卷积神经网络(CNNs)结合形成的混合视觉Trans

    2024年02月02日
    浏览(65)
  • 论文阅读1--A Survey on Incomplete Multi-view Clustering(不完全多视图聚类的调查)阅读笔记

    目录 写在前面(知识补充) 0.Abstract 1.Introduction 2. FUNDAMENTALS AND PRELIMINARY CONCEPTS 3. MATRIX FACTORIZATION BASED IMC(基于矩阵分解的IMC) 4. KERNEL LEARNING BASED IMC(基于内核学习的IMC) 5.GRAPH LEARNING BASED IMC(基于图学习的IMC) 6.DEEP LEARNING BASED IMC(基于深度学习的IMC) 7. EXPERIMENTS(实验部分)

    2024年02月05日
    浏览(59)
  • Unifying Large Language Models and Knowledge Graphs: A Roadmap 论文阅读笔记

    NLP, LLM, Generative Pre-training, KGs, Roadmap, Bidirectional Reasoning LLMs are black models and can\\\'t capture and access factual knowledge. KGs are structured knowledge models that explicitly store rich factual knowledge. The combinations of KGs and LLMs have three frameworks,  KG-enhanced LLMs, pre-training and inference stages to provide external knowl

    2024年02月19日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包