推荐一个最近刚出的比较全面的多模态综述:Multimodal Deep Learning

这篇具有很好参考价值的文章主要介绍了推荐一个最近刚出的比较全面的多模态综述:Multimodal Deep Learning。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

简介

标题:Multimodal Deep Learning
网址:https://arxiv.org/abs/2301.04856
收录于:arxiv 2023

  与其说这是一篇论文,倒不如说这是一本“书”。全文共 239 页,这其中还不包括封面、目录、参考文献等等的篇幅。

  本书是一个研讨会的成果,在这个研讨会中,我们回顾了多模态方法,并试图创建一个坚实的领域概述,从深度学习的两个子领域的 SOTA 方法开始。 此外,还讨论了将一种模态转换为另一种模态的建模框架,以及利用一种模态增强另一种模态的表示学习的模型。 为了总结第二部分,介绍了同时处理这两种模态的体系结构。 最后,我们还讨论了其他模态以及通用的多模态模型,它们能够在一个统一的体系结构中处理不同模式下的不同任务。 最后以一个有趣的应用(Generative Art)结束了这本小册子。

  本文对 多模态、CV 和 NLP 领域中一些任务的 数据集、模型、评价指标等等 都做了较详细的介绍和总结。主要还是以多模态方面的内容为主,但对于 CV 和 NLP 方面的阐述也不少。总的来说,是个非常不错的综述,内容较全面且详细。文章来源地址https://www.toymoban.com/news/detail-425374.html


文章结构


1 Introduction

  1.1 Introduction to Multimodal Deep Learning

  1.2 Outline of the Booklet

2 Introducing the modalities

  2.1 State-of-the-art in NLP

  2.2 State-of-the-art in Computer Vision

  2.3 Resources and Benchmarks for NLP, CV and multimodal tasks

3 Multimodal architectures

  3.1 Image2Text

  3.2 Text2Image

  3.3 Images supporting Language Models

  3.4 Text supporting Vision Models

  3.5 Models for both modalities

4 Further Topics

  4.1 Including Further Modalities

  4.2 Structured + Unstructured Data

  4.3 Multipurpose Models

  4.4 Generative Art

5 Conclusion

6 Epilogue

  6.1 New influential architectures

  6.2 Creating videos

7 Acknowledgements

到了这里,关于推荐一个最近刚出的比较全面的多模态综述:Multimodal Deep Learning的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读综述:自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

    题目 :Multi-modal Sensor Fusion for Auto Driving Perception: A Survey 用于自动驾驶感知的多模态传感器融合:综述 链接 :https://arxiv.org/abs/2202.02703 只翻译了个人认为比较重要的东西,有些官方话就省了。这篇文章通俗易懂,不过综述都是标记文献[xx]干了啥,其实咱也不知道他具体是咋

    2023年04月08日
    浏览(55)
  • 用NEO4J平台构建一个《人工智能引论》课程的多模态知识图谱

    知识图谱的经典定义是结构化的语义知识库,是用形象化的图形式来表达出物理世界中的概念以及内部关系。 其基本组成单位是“实体-关系-实体”三元组 ,实体间通过关系相互连接形成知识结构网络。而它 也是基于图的数据结构,基本组成是“节点-边-节点” ,从而

    2024年01月16日
    浏览(75)
  • 【人工智能 | 多模态】几种常见的多模态任务

    多模态(multimodal)是指涉及到多种模态(如视觉、语音、文本等)的数据或信息。在计算机科学和人工智能领域中,多模态通常指将多种类型的数据或信息相结合,来解决特定的问题或任务。 以图像识别为例,图像可以被视为一种视觉模态,而对图像的分类或识别就是单模

    2024年02月08日
    浏览(68)
  • 多模态技术综述

    当我们谈到人类感知的多样性时,我们会意识到不同的感官信息对我们的认知和理解是至关重要的。例如,我们在观看一部电影时,不仅仅是通过视觉来理解其中的情节,还可以通过声音、配乐、文字等多种方式来获得更加丰富的信息。类似地,对于一张图片或一段文字,我

    2024年02月06日
    浏览(51)
  • 多模态预训练模型综述

    经典预训练模型还未完成后续补上 预训练模型在NLP和CV上取得巨大成功,学术届借鉴预训练模型==下游任务finetune==prompt训练==人机指令alignment这套模式,利用多模态数据集训练一个大的多模态预训练模型(跨模态信息表示)来解决多模态域各种下游问题。 多模态预训练大模型

    2024年02月06日
    浏览(49)
  • 多模态模型技术综述

    多模态学习是指从不同输入模态学习表示的过程,例如图像数据、文本或语音。由于自然语言处理(NLP)和计算机视觉(CV)领域的方法学突破,多模态模型因其能够增强预测和更好地模拟人类学习的方式而受到越来越多的关注。本文重点讨论图像和文本作为输入数据。该文

    2024年02月04日
    浏览(42)
  • 多模态大型语言模型综述

    Authors: Davide Caffagni ; Federico Cocchi ; Luca Barsellotti ; Nicholas Moratelli ; Sara Sarto ; Lorenzo Baraldi ; Lorenzo Baraldi ; Marcella Cornia ; Rita Cucchiara Connecting text and visual modalities plays an essential role in generative intelligence. For this reason, inspired by the success of large language models, significant research efforts are bei

    2024年02月22日
    浏览(51)
  • 多模态 | 基于GNN的多模态情感识别技术COGMEN项目复现

    COGMEN: COntextualized GNN based Multimodal Emotion recognitioN COGMEN: 基于GNN的多模态情感识别技术 Paper:   https://arxiv.org/abs/2205.02455  源代码 GitHub - Exploration-Lab/COGMEN 论文翻译及总结可参考我另外一篇博文:多模态 |COGMEN: COntextualized GNN based Multimodal Emotion recognitioN论文详解_夏天|여름이다

    2023年04月09日
    浏览(71)
  • 【论文笔记】最近看的时空数据挖掘综述整理8.27

    Deep Learning for Spatio-Temporal Data Mining: A Survey 被引用次数:392 [Submitted on 11 Jun 2019 ( v1 ), last revised 24 Jun 2019 (this version, v2)] 主要内容: 该论文是一篇关于深度学习在时空数据挖掘中的应用的综述。论文首先介绍了时空数据挖掘的背景和意义,然后详细介绍了深度学习在时空数据

    2024年02月11日
    浏览(45)
  • 【论文速递】EMNLP2022-随机模态缺失情况下的多模态情感分析

    【论文速递】EMNLP2022-随机模态缺失情况下的多模态情感分析 【论文原文】:EMNLP2022 - Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities 论文:https://aclanthology.org/2022.emnlp-main.189/ 代码:https://github.com/JaydenZeng/EMMR 博主 :多模态情感分析,模态缺失

    2024年02月15日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包