【计算机视觉 & 自然语言处理】什么是多模态？

9月前作者：旅途中的宽~ 分类：Toy博客阅读(43) 违法举报

这篇具有很好参考价值的文章主要介绍了【计算机视觉 & 自然语言处理】什么是多模态？。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、多模态的定义

多模态指的是多种模态的信息，包括：文本、图像、视频、音频等。

顾名思义，多模态研究的就是这些不同类型的数据的融合的问题。

目前大多数工作中，只处理图像和文本形式的数据，即把视频数据转为图像，把音频数据转为文本格式。这就涉及到图像和文本领域的内容。

二、多模态的任务

多模态研究的是视觉语言问题，其任务是关于图像和文字的分类、问答、匹配、排序、定位等问题。

例如给定一张图片，可以完成以下任务：

2.1 VQA（Visual Question Answering）视觉问答

输入：一张图片、一个自然语言描述的问题
输出：答案（单词或者短语）

2.2 Image Caption 图像字幕

输入：一张图片
输出：图片的自然语言描述（一个句子）

2.3 Referring Expression Comprehension 指代表达

输入：一张图片、一个自然语言描述的句子
输出：判断句子描述的内容（正确或错误）

2.4 Visual Dialogue 视觉对话

输入：一张图片
输出：两个角色进行多次交互、对话

2.5 VCR (Visual Commonsense Reasoning) 视觉常识推理

输入：1个问题，4个备选答案，4个理由
输出：正确答案，和理由

2.6 NLVR(Natural Language for Visual Reasoning)自然语言视觉推理

输入：2张图片，一个分布
输出：true或false

2.7 Visual Entailment 视觉蕴含

输入：图像、文本
输出：3种label的概率。（entailment、neutral、contradiction）蕴含、中性、矛盾

2.8 Image-Text Retrieval 图文检索

有3种方式。

1）以图搜文。输入图片，输出文本

2）以文搜图。输入文本，输出图片

3）以图搜图，输入图片，输出图片

三、多模态融合的方式

通过NLP的预训练模型，可以得到文本的嵌入表示；再结合图像和视觉领域的预训练模型，可以得到图像的嵌入表示；那么，如何将两者融合起来，来完成以上的各种任务呢？

常用的多模态交叉的方式有两种：

3.1 点乘或者直接追加

此种方式将文本和图像分别进行Embedding，之后将各自的向量进行追加或者点乘。

好处是简单方便，计算成本也比较低。

多模态计算机视觉,深度学习笔记,目标检测经典论文导读,计算机视觉,自然语言处理,多模态

3.2 Transformer

其好处是利用了Transformer架构，能够更好地进行图像特征和文本特征的表示。

缺点是占用空间大，计算成本较高。

多模态计算机视觉,深度学习笔记,目标检测经典论文导读,计算机视觉,自然语言处理,多模态文章来源地址https://www.toymoban.com/news/detail-627617.html

到了这里，关于【计算机视觉 & 自然语言处理】什么是多模态？的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

第九课：机器学习与人工智能、计算机视觉、自然语言处理 NLP及机器人

各位小伙伴想要博客相关资料的话关注公众号：chuanyeTry即可领取相关资料！以区分飞蛾为例：标记数据如下。虚线为决策边界如下。右下角表为混淆矩阵。本质上是用任意线段来切分决策空间，不一定是直线。不用统计学的算法。模拟人类学习的过程，将数据进行加权求

2024年02月03日
浏览(100)
阶段五：深度学习和人工智能(学习人工智能的应用领域，如自然语言处理，计算机视觉等)

Python是人工智能领域最流行的编程语言之一，它具有简单易学、功能强大、库丰富等优点，因此在自然语言处理、计算机视觉等领域得到了广泛应用。自然语言处理自然语言处理是人工智能领域的一个重要分支，它主要研究如何让计算机理解和处理人类语言。Python在自然语

2024年02月04日
浏览(75)
【人工智能124种任务大集合】-集齐了自然语言处理(NLP),计算机视觉(CV),语音识别,多模态等任务

大家好，我是微学AI，今天给大家介绍一下人工智能124种任务大集合，任务集合主要包括4大类：自然语言处理（NLP）、计算机视觉（CV）、语音识别、多模态任务。我这里整理了124种应用场景任务大集合，每个任务目录如下：句子嵌入（Sentence Embedding）：将句子映射到固定维

2024年02月13日
浏览(69)
AI&BlockChain：“知名博主独家讲授”人工智能创新应用竞赛【精选实战作品】之《基于计算机视觉、自然语言处理和区块链技术的乘客智能报警系统》案例的界面简介、功能介绍分享之自然语言处理技术

AIBlockChain：“知名博主独家讲授”人工智能创新应用竞赛【精选实战作品】之《基于计算机视觉、自然语言处理和区块链技术的乘客智能报警系统》案例的界面简介、功能介绍分享之自然语言处理技术目录人工智能创新应用竞赛【精选实战作品】之《基于计算机视觉、自然

2024年01月17日
浏览(78)
人工智能领域：面试常见问题超全（深度学习基础、卷积模型、对抗神经网络、预训练模型、计算机视觉、自然语言处理、推荐系统、模型压缩、强化学习、元学习）

【深度学习入门到进阶】必看系列，含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等专栏详细介绍：【深度学习入门到进阶】必看系列，含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、

2024年02月15日
浏览(65)
AI&BlockChain：“知名博主独家讲授”人工智能创新应用竞赛【精选实战作品】之《基于计算机视觉、自然语言处理、区块链和爬虫技术的智能会议系统》软件系统案例的界面简介、功能介绍分享之总篇

AIBlockChain：“知名博主独家讲授”人工智能创新应用竞赛【精选实战作品】之《基于计算机视觉、自然语言处理、区块链和爬虫技术的智能会议系统》软件系统案例的界面简介、功能介绍分享之总篇前言：博主目前已经积累了非常多的基于人工智能技术和区块链技术相关

2024年02月11日
浏览(55)
AI&BlockChain：“知名博主独家讲授”人工智能创新应用竞赛【精选实战作品】之《基于计算机视觉、自然语言处理、区块链和爬虫技术的智能会议系统》软件系统案例的界面简介、功能介绍分享之二、会中智能

AIBlockChain：“知名博主独家讲授”人工智能创新应用竞赛【精选实战作品】之《基于计算机视觉、自然语言处理、区块链和爬虫技术的智能会议系统》软件系统案例的界面简介、功能介绍分享之二、会中智能系统目录人工智能竞赛【精选实战作品】之《基于计算机视觉、自

2024年02月06日
浏览(59)
【自然语言处理】【多模态】ALBEF：基于动量蒸馏的视觉语言表示学习

ALBEF：基于动量蒸馏的视觉语言表示学习《Align before Fuse：Vision and Language Representation Learning with Momentum Distillation》论文地址：https://arxiv.org/pdf/2107.07651.pdf 相关博客：【自然语言处理】【多模态】多模态综述：视觉语言预训练模型【自然语言处理】【多模态】CLIP：从自然语

2024年02月03日
浏览(130)
深度探析卷积神经网络（CNN）在图像视觉与自然语言处理领域的应用与优势

卷积神经网络（CNN）作为一种强大的深度学习模型，在图像视觉和自然语言处理领域展现出了广泛的应用。其独特的网络结构以及层次化的特征学习使其成为目标检测、语音识别、视频分类以及文本分类等多个领域的重要工具。本文将深入探讨CNN在这些领域中的具体应用，并

2024年01月16日
浏览(46)
引领AI变革：边缘计算与自然语言处理结合的无尽可能

讲到Ai，你第一时间会想到什么？是Chagpt和文心一言这样与人类交流自然的Ai生成式对话服务？还是根据快速制图的Ai绘图？这些都是近年来人们所常知的Ai用途，我们今天来讲讲以自然语言处理为辅，在Ai赋能的边缘计算的未来。随着人工智能（

2024年01月24日
浏览(43)