一、多模态的定义
多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。
顾名思义,多模态研究的就是这些不同类型的数据的融合的问题。
目前大多数工作中,只处理图像和文本形式的数据,即把视频数据转为图像,把音频数据转为文本格式。这就涉及到图像和文本领域的内容。
二、多模态的任务
多模态研究的是视觉语言问题,其任务是关于图像和文字的分类、问答、匹配、排序、定位等问题。
例如给定一张图片,可以完成以下任务:
2.1 VQA(Visual Question Answering)视觉问答
- 输入:一张图片、一个自然语言描述的问题
- 输出:答案(单词或者短语)
2.2 Image Caption 图像字幕
- 输入:一张图片
- 输出:图片的自然语言描述(一个句子)
2.3 Referring Expression Comprehension 指代表达
- 输入:一张图片、一个自然语言描述的句子
- 输出:判断句子描述的内容(正确或错误)
2.4 Visual Dialogue 视觉对话
- 输入:一张图片
- 输出:两个角色进行多次交互、对话
2.5 VCR (Visual Commonsense Reasoning) 视觉常识推理
- 输入:1个问题,4个备选答案,4个理由
- 输出:正确答案,和理由
2.6 NLVR(Natural Language for Visual Reasoning)自然语言视觉推理
- 输入:2张图片,一个分布
- 输出:true或false
2.7 Visual Entailment 视觉蕴含
- 输入:图像、文本
- 输出:3种label的概率。(entailment、neutral、contradiction)蕴含、中性、矛盾
2.8 Image-Text Retrieval 图文检索
有3种方式。
1)以图搜文。输入图片,输出文本
2)以文搜图。输入文本,输出图片
3)以图搜图,输入图片,输出图片
三、多模态融合的方式
通过NLP的预训练模型,可以得到文本的嵌入表示;再结合图像和视觉领域的预训练模型,可以得到图像的嵌入表示;那么,如何将两者融合起来,来完成以上的各种任务呢?
常用的多模态交叉的方式有两种:
3.1 点乘或者直接追加
此种方式将文本和图像分别进行Embedding,之后将各自的向量进行追加或者点乘。
好处是简单方便,计算成本也比较低。
3.2 Transformer
其好处是利用了Transformer架构,能够更好地进行图像特征和文本特征的表示。
缺点是占用空间大,计算成本较高。文章来源:https://www.toymoban.com/news/detail-627617.html
文章来源地址https://www.toymoban.com/news/detail-627617.html
到了这里,关于【计算机视觉 & 自然语言处理】什么是多模态?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!