多模态机器学习对齐内容

这篇具有很好参考价值的文章主要介绍了多模态机器学习对齐内容。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

[1] Liang P P, Zadeh A, Morency L P. Foundations and recent trends in multimodal machine learning: Principles, challenges, and open questions[J]. arXiv preprint arXiv:2209.03430, 2022.

[2] Baltrušaitis T, Ahuja C, Morency L P. Multimodal machine learning: A survey and taxonomy[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(2): 423-443.

本篇文章将多模态学习的核心挑战分为六个内容:
多模态机器学习对齐内容
​ (Representation有一条指向Alignment的箭头表示Representation要使用Alignment技术。)

Representation能否学习到能够反应多模态元素异质性和模态元素间相互联系的多模态表示?这里边有三种方法,1)representation fusion(表示融合),即融合两个或者三个模态的信息;2)representation coordination(表示协调),即跨模态的交互信息以保证表示的数量不变,从而改进多模态的上下文表示;3)representation fission(表示分裂),创建一个新的不相交的表示集合来反映多模态数据信息内部结构,比如数据聚类或者数据分解的知识。

Alignment,寻找来自两个或多个模态实例的子组件之间的关系和对应关系。

1.对齐

对齐旨在确定多种模态元素之间的联系(connections,比如相应元素的对应关系)和交互作用(interactions)。对齐方面的工作分为三个方向,Connections,Contextualized Cepresentations和Segmentation

多模态机器学习对齐内容
​ 如果任务的主要建模目标是对齐两个或者多个模态的实例子组件,则为显式对齐;隐式对齐用作另一任务的中间步骤,

显示对齐如果一个模型的优化目标是最大化多模态数据的子元素的对齐程度,则称为显示对齐,如Visual Grounding任务。无监督对齐:给定两个模态的数据作为输入,希望模型实现子元素的对齐,但是训练数据没有“对齐结果”的标注,模型需要同时学习相似度度量和对齐方式。而有监督方法存在标注,可训练模型学习相似度度量。

隐式对齐如果模型的最终优化目标不是对齐任务,对齐过程仅仅是某个中间(或隐式)步骤,则称为隐式对齐。最受欢迎的方式是**基于注意力机制的对齐,我们对两种模态的子元素间求取注意力权重矩阵,**可视为隐式地衡量跨模态子元素间的关联程度。在图像描述,这种注意力被用来判断生成某个单词时需要关注图像中的哪些区域。在视觉问答中,注意力权重被用来定位问题所指的图像区域。

1.1 connections(显式对齐)

​ 使用discrete grounding直接发现联系,或者使用continuous warping of representation spaces(表示空间的连续扭曲)发现联系。
多模态机器学习对齐内容

1.1.1 discrete grounding

​ discrete grounding适用于处理由离散单元组成的模态之间的对齐,如语言中的单词或图像、视频中物体的bounding boxes。该方法分为三种类别:Contrastive learning(对比学习),Matching algorithms(匹配算法)和Latent variable models(隐变量模型)。

对比学习:当获取有联系的模态对的监督数据时(有明显的对齐标签),对比学习是一种流行的对齐方法,其目标将不同模态中具有相同语义的表示进行匹配。

匹配算法:若真实的模态元素间的联系不可用(只给两个配对模态实体的离散单元表示,并未给这些离散单元实体的对齐监督信号),那么基于Optimal transport(最优运输)的方法是一种可行的解决办法,该类方法优化元素之间的协调函数和模态元素间的最优耦合。**此类方法将对齐作为散度最小化问题,其目标是转换一组离散的源元素以匹配一组离散的目标元素。**Wasserstein距离被用作该方法下的散度度量。

隐变量模型:提出隐变量图模型用于显示对齐。生成图网络被用来对齐图像中的视觉物体和其对应的单词,隐马尔可夫模型被用来对齐句子和相应的视频帧,动态贝叶斯网络被用来将讲话者和相应的视频对齐。

1.1.2 continuous warping

将不同模态元素表示为连续的表示空间(比如,将一个图片表示为连续的向量而不是用几个离散的实体向量表示),对这些连续的表示空间进行对齐。**Adversarial training(对抗训练)**是将一个表示空间变为另一个表示空间的常用方法(即两个空间对齐的方法)。对抗训练最初被用在域适应中,为了实现有效的域迁移,源域和目标域的数据表示不应该彼此分离,因此通过对抗训练学习到一种不能被域分类器区分域的表示,这种想法后被应用于对齐连续的多模态表示空间和多语言表示空间。

1.2 Contextualized Representations(隐式对齐)

为了学习到更好的表示,上下文表示学习用来建模所有模态的联系和交互。

​ 上下文表示常作为一个中间步骤来使用。上下文表示的工作可以分为以下三类:joint undirected alignment(无方向对齐),cross-modal directed alignment(定向对齐)和alignment with graph networks(使用图网络的对齐)。

多模态机器学习对齐内容
joint undirected alignment旨在捕获模态元素之间的无方向联系,模态元素之间的联系在任何一个方向上是对称的。对于一个多模态任务,通过参数化带有对齐层的模型和以端到端的方式训练以获得joint undirected alignment。对齐层可以包括注意力权重,张量积和乘法操作。在transformer模型上,对在序列维度拼接的多模态数据使用自注意力机制来执行joint undirected alignment

cross-modal directed alignment为了将源模态的元素以定向的方式与目标模态联系起来,该方法会在建模源模态和目标模态之间不对称连接时提供额外的灵活性。该方向最近研究分为两类:Temporal attention models和Multimodal cross-attention transformers。

Temporal attention models:单模态的机器翻译,多模态的图像字幕、文本到语音等任务所使用的RNN、LSTM等模型中加入注意力机制捕获输入序列和输出序列的alignment,这些注意力机制通常是单方向的,即从输出模态到输入模态,以至于结果权重可以反映输入序列中的某一个内容在输入序列中的分布。

Multimodal cross-attention transformers:使用query-key-vlue的注意力机制实现多模态的交叉注意力实现定向对齐(双流模型)。

alignment with graph networks,上下文的表示可以通过图网络进行学习。图网络有几个好处:不需要连接所有的模态元素,允许用户为不同的模态连接选择不同的边函数。alignment with graph networks的解决方案是使用图神经网络迭代地学习以局部连通区域中的模态元素为上下文的模态元素的表示。上下文化可以通过平均池化、图卷积或者图注意力执行。

1.3 Segmentation

1.1和1.2有一个重要的假设是模态元素已被分割和离散化。做这样的假设是因为模态的联系和交互作用更容易在离散的模态元素上定义。但是在一些情况不容易提供分割,比如连续信号(金融或者医疗时间序列),时空数据(卫星和天气图像),或是没有明确语义边界的数据(MRI图像,即核磁共振图像)。

Segmentation旨在解决对齐过程中分割和元素粒度的不确定性问题,分为两个方向,Modality Segmentation(模态分割)和Discretization(离散)。

Modality Segmentation是将高维的多模态数据细分为具有语义含义边界的模态元素。常见的问题是时间分割,目的是发现时序数据之间的时间边界,比如将文本中的每个单词与录音中说它的时间边界对齐。forced alignment是时间分割的一种流行方法,将离散的语音单元与文本中的单个单词对齐。该方法利用声学模型将语音片段与文本中相应的单词或者短语对齐。

Dynamic time warping(DTW,动态时间扭曲)是一种分割和对齐多视图时间序列数据的方法,该方法通过时间扭曲(插入帧)的方式衡量两个序列的相似性质并寻找最优匹配。DTW要求两个序列中的时间步长具有可比性,并要求它们之间具有相似性度量。对于多模态任务,若使用DTW方法,需要设计模态之间的相似度度量。目前为止该方法被应用到了文本-语音、视觉-文本模态上。

Discretization是将连续的变量、模型或者函数转变为相应离散的对应对象的过程。离散化问题可以通过聚类(clustering),基于语义相似度对连续的数据进行分组解决。最近为了将基于语言的预训练泛化到基于视频或者音频的预训练,基于聚类的离散化成为了一个重要的预处理步骤,通过该步骤,原始的视频特征和音频特征聚集到一个离散的集合中,使得VideoBERT和HuBERT可以在原始的视频和音频数据上执行掩码预训练。文章来源地址https://www.toymoban.com/news/detail-480913.html

2.图文中所用的对齐方法

  • 机器学习方法(最优运输方法(显式对齐方法)、生成图模型(需要手工构建映射关系))
  • 注意力机制(单流模型中的自注意力机制,双流模型中的交叉注意力机制)(隐式对齐方法)
  • 对比学习(设计各种各样的目标函数)(隐式对齐方法)
  • 对抗训练(显示对齐方法)

到了这里,关于多模态机器学习对齐内容的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • VUE el-table设置表格表头居中,内容列居中/左对齐/右对齐

    1、 统一设置设置表头居中 加上【:header-cell-style=\\\"{\\\'text-align\\\':\\\'center\\\'}\\\"】 统一设置设置内容列居中 加上【:cell-style=\\\"{\\\'text-align\\\':\\\'center\\\'}\\\"】 2、 在每个el-table-column标签上边设置    align=\\\"center \\\"

    2024年02月17日
    浏览(55)
  • 机器学习重要内容:特征工程之特征抽取

    目录 1、简介 2、⭐为什么需要特征工程 3、特征抽取 3.1、简介 3.2、特征提取主要内容 3.3、字典特征提取 3.4、\\\"one-hot\\\"编码 3.5、文本特征提取 3.5.1、英文文本 3.5.2、结巴分词 3.5.3、中文文本 3.5.4、Tf-idf ⭐所属专栏:人工智能 文中提到的代码如有需要可以私信我发给你噢😊 特

    2024年02月12日
    浏览(39)
  • 数据标注赋能机器学习进行内容审核

    数据标注一直以来都是人工智能的基础,是机器学习得以训练的不可或缺的步骤。随着互联网的兴起,如何创建和维护一个健康的网络环境将成为互联网平台不断解决的问题,但对于与日俱增的用户增长和铺天盖地的网络信息,人工审核内容变得不切实际,企业纷纷转向机器

    2024年02月09日
    浏览(35)
  • 垃圾邮件识别(一):用机器学习做中文邮件内容分类

    随着微信的迅速发展,工作和生活中的交流也更多依赖于此,但是由于邮件的正式性和规范性,其仍然不可被取代。但是不管是企业内部工作邮箱,还是个人邮箱,总是收到各种各样的垃圾邮件,包括商家的广告、打折促销信息、澳门博彩邮件、理财推广信息等等,不管如何

    2024年02月08日
    浏览(52)
  • 基于机器学习的内容推荐算法及其心理学、社会学影响闲谈

    基于机器学习的内容推荐算法目前在各类内容类APP中使用的非常普遍。在购物、时尚、新闻咨询、学习等领域,根据用户的喜好,进行较为精准的用户画像与内容推荐。此类算法不但可以较为准确的分析用户的特征,如年龄、性别等,还能通过长期的跟踪维护,大致确定用户

    2024年02月07日
    浏览(47)
  • 【AIGC】百度:跨模态内容生成技术与应用

    内容来源:机器之心,百度文心一格总架构师肖欣延博士,《跨模态内容生成与技术与应用》的演讲。 从图像生成角度来看,下图左边是 2020 年图像生的水平,是很有代表性的一个拍卖画作。到了 2022 年,技术已经相比之前强了很多。我们任意说一句话就能生成一张非常精致

    2024年02月09日
    浏览(51)
  • uniapp实现自定义导航内容高度居中(兼容APP端以及小程序端与胶囊对齐)

    ①效果图如下 1.小程序端与胶囊对齐 2.APP端内容区域居中     注意:上面使用的是colorui里面的自定义导航样式。 ②思路: 1.APP端和小程序端走不同的方法,因为小程序端要计算不同屏幕下右侧胶囊的高度。 2.其次最重要的要清晰App端和小程序端的计算逻辑。 3.然后调用api获

    2024年02月13日
    浏览(52)
  • paddlenlp:社交网络中多模态虚假媒体内容核查

    随着新媒体时代信息媒介的多元化发展,各种内容大量活跃在媒体内中,与此同时各类虚假信息也充斥着社交媒体,影响着公众的判断和决策。 如何在大量的文本、图像等多模态信息中 ,通过大数据与人工智能技术, 纠正和消除虚假错误信息 ,对于网络舆情及社会治理有着

    2024年02月13日
    浏览(37)
  • element-ui table表格滚动条拉到最右侧 表头与内容不能对齐

    1.问题概述 当表格数据太多,会出现纵向滚动条和横向滚动条,把横向滚动条拉到最右侧时,会出现表头与内容不能对齐的现象。 2.解决方法 1.当页面数据加载完毕后,在后面加上 2.别忘了给表格加上ref属性

    2024年02月10日
    浏览(41)
  • Video-LLaMa:利用多模态增强对视频内容理解

    在数字时代,视频已经成为一种主要的内容形式。但是理解和解释视频内容是一项复杂的任务,不仅需要视觉和听觉信号的整合,还需要处理上下文的时间序列的能力。本文将重点介绍称为video - llama的多模态框架。Video-LLaMA旨在使LLM能够理解视频中的视觉和听觉内容。论文设

    2024年02月09日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包