两篇2023 ICLR多模态论文分享(模态互补性对多模态鲁棒性影响 与 对多模表示学习有效的单模学习)

这篇具有很好参考价值的文章主要介绍了两篇2023 ICLR多模态论文分享(模态互补性对多模态鲁棒性影响 与 对多模表示学习有效的单模学习)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Modality Complementariness Towards Understanding Multi modal Robustness

本文讨论了模态互补性在多模态鲁棒性中的重要性,并基于信息论提出了一种数据集层面量化度量,用于量化不同模态之间有多少互补信息,以及这些信息对预测标签有多大贡献。该指标基于互信息神经估计器(MINE)来计算。提出了一个两阶段pipeline,分成数据生成阶段和度量计算阶段。在数据生成阶段,作者生成具有受控模态互补性的数据集。在度量计算阶段,作者使用生成的数据集计算度量并分析结果。,并通过实验验证了其有效性。此外,本文还讨论了各种相关主题,如变压器、对抗性示例和深度学习模型。
这篇论文的主要贡献是提供了一个统一且可操作的方法来评估和优化多模态学习系统,以及提出了一些有趣且具有启发性的发现,例如:不同任务下最佳模态组合可能不同;单一模态可能包含足够或过剩信息;增加噪声或缺失值可以提高某些情况下的互补性等。本文还为量化多模态和缺失模态或噪声模态的贝叶斯错误率之间的差异提供了理论保证。

这篇论文的局限性或未来方向有:
这篇论文的理论分析框架只适用于多模态分类任务,对于其他类型的多模态任务,如生成、检索、对话等,还需要进一步扩展和验证。
这篇论文的指标计算依赖于互信息神经估计器(MINE),而MINE本身可能存在一些问题,如估计偏差、不稳定性、超参数敏感性等,这些问题可能影响到指标的准确性和可靠性。
这篇论文的实验设置较为简单,只考虑了两种模态(视觉和语言)以及两种噪声类型(高斯噪声和缺失值),对于更复杂和更真实的多模态场景,还需要进行更多的探索和分析。
互信息神经估计器(MINE)是一种基于神经网络的方法,用于估计高维连续随机变量之间的互信息。互信息是衡量两个随机变量之间相关性的一个指标,它等于两个随机变量的联合分布与边缘分布之间的KL散度1。MINE利用了一个重要的定理,即最大化一个函数关于联合分布和边缘分布的期望差等价于最大化该函数与互信息之间的下界23。因此,MINE可以通过梯度下降来训练一个神经网络,使其输出接近互信息的下界,并且具有线性可扩展性、灵活性和强一致性。
MINE的优势有:

它可以有效地估计高维连续随机变量之间的互信息,而不需要对分布做任何假设或近似。
它可以通过梯度下降来训练一个神经网络,使其输出接近互信息的下界,而不需要计算复杂的积分或优化问题。
它具有线性可扩展性、灵活性和强一致性,即它可以处理任意维度和样本大小的数据,并且在样本趋于无穷时,它的估计值会收敛到真实值。
MINE的缺点有:

它依赖于一个超参数,即神经网络的结构和激活函数,这些选择可能影响到估计值的准确性和稳定性。
它可能存在一些估计偏差,即它的估计值可能低于或高于真实值,这取决于神经网络的初始化和训练过程。
它可能受到样本相关性、噪声、离群点等因素的干扰,导致估计值不准确或不可靠。
有很多方法可以估计互信息,其中一些常见的有:

直接方法:这种方法通过呈现来自p(S)的刺激,并从重复呈现相同刺激来估计hΔ(R|S),从而估计hΔ®和hΔ(R|S)。由于估计p(R|S)所需的数据量通常很大,因此大多数研究者采用一些技术来给I(S;R)设置上下界。
基于k最近邻的方法:这种方法通过利用k最近邻距离来估计熵和互信息,不需要对数据进行分箱或假设分布的形式。它具有非参数性、鲁棒性和一致性,但也存在一些缺点,如高维空间中距离度量的困难、超参数k的选择和样本相关性的影响。
基于几何k最近邻的方法:这种方法是基于k最近邻的方法的改进,它通过在流形上定义距离度量来克服高维空间中欧氏距离失效的问题。它利用了流形学习中的局部线性嵌入(LLE)算法,将数据映射到一个低维空间,然后在该空间中使用k最近邻算法来估计互信息。、

论文的3.1节主要讲了多模态互补性度量(Modality Complementarity Metric),这是一个用来评估多模态数据中不同模态之间信息互补程度的指标。该指标基于信息熵(Entropy)和互信息(Mutual Information)的概念,可以反映出多模态数据中每个模态对整体信息的贡献和冗余。该指标可以用来预测多模态模型在不同场景下的鲁棒性,例如缺失某个模态、某个模态受到噪声或对抗攻击等
论文的3.2节主要讲了多模态互补性度量的理论分析(Theoretical Analysis of Modality Complementarity Metric),这是一个用来证明该指标与多模态鲁棒性之间关系的数学推导。该分析基于贝叶斯风险(Bayesian Risk)和最小化期望损失(Minimizing Expected Loss)的原则,给出了在不同场景下,多模态互补性度量与多模态模型性能之间的上下界。该分析表明,当某个模态缺失或受到噪声或对抗攻击时,多模态互补性度量越高,多模态模型的性能下降越小。
这篇论文的3.3节主要讨论了如何在真实世界的多模态数据集上计算模态互补性度量,并展示了不同数据集的模态互补性和多模态鲁棒性之间的关系。

论文中的图2显示了在不同设置下,模态互补性和多模态鲁棒性之间的关系。模态互补性是一种度量每种模态对其他模态增加多少信息的指标。多模态鲁棒性是指一个模型在某些模态缺失或受损时能够表现良好的能力。
两篇2023 ICLR多模态论文分享(模态互补性对多模态鲁棒性影响 与 对多模表示学习有效的单模学习)

图2的作用是说明论文的主要思想:模态互补性影响多模态鲁棒性。互补性越高,模型对缺失或噪声模态越敏感。互补性越低,模型对这种情况越鲁棒 。
I(X; Y, Z)表示X和(Y, Z)之间的互信息,即X减少了对(Y, Z)的不确定性的程度。它等于(Y, Z)的熵减去给定X时(Y, Z)的熵。
I(Z; Y, X) 表示 Z 和 (Y, X) 之间的模态互补性,即 Z 在 (Y, X) 缺失或受损时能够减少对 (Y, X) 的不确定性的程度。它等于 (Y, X) 的熵减去给定 Z 时 (Y, X) 的熵。
I(X; Y, Z) 表示给定 (Y, Z) 时 X 的多模态鲁棒性,即 X 在 (Y, Z) 存在且可靠时能够减少对 (Y, Z) 的不确定性的程度。它等于 (Y, Z) 的熵减去给定 X 时 (Y, Z) 的熵。

4.2节主要讲了一种用于计算模态互补性度量的实用流程。该流程包括三个步骤:1) 使用互信息神经估计器 (MINE) (Belghazi et al., 2018) 来估计不同模态之间的互信息;2) 使用条件熵神经估计器 (CENE) 来估计给定一个或多个模态时,另一个模态的条件熵;3) 使用公式 (4) 来计算模态互补性度量。该流程可以处理任意数量和类型的模态,并且可以在真实世界的多模态数据集上运行。
两篇2023 ICLR多模态论文分享(模态互补性对多模态鲁棒性影响 与 对多模表示学习有效的单模学习)

公式 (4) 定义了模态互补性度量 (MCM) 作为不同模态之间的互信息和条件熵的函数。MCM 可以看作是一个模态在其他模态缺失或受损时能够提供的有用信息的比例。MCM 的值越高,表示一个模态对其他模态的补充程度越高,也就意味着多模态模型在面对缺失或噪声干扰时更容易受到影响。
这种方法的目的是为了定量地评估多模态数据集中不同模态之间的互补性,从而揭示互补性对多模态模型鲁棒性的影响。作者认为,现有的多模态学习理论和实践中忽略了这一重要因素,导致了一些矛盾的结论。因此,他们提出了一个基于信息论的分析框架和一个基于神经网络估计器的计算流程,来探索互补性在不同任务和数据集上的变化,并与多模态模型在缺失、噪声和对抗攻击等情况下的表现进行比较。

On Uni modal Feature Learning in Multi modal Learning

多模态数据的特征抽象为1)单模态特征(可以从单模态训练中学习)和2)配对特征(只能从跨模态交互中学习)。多模态联合训练有望在保证单模态特征学习的基础上受益于跨模态交互。然而,目前的后期融合训练方法仍然存在对每个模态上的单模态特征学习不足的问题,并且证明了这一现象确实损害了模型的泛化能力。针对一个多模态任务,根据单模态和成对特征的分布,从单模态集成(UME)和提出的单模态教师(UMT)中选择有针对性的后期融合学习方法。我们证明,在一个简单的指导策略下,我们可以在多模态数据集上获得与其他复杂的后期融合或中间融合方法
单模态先验有意义的多模态任务。理想情况下,我们希望多模态联合训练能够在保证学习足够多的单模态特征的基础上,通过跨模态交互来学习成对特征。
两篇2023 ICLR多模态论文分享(模态互补性对多模态鲁棒性影响 与 对多模表示学习有效的单模学习)

虽然多模态联合训练为跨模态交互提供了学习配对特征的机会,但该模型容易饱和并忽略了难以学习但对泛化很重要的单模态特征
然而,最近的后期融合方法仍然存在学习每个模态的单模态表示不足的问题。我们将这种现象称为模态懒惰,并在图1中加以说明。我们从理论上描述了模态懒惰,并证明它确实损害了模型的泛化能力,特别是当单模态特征在给定任务中占主导地位时。
我们关注单模态特征的学习,根据单模态特征和配对特征的分布,从Uni-ModalEnsemble (UME)和提出的uni-modal Teacher (UMT)中选择有针对性的后期融合训练方法。如果单模态特征和成对特征都是必要的,则UMT是有效的,它可以帮助多模态模型通过单模态蒸馏更好地学习单模态特征;如果两种模态都具有较强的单模态特征,且成对特征不够重要,则采用UME,它结合了单模态模型的预测,完全避免了对单模态特征的学习不足。我们还提供了一个经验技巧来决定使用哪一个。
联合训练优缺点:一方面,联合训练导致单模态特征学习不足(Modality lazy)。另一方面,它允许模态之间的交互,以学习单模态特征以外的表示,即成对特征。基于此,我们提供了多模态后期融合学习的指导。最后,我们对情态懒惰进行了理论分析,并对我们的解决方案进行了论证。
视觉问答(VQA) (Agrawal等人,2018)是一个反例。具体来说,相同的图像与不同的文本问题可能有完全不同的标签,使得检查其单模态准确性毫无意义。
两篇2023 ICLR多模态论文分享(模态互补性对多模态鲁棒性影响 与 对多模表示学习有效的单模学习)

对单模态模型的预测结果进行平均,预训练的单模态编码器上训练一个多模态线性分类器,其中模态可以通过线性层相互作用,朴素融合,没有使用精心设计的技巧 跨模态交互作用。

对于一个多模态任务,如果单模态特征和配对特征都是必要的,那么Uni-ModalTeacher (UMT)是有效的;如果两种模态都具有强烈的单模态特征,同时成对特征不重要,简单地结合单模态模型的预测就可以很好地实现,这种方法被称为单模态集成(UME)。
两篇2023 ICLR多模态论文分享(模态互补性对多模态鲁棒性影响 与 对多模表示学习有效的单模学习)

φ′miis是对单模态数据进行监督预训练的编码器。φmi是一个没有预训练的随机初始编码器。Lmulti是多模态预测和标签之间的损失。Ldistill是单模态蒸馏损失。
单模态蒸馏发生在融合前,late-fusion
从单模态模型中提取知识可以帮助多模态模型更好地学习单模态特征,这发生在特征级。UMT的框架如图1和图4所示。请注意,对于特定的模态,我们在单模态模型和多模态模型中使用相同的backbone。
如果两种模式都有强烈的单模态特征,联合训练弊大于利。结合单模态模型的预测,避免了单模态特征的学习不足。首先,我们可以独立地训练单模态模型。然后,我们可以通过加权单模态模型的预测给出最终输出。简单的集成方法被称为单模态集成(UME)。我们证明了UME可以在某些多模态数据集上表现出具有竞争力的性能。
决定使用哪种方法的经验Trick。我们可以在单模态预训练编码器上训练一个多模态线性分类器,并将其与单模态模型的平均预测进行比较。如果分类器的性能更好,则意味着我们可以从该任务中的跨模态交互中受益,我们可以选择UMT,在保证改善单模态特征学习的同时,保留跨模态交互;反之,简单的跨模态交互弊大于利,因为每个模态都有很强的单模态特征,我们可以选择UME,它完全避免了模态懒惰。
证明:从特征学习角度证明模态惰性确实对多模态的泛化性有害
多模态联合训练可以比单模态训练学习更多的特征,但所学习的特征不一定有用,甚至会损害模型的泛化。定理3.4指出,在单模态集成中,与单模态训练相比,训练过程学习到的单模态特征更少,这损害了模型的泛化。这种现象被称为模态懒惰
两篇2023 ICLR多模态论文分享(模态互补性对多模态鲁棒性影响 与 对多模表示学习有效的单模学习)

UMT,Bm1特征学自模态xm1,在多模态训练方法中,假设训练程序在模态x m1中学习了km1的单模态特征,在模态x m2中学习了km2的单模态特征,并学习了kpa的配对特征
考虑一个新的测试点,然后对于每个 δ > 0,如果以下不等式成立:
其中 ∆(δ) = p 8(kpa + bm1 − km1 + bm2 − km2) log(1/δ),则概率 至少为 1 − δ,单模态集成优于多模态训练方法概率测试点
数量懒惰表示在简单的多模态训练中学习到的特征数量少于单模态训练。
单模态懒惰表明,由于数量懒惰,多模态训练的编码器比单模态训练的编码器性能差,这符合第3.1节的实验结果。
性能懒惰比较了多模态联合训练方法和单模态集合的性能,表明当单模态特征占主导地位时,结合单模态的预测更有效。文章来源地址https://www.toymoban.com/news/detail-481835.html

到了这里,关于两篇2023 ICLR多模态论文分享(模态互补性对多模态鲁棒性影响 与 对多模表示学习有效的单模学习)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【多模态】18、ViLD | 通过对视觉和语言知识蒸馏来实现开集目标检测(ICLR2022)

    论文:Open-vocabulary Object Detection via Vision and Language Knowledge Distillation 代码:https://github.com/tensorflow/tpu/tree/master/models/official/detection/projects/vild 效果: 在 zero-shot 测试下,coco 达到了 36.6 AP,PASCAL VOC 达到了 72.2AP,Object365 达到了 11.8AP 本文提出了 Vision and Language knowledge Distillation(

    2024年02月14日
    浏览(45)
  • 【图-注意力笔记,篇章2】Graphormer 和 GraphFormers论文笔记之两篇经典Graph Transformer来入门

    说明: 本文仅供学习,未经同意请勿转载 笔记时间:2022年08月 博客公开时间:2023年3月2日 前面我们大致的了解了Graph Transformer是什么,以及它与GNN、Transformer的差别,关联。如果对这方面不是很熟悉的朋友可以看一下【图-注意力笔记,篇章1】一份PPT带你快速了解Graph Trans

    2023年04月25日
    浏览(44)
  • 分享AIGC前沿论文系列二 面向区域级图像理解的端到端多模态大模型GPT4RoI

    面向区域级图像理解的端到端多模态大模型 带来了超越图像级理解的全新对话和交互体验 进行丝滑的人机互动,不仅仅是文字级别的人机互动 本文提出对感兴趣区域进行Instruction Tuning,并提出GPT4RoI: 一种区域级视觉-语言模型,带来了超越图像级理解的全新对话和交互体验,

    2024年02月15日
    浏览(38)
  • ICLR 2023 | 达摩院开源轻量人脸检测DamoFD

            本文介绍我们被机器学习顶级国际会议ICLR 2023接收的论文 “DamoFD: Digging into Backbone Design on Face Detection\\\" 论文链接:https://openreview.net/pdf?id=NkJOhtNKX91 开源代码(欢迎点赞、收藏、转发三连啊~~~):https://github.com/ly19965/EasyFace/tree/master/face_project/face_detection/DamoFD     

    2023年04月15日
    浏览(39)
  • 顶会论文投稿经验分享-笔记【CVPR 2023预讲会】

    视频链接:Panel: 顶会论文投稿经验分享与大模型时代下的科研_哔哩哔哩_bilibili 嘉宾: 王琦,上海交通大学计算机系博士生 任星宇,上海交通大学博士三年级研究生 李逸轩,上海交通大学2022级硕士研究生 官同坤,上海交通大学2023级博士生 李逸轩:不管是对比实验、主图、

    2023年04月23日
    浏览(55)
  • 【ICLR 2023】详细解读DiffEdit:基于扩散模型的图像编辑革命性成果

    Diffusion Models专栏文章汇总:入门与实战 前言: ICLR 2023的第一轮rebuttal已经放榜,这次的ICLR出现了非常多的diffusion models论文,很多工作都非常有创意,值得详细解读。这篇要介绍的是DiffEdit,这个工作取得了所有审稿人的accept肯定,无论是论文还是实验效果都非常优秀,能够

    2024年02月11日
    浏览(96)
  • ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

    ©PaperWeekly 原创 · 作者 |  叶振辉 单位 |  浙江大学博士生 研究方向 |  语音合成、说话人视频合成 语音驱动的说话人视频合成(Audio-driven Talking Face Generation)是虚拟人领域的一个热门话题,它旨在根据一段输入的语音,合成对应的目标人脸说话视频。高质量的说话人视频需

    2024年02月11日
    浏览(54)
  • [ICLR 2023] LPT: Long-tailed Prompt Tuning for Image Classification

    作者提出 Long-tailed Prompt Tuning (LPT) ,通过 prompt learning 来解决长尾问题,包括 (1) 使用 shared prompt 学习 general features 并将预训练模型 adapt 到 target domain;(2) 使用 group-specific prompts 学习 group-specific features 来提高模型的 fine-grained discriminative ability 作者首先通过对比 VPT (Visual Prom

    2024年02月11日
    浏览(41)
  • [论文评析]mixup: B EYOND E MPIRICAL R ISK M INIMIZATION, ICLR 2018,

    采用ERM训练的模型往往存在泛化能力差的情形-可能是在简单的记忆样本, 对于噪声干扰的鲁棒性很差. 这篇论文 提出了一种新的数据增广方法-Mixup , 这里主要介绍该方法的使用, 及其提出的缘由. 简单易句话来讲, Mixup实际上就是在训练集的样本对之间进行插值(Input和Output同时

    2024年02月06日
    浏览(37)
  • ICLR‘22论文解读 Coordination Among Neural Modules Through a Shared Global Workspace

    成电研一er本周论文详细解读 全文1w字+,请耐心阅读,望对你的研究有所帮助! 论文下载链接:https://arxiv.org/abs/2103.01197v2 发布时间信息: [v1] Mon, 1 Mar 2021 18:43:48 UTC (2,119 KB) [v2] Tue, 22 Mar 2022 21:31:37 UTC (2,678 KB) 深度学习已经从用单一隐藏状态表示示例的方法转向了使用丰富结

    2024年02月04日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包