【论文阅读笔记】Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling

这篇具有很好参考价值的文章主要介绍了【论文阅读笔记】Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Wang H, Chen Y, Ma C, et al. Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 15878-15887.

【论文概述】

本文的核心思想是提出一种名为“共享-特定特征建模(ShaSpec)”的方法,用于处理多模态学习中的缺失模态问题。该方法在训练和评估期间利用所有可用的输入模态,通过学习共享和特定的特征来更好地表示输入数据。这是通过基于分布对齐和领域分类的辅助任务以及残差特征融合过程来实现的。ShaSpec的设计简单,易于适应多种任务,如分类和分割。实验结果表明,ShaSpec在医学图像分割和计算机视觉分类方面的表现优于竞争方法。例如,在BraTS2018数据集上,ShaSpec在增强肿瘤、肿瘤核心和整体肿瘤的分割精度上均有显著提高(ShaSpec在增强肿瘤的分割上提高了3%,在肿瘤核心上提高了5%,在整体肿瘤上提高了3%)。这项研究表明,ShaSpec通过其简单但有效的架构,在处理多模态学习中的缺失模态问题时,能够提供显著的性能提升。

本文整体结构简单,通过两个辅助任务,性能超越复杂模型,在缺失模态处理中算是一股清流,这可能也是中标CVPR2023的原因。

【提出的方法】

图1展示了ShaSpec方法在完整模态(full-modality)训练和评估的流程。这个流程包含了多个关键组成部分:

  1. 特定编码器(Specific Encoder)和共享编码器(Shared Encoder):特定编码器负责处理特定于某一模态的特征,而共享编码器则处理跨所有模态共享的特征。
  2. 跳跃连接(Skip Connection)和特征投影函数(fθproj):这些是网络的一部分,用于改进特征提取和融合过程。
  3. 分布对齐目标(Distribution Alignment Objective):这部分目标是为了减少不同模态间特征分布的差异,从而提高模型在处理多模态数据时的鲁棒性和准确性。
  4. 残差融合过程(Residual Fusion Procedure):这是ShaSpec的一个关键创新,它结合了来自不同模态的特征,以改善对缺失模态情况的处理能力。
  5. 预测目标(Prediction Objective):这是模型的最终目标,通过解码器(Decoder)对输入数据进行分类或其他任务的预测。
【论文阅读笔记】Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling,医学图像分割,缺失模态,MRI分割,论文阅读,笔记

图2展示了ShaSpec方法在缺失模态(missing-modality)的情况下的训练和评估流程。此图说明了当一种或多种模态数据缺失时,ShaSpec如何适应和处理这种情况。在这个流程中,共享编码器同上,缺失模态的特定编码器结果,有存在模态特定编码器的平均得到,比较简单粗暴。

【论文阅读笔记】Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling,医学图像分割,缺失模态,MRI分割,论文阅读,笔记

【训练目标】

引入了两个辅助任务:域分类和分布对齐,以优化特定和共享特征的学习。

  1. 域分类目标(Domain Classification Objective, DCO):这一目标的灵感来源于域适应技术,其核心思想是利用特定模态的特征来进行该模态的域分类。具体来说,作者提出采用DCO来学习特定模态的特征。例如,在脑肿瘤分割任务中,不同的MRI模态(如Flair, T1, T1 contrast-enhanced, T2)可以被视为不同的域。如果某一模态的特定特征可以被用来准确地分类其域,那么这些特征应该包含对该模态特有的重要信息。这意味着,通过DCO,模型可以更有效地学习和区分不同模态的特有特征,从而提高对多模态数据的处理能力。论文中使用交叉熵。
  2. 分布对齐任务:此部分专注于共享特征的学习,确保不同模态间特征分布的一致性,提高模型对不同模态数据的泛化能力。主要目的是通过最小化交叉熵(CE)损失来混淆域分类器,如果分类器不能够从共享特征中分类出具体的模态,认为共享特征比较鲁棒。这一目标的实现是为了确保模型在处理不同模态的共享特征时能够维持一致性,从而提高模型在多模态环境下的泛化能力和准确性。

【数据集和网络】

数据集采用了两个:BraTS2018、Audiovision-MNIST

硬件:3090TI*1

特征提取采用3D-UNet

【实验结果】

【论文阅读笔记】Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling,医学图像分割,缺失模态,MRI分割,论文阅读,笔记文章来源地址https://www.toymoban.com/news/detail-804455.html

到了这里,关于【论文阅读笔记】Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文阅读:MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving

    来源:2023 CVPR 题目:自动驾驶的多模态三维语义分割 原文链接:https://arxiv.org/abs/2303.08600v1 代码链接:https://github.com/jialeli1/lidarseg3d 激光雷达和摄像机是自动驾驶三维语义分割的两种方法。由于缺乏足够的激光点,目前流行的仅使用lidar的方法在小的和遥远的物体上严重存在

    2024年02月03日
    浏览(60)
  • MaPLe: Multi-modal Prompt Learning

    本文也是LLM系统的文章,主要是面向多模态的大语言模型,针对《MaPLe: Multi-modal Prompt Learning》的翻译。 CLIP等预先训练的视觉语言(V-L)模型对下游任务表现出了出色的泛化能力。但是,它们对输入文本提示的选择很敏感,需要仔细选择提示模板才能执行良好的操作。受自然

    2024年02月09日
    浏览(42)
  • 【论文阅读】Multi-Modal Sarcasm Detection via Cross-Modal Graph Convolutional Network 嘲讽检测,多模态,跨模态,图神经网络

    本博客系博主根据个人理解所写,非逐字逐句翻译,预知详情,请参阅论文原文。 发表地点: ACL 2022; 论文下载链接: Multi-Modal Sarcasm Detection via Cross-Modal Graph Convolutional Network - ACL Anthology 代码链接: https://github.com/HITSZ-HLT/CMGCN; 随着在线发布包含多模态信息的博客的流行,

    2024年02月17日
    浏览(44)
  • 【论文笔记】Multi-modal Facial Affective Analysis based on Masked Autoencoder

    论文链接:https://arxiv.org/abs/2303.10849 代码:https://github.com/FuxiVirtualHuman/ABAW5 基本自译,没有使用翻译软件进行大段翻译。包含很多意译的部分。 不确定的地方有问号标注。 “问题:\\\"部分是一些前置知识的补充,不是论文内容。 介绍ABAW这个比赛:识别情感表现(高质量、大

    2024年04月26日
    浏览(37)
  • 论文阅读综述:自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

    题目 :Multi-modal Sensor Fusion for Auto Driving Perception: A Survey 用于自动驾驶感知的多模态传感器融合:综述 链接 :https://arxiv.org/abs/2202.02703 只翻译了个人认为比较重要的东西,有些官方话就省了。这篇文章通俗易懂,不过综述都是标记文献[xx]干了啥,其实咱也不知道他具体是咋

    2023年04月08日
    浏览(49)
  • 【论文阅读笔记】M3Care: Learning with Missing Modalities in Multimodal Healthcare Data

    本文介绍了一种名为“M³Care”的模型,旨在处理多模态医疗保健数据中的缺失模态问题。这个模型是端到端的,能够补偿病人缺失模态的信息,以执行临床分析。M³Care不是生成原始缺失数据,而是在潜在空间中估计缺失模态的任务相关信息,利用来自具有相似未缺失模态的

    2024年02月04日
    浏览(86)
  • Multi-Task Learning based Video Anomaly Detection with Attention 论文阅读

    文章信息: 原文链接:https://ieeexplore.ieee.org/document/10208994/ 源代码:无 发表于:CVPR 2023 基于多任务学习的视频异常检测方法将多个代理任务结合在不同的分支中,以便在不同情境中检测视频异常。然而,大多数现有方法存在以下一些缺点: I) 它们的代理任务组合方式不是以

    2024年01月20日
    浏览(46)
  • 【论文阅读笔记】Contrastive Learning with Stronger Augmentations

    基于提供的摘要,该论文的核心焦点是在对比学习领域提出的一个新框架——利用强数据增强的对比学习(Contrastive Learning with Stronger Augmentations,简称CLSA)。以下是对摘要的解析: 问题陈述: 表征学习(representation learning)已在对比学习方法的推动下得到了显著发展。 当前

    2024年02月19日
    浏览(44)
  • 【论文阅读笔记】 Representation Learning with Contrastive Predictive Coding

    这段文字是论文的摘要,作者讨论了监督学习在许多应用中取得的巨大进展,然而无监督学习并没有得到如此广泛的应用,仍然是人工智能中一个重要且具有挑战性的任务。在这项工作中,作者提出了一种通用的无监督学习方法,用于从高维数据中提取有用的表示,被称为“

    2024年01月25日
    浏览(40)
  • 【论文阅读笔记】A literature survey of MR-based brain tumor segmentation with missing modalities

    Zhou T, Ruan S, Hu H. A literature survey of MR-based brain tumor segmentation with missing modalities[J]. Computerized Medical Imaging and Graphics, 2023, 104: 102167. 这篇文献综述重点探讨了在磁共振成像(MRI)用于脑肿瘤分割时面临的一项主要挑战:部分MRI模态的缺失(本文将范围限定为 在训练期间可以使用

    2024年01月19日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包