MedSegDiff: Medical Image Segmentation withDiffusion Probabilistic Model

这篇具有很好参考价值的文章主要介绍了MedSegDiff: Medical Image Segmentation withDiffusion Probabilistic Model。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

MedSegDiff:基于扩散概率模型的医学图像分割

摘要:

扩散概率模型(Diffusion probabilistic model, DPM)是近年来计算机视觉研究的热点之一。它在Imagen、Latent Diffusion Models和Stable Diffusion等图像生成应用中表现出了令人印象深刻的生成能力,引起了社区的广泛讨论。最近的许多研究还发现,它在许多其他视觉任务中也很有用,比如图像去模糊、超分辨率和异常检测。受DPM成功的启发,我们提出了第一个基于DPM的一般医学图像分割模型,我们将其命名为MedSegDiff。为了增强DPM在医学图像分割中的分步区域注意力,我们提出了动态条件编码,该编码为每个采样步建立状态自适应条件。我们进一步提出Feature Frequency Parser (FF-Parser)来消除高频噪声分量在此过程中的负面影响。我们在三种不同图像模式的医学分割任务上验证了MedSegDiff,即眼底图像的视杯分割、MRI图像的脑肿瘤分割和超声图像的甲状腺结节分割。实验结果表明,MedSegDiff算法在性能上明显优于SOTA算法,表明了该模型的泛化性和有效性。我们的代码发布在https://github.com/WuJunde/MedSegDiff

1 介绍

医学图像分割是将医学图像分割成有意义区域的过程。分割是许多医学图像分析应用的基本步骤,如诊断、手术计划和图像引导手术。这很重要,因为它可以让医生和其他医疗专业人员更好地了解他们所看到的东西。它还可以更容易地比较图像和跟踪随时间的变化。近年来,人们对医学图像的自动分割方法越来越感兴趣。这些方法有可能减少人工分割所需的时间和精力,并提高结果的一致性和准确性。随着深度学习技术的发展,越来越多的研究成功地将基于神经网络(NN)的模型应用到医学图像分割任务中,从流行的卷积神经网络(CNN)[11]到最近的视觉变压器(ViT)[3,22,12,28]。

最近,扩散概率模型(diffusion probistic model, DPM)[9]作为一类强大的生成模型[27]得到了广泛的应用,它能够生成具有高多样性和高合成质量的图像。最近的大型扩散模型,如DALLE2[17]、Imagen[19]和Stable diffusion[18]已经显示出令人难以置信的生成能力。扩散模型最初应用于不存在绝对真值的领域。然而,最近的研究表明,它也有效地解决了地面真相是唯一的问题,如超分辨率[20]和去模糊[24]。

受DPM最近成功的启发,我们设计了一种独特的基于DPM的医学图像分割模型。据我们所知,在一般医学图像分割的背景下,我们首次提出了基于dpm的不同图像模态分割模型。我们注意到,在医学图像分割任务中,病变/器官往往是模糊的,很难从背景中区分出来。在这种情况下,自适应校准过程是获得精确结果的关键。按照这种思路,我们提出了基于普通DPM的动态条件编码来设计所提出的模型,命名为MedSegDiff。需要注意的是,在迭代采样过程中,MedSegDiff对每一步都设置了图像先验条件,以便从中学习分割映射。针对自适应区域关注,我们将当前步骤的分割图整合到每一步的图像先验编码中。具体实现是将当前步分割掩码与特征级先验图像以多尺度方式融合。这样,损坏的电流阶掩模有助于动态增强条件特征,从而提高重建精度。为了消除在此过程中损坏的给定掩模中的高频噪声,我们进一步提出了特征频率解析器(FF-Parser)来过滤傅里叶空间中的特征。在每个跳跃连接路径上采用ff解析器进行多尺度集成。我们在三种不同的医学分割任务中验证了MedSegDiff,即光学杯分割、脑肿瘤分割和甲状腺结节分割。这些任务的图像有不同的模态,分别是眼底图像、脑部CT图像、超声图像。MedSegDiff在不同模态下的三种任务上均优于先前的SOTA,表明了所提方法的泛化和有效性。简而言之,本文的贡献是:

--首先提出了基于dpm的一般医学图像分割模型。

--提出了分步关注的动态条件编码策略

--为了消除高频分量的负面影响,提出了高频解析器

--SOTA在三种不同图像模态的医学分割任务中的性能。

2  方法

我们基于文献[9]中的扩散模型来设计模型。扩散模型是由正向扩散和反向扩散两个阶段组成的生成模型。在正演过程中,分割标签x0通过一系列步骤T逐渐加入高斯噪声。在反向过程中,通过对噪声过程进行反向,训练神经网络来恢复原始数据,可以表示为:

MedSegDiff: Medical Image Segmentation withDiffusion Probabilistic Model,神经网络

式中θ为反工艺参数。从高斯噪声出发,pθ(xT) = N (xT;0, In×n),其中I为原始图像,反向过程将潜在变量分布pθ(xT)转换为数据分布pθ(x0)。为了与正演过程保持对称,反向过程逐步恢复噪声图像,以获得最终清晰的分割。

遵循DPM的标准实现,我们采用UNet作为学习网络。

MedSegDiff: Medical Image Segmentation withDiffusion Probabilistic Model,神经网络

图1:MedSegDiff的图解。为清晰起见,图中省略了时间步长编码。

图1显示了一个示例。为了实现分割,我们对步长估计函数?通过原始图像先验,可以表示为:

MedSegDiff: Medical Image Segmentation withDiffusion Probabilistic Model,神经网络

其中EIt为条件特征嵌入,在本例中为原始图像嵌入,Ext为当前步骤的分割映射特征嵌入。将这两个分量相加并发送到UNet解码器D进行重构。步骤索引t与添加的嵌入和解码器功能集成在一起。

在每一个模型中,它都是使用共享学习查找表嵌入的,如下[9]

2.1  动态条件编码

在大多数条件DPM中,条件先验将是一个唯一的给定信息。然而,医学图像分割是出了名的模糊对象。病变或组织通常很难从其背景中区分出来。

低对比度的图像模式,如核磁共振成像或超声图像,使其更糟。只给定静态图像I作为每一步的条件将很难学习。为了解决这个问题,我们提出了每个步骤的动态条件编码。我们注意到,一方面原始图像包含准确的分割目标信息,但难以与背景区分,另一方面,当前步分割图包含增强的目标区域,但不准确。这促使我们去整合

当前步分割信息xt转化为有条件的原始图像编码进行相互补全。具体地说,我们在功能级别上实现集成。在原始图像编码器中,我们利用当前步长编码特征来增强其中间特征。条件特征图mkI的每个尺度与形状相同的xt编码特征mkx融合,k为层的指数。这种融合是通过一种类似于注意力的机制a来实现的。特别是,首先将两个特征映射应用层归一化并相乘以获得亲和映射。然后将亲和映射与条件编码特征相乘,增强关注区域,即:

MedSegDiff: Medical Image Segmentation withDiffusion Probabilistic Model,神经网络

其中⊗表示逐元素乘法,LN表示层归一化。

该操作应用于中间两个阶段,其中每个阶段都是在ResNet34之后实现的卷积阶段。这种策略有助于MedSegDiff动态定位和校准分割。虽然该策略是有效的,但另一个具体的问题是,积分xt嵌入会产生额外的高频噪声。为了解决这个问题,我们提出了FF-Parser来约束特征中的高频成分。

 

2.2  FF-Parser

我们以特征集成的路径方式连接ff解析器。它的功能是约束xt特性中与噪声相关的组件。我们的主要思想是学习一个参数化的关注(权重)映射应用于傅里叶空间特征。给定一个解码器特征映射m∈RH×W ×C,我们首先沿着空间维度执行二维FFT(快速傅立叶变换),我们可以表示为:MedSegDiff: Medical Image Segmentation withDiffusion Probabilistic Model,神经网络

式中F[·]为二维FFT。然后,我们通过将一个参数化的关注映射a∈CH×W ×C乘以m来调制m的谱:m 0 = a⊗m,(5),其中⊗表示元素积。最后,我们采用逆FFT将m0逆回空间域:m0 = F−1[m0]。(6) FF-Parser可以看作是频率滤波器的一种可学习版本,频率滤波器广泛应用于数字图像处理[16]。与空间关注不同,它对特定频率的分量进行全局调整。从而可以学会约束高频分量进行自适应积分。

MedSegDiff: Medical Image Segmentation withDiffusion Probabilistic Model,神经网络

图2:FF-Parser的示例。FFT表示快速傅里叶变换。

2.3  训练与结构

MedSegDiff按照DPM的标准流程进行训练[9]。具体来说,损失可以表示为:MedSegDiff: Medical Image Segmentation withDiffusion Probabilistic Model,神经网络

在每次迭代中,将随机抽取一对原始图像Ii和分割标签Si进行训练。迭代次数从均匀分布和?来自高斯分布。

MedSegDiff的主要架构是一个修改后的ResUNet[26],我们用一个ResNet编码器和一个UNet解码器来实现它。详细的网络设置如下[14]。I和xt用两个单独的编码器进行编码。

该编码器由三个卷积阶段组成。每个阶段包含几个剩余块。每个阶段的剩余块数量遵循ResNet34。每个残差块由两个卷积块组成,每个卷积块由群范数和SiLU[5]活动层和一个卷积层组成。

残差块通过一个线性层、SiLU激活和另一个线性层接收时间嵌入。然后将结果添加到第一个卷积块的输出中。将得到的EI和Ext加在一起,发送到最后的编码阶段。连接一个标准的卷积解码器来预测最终结果。

3 实验

3.1数据集

我们对眼底图像的光学杯分割、MRI图像的脑肿瘤分割和超声图像的甲状腺结节分割三种不同图像方式的医学任务进行了实验。在REFUGE-2数据集[6]、brts -2021数据集[2]和DDTI数据集[15]上进行青光眼、甲状腺癌和黑色素瘤的诊断实验,这三个数据集分别包含1200、2000、8046个样本。这些数据集是公开的,带有分割和诊断标签。

训练/验证/测试集按照数据集的默认设置进行分割。

3.2实现细节

我们分别对MedSegDiff++、MedSegDiff- l、MedSegDiff- b和MedSegDiff- s模型的大型、大型、基本和小型变体进行了实验。

在MedSegDiff- s、MedSegDiff- b、MedSegDiff- l、MedSegDiff++中,我们分别使用UNet进行4倍、5倍、6倍、6倍的下采样。在实验中,我们采用100个扩散步骤进行推理,这比之前的大多数研究要小得多[9,14]。除MedSegDiff++和MedSegDiff- l外,所有实验均在PyTorch平台上实现,并在4台Tesla P40 GPU上进行了训练/测试,内存为24GB。所有图像都统一调整为256×256像素的尺寸。使用AdamW[13]优化器以端到端方式训练网络。MedSegDiff- b和MedSegDiff- s以32批大小进行训练,MedSegDiff- l和MedSegDiff++以64批大小进行训练。学习率初始设置为1 ×10−4。在推理中,所有模型都被设置为集成的25倍。我们使用STAPLE[23]算法对不同的样本进行融合。为了公平比较,在相同的设置下再现了基于扩散的竞争对手EnsemDiff[25]。

3.3 Main Results

我们将针对这三个具体任务提出的SOTA分割方法与一般医学图像分割方法进行比较。主要结果如下

如图1所示。表中,视盘/杯分割采用ResUnet[26]和BEAL[21],脑肿瘤分割采用TransBTS[22]和EnsemDiff[25],甲状腺结节分割采用MTSeg[7]和UltraUNet[4],一般医学图像分割采用CENet[8]、MRNet[11]、SegNet[1]、nnUNet[10]和TransUNet[3]。我们通过Dice分数和IoU来评估分割性能。

在表1中,我们比较了各种网络架构实现的方法,包括CNN (ResUNet, BEAL, nnUNet, SegNet),视觉转换器(TransBTS, TransUNet)和DPM (EnsemDiff)。我们可以看到,先进的网络架构通常会获得更好的结果。例如,在光学杯分割中,基于viti的通用分割方法:TransUNet在方法:BEAL上甚至优于基于cnn的任务。在脑肿瘤分割方面,最近提出的基于dpm的分割方法EnsemDiff优于之前基于vita的竞争对手TransBTS和TransUNet。MedSegDiff不仅采用了最近成功的DPM,而且针对一般的医学图像分割任务设计了相应的策略。我们可以看到MedSegDiff在三个不同的任务上都优于所有其他方法,这表明了MedSegDiff在不同的医学分割任务和不同的图像模态上的泛化。与专门用于脑肿瘤分割的基于dpm的模型(即EnsemDiff)相比,该模型在Dice上提高了2.3%,在IoU上提高了2.4%,这表明了我们独特的技术(即动态调节和FF-Parser)的有效性。

MedSegDiff: Medical Image Segmentation withDiffusion Probabilistic Model,神经网络

图3:表1中Top-4种常用医学图像分割方法的视觉对比。从上到下分别为脑肿瘤分割、光学杯分割和甲状腺结节分割。

在图像上,使它们难以被人眼识别。通过与这些计算机辅助方法的比较,可以明显地看出,该方法生成的分割图比其他方法更准确,特别是对于模糊区域。将DPM与所提出的动态调节和FF-Parser相结合,可以更好地定位和校准低对比度或模糊图像的分割。

表1:MedSegDiff与SOTA分割方法的比较。最好的结果用粗体表示。灰色背景表示针对该/这些特定任务提出的方法。

MedSegDiff: Medical Image Segmentation withDiffusion Probabilistic Model,神经网络

3.4 消融研究

我们进行了全面的消融研究,以验证所提出的动态调节和FF-Parser的有效性。结果如表2所示,其中Dy-Cond表示动态调节。我们通过Dice分数(%)来评估这三个任务的表现。从表格中,我们可以看到Dy-Cond比普通DPM获得了相当大的改进。在区域定位很重要的情况下,即光学杯分割,提高了2.1%。在图像对比度较低的情况下,如脑肿瘤和甲状腺结节分割,分别提高1.6%和1.8%。它表明,对于这两种情况,Dy-Cond通常是DPM的有效策略。在Dy-Cond上建立的FF-Parser减轻了高频噪声,从而进一步优化了分割结果。它帮助MedSegDiff进一步提高了近1%的性能,并在所有三个任务上都取得了最佳成绩。

MedSegDiff: Medical Image Segmentation withDiffusion Probabilistic Model,神经网络

4 结论

本文提出了一种基于dpm的通用医学图像分割方案MedSegDiff。我们提出了两种新的技术来保证其性能,即动态条件编码和ff解析器。

对三种不同图像模态的医学图像分割任务进行了对比实验,结果表明我们的模型优于以往的SOTA。作为DPM在一般医学图像分割中的第一个应用,我们相信MedSegDiff将成为未来研究的重要基准。文章来源地址https://www.toymoban.com/news/detail-784445.html

到了这里,关于MedSegDiff: Medical Image Segmentation withDiffusion Probabilistic Model的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读笔记】SegVol: Universal and Interactive Volumetric Medical Image Segmentation

    Du Y, Bai F, Huang T, et al. SegVol: Universal and Interactive Volumetric Medical Image Segmentation[J]. arXiv preprint arXiv:2311.13385, 2023.[代码开源] 【论文概述】 本文思路借鉴于自然图像分割领域的 SAM ,介绍了一种名为SegVol的先进医学图像分割模型,旨在构建一种 图像分割基础模型 ,这是一个面向体

    2024年01月16日
    浏览(35)
  • FCT: The Fully Convolutional Transformer for Medical Image Segmentation 论文解读

    论文:The Fully Convolutional Transformer for Medical Image Segmentation (thecvf.com) 代码:Thanos-DB/FullyConvolutionalTransformer (github.com) 期刊/会议:WACV 2023 我们提出了一种新的transformer,能够分割不同形态的医学图像。 医学图像分析的细粒度特性所带来的挑战意味着transformer对其分析的适应仍处

    2024年02月10日
    浏览(30)
  • 【论文阅读笔记】Prompt Tuning for Parameter-efficient Medical Image Segmentation

    Fischer M, Bartler A, Yang B. Prompt tuning for parameter-efficient medical image segmentation[J]. Medical Image Analysis, 2024, 91: 103024. 【开源】 【核心思想】 本文的核心思想是提出了一种用于医学图像分割的参数高效的提示调整(Prompt Tuning)方法。这种方法基于预训练的神经网络,通过插入可学习的

    2024年01月17日
    浏览(44)
  • 3D医学图像分割大模型 SegVol: Universal and Interactive Volumetric Medical Image Segmentation

    pub: 22 November, 2023 ArXiv [ paper] [ code] 1 体积图像分割通过准确提取器官、病变和组织等感兴趣的区域,在医学图像分析中起着至关重要的作用,在肿瘤监测、手术计划、疾病诊断和优化治疗等临床应用中有着广泛的应用。 2 公开可用的体积医学图像数据集通常由来自不同类别的

    2024年02月03日
    浏览(39)
  • 医学图像分割2 TransUnet:Transformers Make Strong Encoders for Medical Image Segmentation

    TransUnet:Transformers Make Strong Encoders for Medical Image Segmentation 在医学图像分割领域,U形结构的网络,尤其是Unet,已经取得了很优秀的效果。但是,CNN结构并不擅长建立远程信息连接,也就是CNN结构的感受野有限。尽管可以通过堆叠CNN结构、使用空洞卷积等方式增加感受野,但也

    2024年02月05日
    浏览(32)
  • 【论文阅读笔记】A Recent Survey of Vision Transformers for Medical Image Segmentation

    Khan A, Rauf Z, Khan A R, et al. A Recent Survey of Vision Transformers for Medical Image Segmentation[J]. arXiv preprint arXiv:2312.00634, 2023. 【论文概述】 本文是关于医学图像分割中视觉变换器(Vision Transformers,ViTs)的最新综述。文中详细回顾了ViTs及其与卷积神经网络(CNNs)结合形成的混合视觉Trans

    2024年02月02日
    浏览(49)
  • 医学图像分割方向优质的论文及其代码【Medical Image Segmentation】UNet、transformer、计算机视觉

      作者:Yifei Chen, Chenyan Zhang, Yifan Ke, Yiyu Huang, Xuezhou Dai, Feiwei Qin   中文摘要: 由于收集过程具有挑战性、标记成本高、信噪比低以及生物医学图像特征复杂,传统的监督学习方法在医学图像分割方面历来遇到一定的限制。 本文提出了一种半监督模型DFCPS,创新性地融合了

    2024年04月13日
    浏览(32)
  • HiFormer Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation

    [WACV2023] HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation 摘要 由于卷积神经网络的卷积运算的特性,它们在建模长程相关性和空间相关性时受到限制。虽然Transformer最初是为了解决这个问题而开发的,但它们 无法捕获低级别的特征 。相比之下,

    2024年01月21日
    浏览(37)
  • 《VM-UNet: Vision Mamba UNet for Medical Image Segmentation》论文阅读及代码复现

    论文地址:[2402.02491] VM-UNet: Vision Mamba UNet for Medical Image Segmentation (arxiv.org) 代码地址:JCruan519/VM-UNet: (ARXIV24) This is the official code repository for \\\"VM-UNet: Vision Mamba UNet for Medical Image Segmentation\\\". (github.com) 摘要 : 在医学图像分割领域,基于细胞神经网络和基于变换器的模型都得到了广

    2024年03月24日
    浏览(49)
  • 【论文阅读笔记】Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

    Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation Swin-Unet:用于医学图像分割的类Unet纯Transformer 2022年发表在 Computer Vision – ECCV 2022 Workshops Paper Code 在过去的几年里,卷积神经网络(CNN)在医学图像分析方面取得了里程碑式的成就。特别是基于U型结构和跳跃连接的深度神经

    2024年01月23日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包