LeViT-UNet:transformer 编码器和CNN解码器的有效整合

这篇具有很好参考价值的文章主要介绍了LeViT-UNet:transformer 编码器和CNN解码器的有效整合。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

levi - unet[2]是一种新的医学图像分割架构,它使用transformer 作为编码器,这使得它能够更有效地学习远程依赖关系。levi - unet[2]比传统的U-Nets更快,同时仍然实现了最先进的分割性能。

levi - unet[2]在几个具有挑战性的医学图像分割基准上取得了比其他法更好的性能,包括Synapse多器官分割数据集(Synapse)和自动心脏诊断挑战数据集(ACDC)。

LeViT-UNet架构

levi - unet的编码器使用LeViT块构建,设计用于高效和有效地学习全局特征。解码器是使用卷积块构建的。

LeViT-UNet:transformer 编码器和CNN解码器的有效整合,transformer,cnn,深度学习,unet

编码器从多个分辨率的输入图像中提取特征映射。这些特征映射被上采样,连接然后通过跳过连接传递到解码器。跳过连接允许解码器从编码器访问高分辨率的局部特征,有助于提高分割性能。

这种设计使模型能够综合transformer 和cnn的优点。transformer 刚擅长学习全局特征,而cnn擅长学习局部特征。通过结合这两种方法,levi - unet能够获得良好的分割性能,同时也相对高效。

LeViT编码器

编码器采用LeViT[1],主要由两个部分组成:卷积块和变压器块。卷积块通过对输入图像应用4层3x3卷积(步幅为2)来执行分辨率降低。在提取更多抽象特征的同时,这将图像的分辨率降低了一半。然后transformer块获取卷积块的特征映射并学习全局特征。

在编码器的最后阶段将来自卷积块和变压器块的特征连接起来。这使得编码器具有本地和全局特性。局部特征对于识别图像中的小而详细的物体很重要,而全局特征对于识别图像的整体结构很重要。通过结合局部和全局特征,编码器能够生成更准确的分割。

根据输入第一个transformer块的通道数量,开发了3个LeViT编码器:levi -128s, levi -192和levi -384。

LeViT-UNet:transformer 编码器和CNN解码器的有效整合,transformer,cnn,深度学习,unet

CNN解码器

levi - unet的解码器将编码器的特征与跳过连接连接在一起。使得解码器能够从编码器访问高分辨率的局部特征,并采用级联上采样策略,利用cnn从前一层恢复分辨率。它由一系列上采样层组成,每个上采样层后面是两个3x3卷积层,一个BN和一个ReLU层。

实验结果

实现细节:数据增强(随机翻转和旋转),优化器(Adam,学习率1e-5,权重衰减1e-4),图像大小224x224,批大小8,epoch 350和400用于Synapse和ACDC数据集

LeViT模型优于现有模型,并且明显快于TransUNet,后者将Transformer块合并到CNN中。

LeViT-UNet:transformer 编码器和CNN解码器的有效整合,transformer,cnn,深度学习,unet

上图显示了TransUNet、UNet、DeepLabv3+和levi -UNet四种不同方法的定性分割结果。其他三种方法更可能导致器官不足或者过度分割。例如,胃被TransUNet和DeepLabV3+分割不足(如上行第三个面板的红色箭头所示),被UNet过度分割(如第二行第四个面板的红色箭头所示)。

与其他方法相比,论文提出的模型输出相对平滑,表明在边界预测方面更具优势。

LeViT-UNet:transformer 编码器和CNN解码器的有效整合,transformer,cnn,深度学习,unet

2篇论文:

[1] Benjamin Graham, Alaaeldin El-Nouby, Hugo Touvron, Pierre Stock, Armand Joulin, Herv’e J’egou, Matthijs Douze, LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference, 2021

[2] Guoping Xu, Xingrong Wu, Xuan Zhang, Xinwei He, LeViT-UNet: Make Faster Encoders with Transformer for Medical Image Segmentation, 2021

https://avoid.overfit.cn/post/474870d5912d4cb3aeade0b47c1a97e3

作者:Golnaz Hosseini文章来源地址https://www.toymoban.com/news/detail-521423.html

到了这里,关于LeViT-UNet:transformer 编码器和CNN解码器的有效整合的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深入了解Transformer:从编码器到解码器的神经网络之旅

    自2017年问世以来,Transformer模型在自然语言处理(NLP)领域引发了一场革命。它的独特设计和高效性能使其成为了解决复杂语言任务的关键工具。 (1)自注意力机制 Transformer的核心在于自注意力机制。它允许模型在处理每个词时考虑句子中的所有其他词,从而有效捕获长距离依

    2024年01月17日
    浏览(36)
  • 深入理解深度学习——Transformer:编码器(Encoder)部分

    分类目录:《深入理解深度学习》总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nadaraya-Watson核回归 ·注意力机制(AttentionMechanism):注意力评分函数(AttentionScoringFunction) ·注意力机制(AttentionMechanism):Bahda

    2024年02月08日
    浏览(52)
  • 【信号处理】基于CNN自编码器的心电信号异常检测识别(tensorflow)

    本项目主要实现卷积自编码器对于异常心电ECG信号的检测和识别,属于无监督学习中的生理信号检测的典型方法之一。   读取心电信号 信号可视化    信号均值计算及可视化  训练/测试数据划分 搭建自编码器 模型训练 训练可视化   信号重建可视化 计算重建MAE误差  异常

    2024年04月23日
    浏览(31)
  • 机器学习&&深度学习——BERT(来自transformer的双向编码器表示)

    👨‍🎓作者简介:一位即将上大四,正专攻机器学习的保研er 🌌上期文章:机器学习深度学习——transformer(机器翻译的再实现) 📚订阅专栏:机器学习深度学习 希望文章对你们有所帮助 我们首先理解一下相关的一些概念,首先我们知道在自然语言系统中,词是意义的基

    2024年02月12日
    浏览(37)
  • 自然语言处理(七):来自Transformers的双向编码器表示(BERT)

    BERT(Bidirectional Encoder Representations from Transformers)是一种预训练的自然语言处理模型,由Google于2018年提出。它是基于Transformer模型架构的深度双向(双向指同时考虑上下文信息)表示学习模型。 BERT的目标是通过在大规模文本语料上进行自监督学习来学习通用的语言表示。在预

    2024年02月09日
    浏览(32)
  • 读书笔记:多Transformer的双向编码器表示法(Bert)-1

    Bidirectional Encoder Representations from Transformers,即Bert; 本笔记主要是对谷歌Bert架构的入门学习: 介绍Transformer架构,理解编码器和解码器的工作原理; 掌握Bert模型架构的各个部分,了解如何进行模型的预训练、模型微调(将预训练的结果用于下游任务); 学习Bert的不同变体

    2024年02月09日
    浏览(30)
  • 读书笔记:多Transformer的双向编码器表示法(Bert)-4

    Bidirectional Encoder Representations from Transformers,即Bert; 第二部分 探索BERT变体 从本章开始的诸多内容,以理解为目标,着重关注对音频相关的支持(如果有的话); BERT变体:ALBERT、RoBERTTa、ELECTRA、SpanBERT、基于知识蒸馏; ALBERT,A Lite version of BERT,意为BERT模型的精简版;它对

    2024年02月07日
    浏览(25)
  • 【人工智能】Transformer 模型数学公式:自注意力机制、多头自注意力、QKV 矩阵计算实例、位置编码、编码器和解码器、常见的激活函数等

    Transformer模型由多个编码器和解码器层组成,其中包含自注意力机制、线性层和层归一化等关键构造模块。虽然无法将整个模型完美地表示为单个数学公式,但我们可以提供一些重要构造模块的数学表示。以下是使用LaTeX格式渲染的部分Transformer关键组件的数学公式: 自注意力

    2024年02月14日
    浏览(39)
  • BERT:来自 Transformers 的双向编码器表示 – 释放深度上下文化词嵌入的力量

    BERT是 Transformers 双向编码器表示 的缩写,是 2018 年推出的改变游戏规则的 NLP 模型之一。BERT 的情感分类、文本摘要和问答功能使其看起来像是一站式 NLP 模型。尽管更新和更大的语言模型已经出现,但 BERT 仍然具有相关性,并且值得学习它的架构、方法和功能。  这篇综合文

    2024年02月05日
    浏览(30)
  • 一种使用热成像和自动编码器和 3D-CNN 模型堆叠集成进行跌倒检测的新方法

    作者信息: 跌倒是造成伤害和死亡的重要原因,尤其是在老年人口中。及早发现跌倒对于减轻其影响至关重要。热成像是一种很有前途的检测跌倒的技术,因为它是非侵入性的,可以在弱光条件下运行。然而,由于这些图像的分辨率低且缺乏颜色信息,准确检测热图像中的跌

    2024年02月03日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包