深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现

这篇具有很好参考价值的文章主要介绍了深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现
Rethinking Mobile Block for Efficient Attention-based Models
PDF: https://arxiv.org/pdf/2301.01146.pdf
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

EMO是高效、轻量级的模型,以在参数、FLOPs和性能之间实现平衡,适用于密集预测任务。文章从倒立残差块(IRB)和Transformer的有效组件的统一角度出发,将基于CNN的IRB扩展到基于注意力的模型,并抽象出一个用于轻量级模型设计的单残留元移动块(MMB)。
深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现,Paper Reading,Deep Learning,深度学习,pytorch,人工智能
EMO为轻量级模型设计提供了一个新的思路,通过将CNN和Transformer的有效组件统一起来,实现了高效的模型性能。大量实验验证了所提出的方法的有效性和优越性。

2 ResNetlike Efficient MOdel (EMO)

2-1 Criteria for General Efficient Model

在为移动应用设计高效的视觉模型时,提出以下四个标准,即,一个高效的模型应尽可能满足:

  • ➀Usability 可用性。简单的实现不使用复杂的运算符,并且易于为应用程序进行优化。
  • ➁Uniformity 统一性。尽可能少的核心模块以减少模型复杂性并加快部署速度。
  • ➂Effectiveness有效性。对于分类和密集预测具有良好的性能。
  • ➃Efficiency 效率。参数和计算量较少,但需要在准确性上进行权衡。

深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现,Paper Reading,Deep Learning,深度学习,pytorch,人工智能

2-2 Meta Mobile Block

通过对 MobileNetv2 中的 Inverted Residual Block 以及 Transformer 中的核心 MHSA 和 FFN 模块进行抽象,提出了一种统一的 Meta Mobile (M2) Block 对上述结构进行统一的表示,通过采用参数扩展率 λ 和高效算子 F 来实例化不同的模块。
深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现,Paper Reading,Deep Learning,深度学习,pytorch,人工智能
以图像输入 X ( ∈ R C × H × W ) X(∈ R^{C×H×W}) XRC×H×W为例,MMB首先使用扩展的 M L P e MLP_{e} MLPe来扩展通道维度,输出/输入比例为λ:
深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现,Paper Reading,Deep Learning,深度学习,pytorch,人工智能
然后,中间操作符F进一步增强图像特征,例如恒等操作符、静态卷积、动态MHSA等。考虑到MMB适用于高效的网络设计,我们将F作为高效操作符的概念,表示为:
深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现,Paper Reading,Deep Learning,深度学习,pytorch,人工智能
最后,使用反转的输入/输出比例为λ的收缩 M L P s MLP_{s} MLPs来收缩通道维度:
深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现,Paper Reading,Deep Learning,深度学习,pytorch,人工智能
其中,使用残差连接来获得最终的输出 Y = X + X s ( ∈ R C × H × W ) Y = X + X_{s}(∈ R^{C×H×W}) Y=X+XsRC×H×W

2-3 Micro Design: Inverted Residual Mobile Block

基于Meta Mobile Block,设计了一个反向残差移动块 (iRMB),它吸收了 CNN 架构的效率来建模局部特征和 Transformer 架构动态建模的能力来学习长距离交互。结构如下:深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现,Paper Reading,Deep Learning,深度学习,pytorch,人工智能
具体实现中,iRMB 中的 F 被建模为级联的 EW-MHSA 和DW-Conv卷积。
深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现,Paper Reading,Deep Learning,深度学习,pytorch,人工智能

2-4 Macro Design of EMO for Dense Prediction

基于上述标准,作者设计了一个由多个 iRMB 模块堆叠而成的类似于 ResNet 的高效模型——EMO,主要体现在以下几个优势:

1)对于整体框架,EMO 仅由 iRMB 组成,没有多样化的模块,这在设计思想上可称得上大道至简;

2)对于特定模块,iRMB 仅由标准卷积和多头自注意力组成,没有其他复杂的运算符。此外,受益于 DW-Conv,iRMB 还可以通过步长适应下采样操作,并且不需要任何位置嵌入来向 MHSA 引入位置偏差;

3)对于网络的变体设置,作者采用逐渐增加的扩展率和通道数,详细配置如下表所示。
深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现,Paper Reading,Deep Learning,深度学习,pytorch,人工智能

3 Experiments

深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现,Paper Reading,Deep Learning,深度学习,pytorch,人工智能
深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现,Paper Reading,Deep Learning,深度学习,pytorch,人工智能文章来源地址https://www.toymoban.com/news/detail-699388.html

到了这里,关于深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深度学习论文: RepViT: Revisiting Mobile CNN From ViT Perspective及其PyTorch实现

    深度学习论文: RepViT: Revisiting Mobile CNN From ViT Perspective及其PyTorch实现 RepViT: Revisiting Mobile CNN From ViT Perspective PDF: https://arxiv.org/pdf/2307.09283.pdf PyTorch代码: https://github.com/shanglianlm0525/CvPytorch PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks 本文通过引入轻量级 ViT 的架构选择,重

    2024年02月14日
    浏览(43)
  • 【深度学习】半监督学习 Efficient Teacher: Semi-Supervised Object Detection for YOLOv5

    https://arxiv.org/abs/2302.07577 https://github.com/AlibabaResearch/efficientteacher 半监督目标检测(SSOD)在改善R-CNN系列和无锚点检测器的性能方面取得了成功。然而,一阶段基于锚点的检测器缺乏生成高质量或灵活伪标签的结构,导致SSOD存在严重的一致性问题。本文提出了Efficient Teacher框架

    2024年02月11日
    浏览(47)
  • 论文阅读:Rethinking Range View Representation for LiDAR Segmentation

    来源ICCV2023 LiDAR分割对于自动驾驶感知至关重要。最近的趋势有利于基于点或体素的方法,因为它们通常产生比传统的距离视图表示更好的性能。在这项工作中,我们揭示了建立强大的距离视图模型的几个关键因素。我们观察到, “多对一”的映射 , 语义不连贯性 , 形状变

    2024年02月02日
    浏览(51)
  • 论文阅读《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》

    就上一篇博客如何写论文、读(分享汇报)论文,在《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》进行实践。 《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》是一篇由Mingxing Tan和Quoc V. Le等人于2019年提出的论文,主要关注卷积神经网络(CNN)的模型缩

    2024年02月03日
    浏览(48)
  • 03-25 周一 论文阅读 Train Large, Then Compress: Rethinking Model Size for Effcient Trainning and Inference

    03-25 周一 论文阅读 Train Large, Then Compress: Rethinking Model Size for Effcient Trainning and Inference of Transformers 时间 版本 修改人 描述 V0.1 宋全恒 新建文档  Lizhuohan是单位是UC Berkeley(加州大学伯克利分校)。这可以从文献的作者信息中得到确认,其中提到了 “1UC Berkeley” 作为其隶属单

    2024年04月27日
    浏览(38)
  • 【论文阅读】Dynamic Split Computing for Efficient Deep Edge Intelligence

    作者:Arian Bakhtiarnia, Nemanja Milošević, Qi Zhang, Dragana Bajović, Alexandros Iosifidis 发表会议: ICML 2022 DyNN Workshop ICASSP 2023 发表单位: ∗DIGIT, Department of Electrical and Computer Engineering, Aarhus University, Denmark. †Faculty of Sciences, University of Novi Sad, Serbia. ‡Faculty of Technical Sciences, University of N

    2024年02月11日
    浏览(60)
  • 【论文阅读】ELA: Efficient Local Attention for Deep Convolutional Neural Networks

    论文链接 :ELA: Efficient Local Attention for Deep Convolutional Neural Networks (arxiv.org) 作者 :Wei Xu, Yi Wan 单位 :兰州大学信息科学与工程学院,青海省物联网重点实验室,青海师范大学 引用 :Xu W, Wan Y. ELA: Efficient Local Attention for Deep Convolutional Neural Networks[J]. arXiv preprint arXiv:2403.01123,

    2024年04月15日
    浏览(52)
  • 论文阅读 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    前言:CVPR2022oral 用transformer应用到low-level任务 low-level task 如deblurringdenoisingdehazing等任务多是基于CNN做的,这样的局限性有二: 第一是卷积操作的感受野受限,很难建立起全局依赖, 第二就是卷积操作的卷积核初始化是固定的,而attention的设计可以通过像素之间的关系自适

    2024年02月05日
    浏览(51)
  • 【论文阅读笔记】Prompt Tuning for Parameter-efficient Medical Image Segmentation

    Fischer M, Bartler A, Yang B. Prompt tuning for parameter-efficient medical image segmentation[J]. Medical Image Analysis, 2024, 91: 103024. 【开源】 【核心思想】 本文的核心思想是提出了一种用于医学图像分割的参数高效的提示调整(Prompt Tuning)方法。这种方法基于预训练的神经网络,通过插入可学习的

    2024年01月17日
    浏览(57)
  • 【论文笔记】CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception

    原文链接:https://arxiv.org/abs/2304.00670   本文提出两阶段融合方法CRN,能使用相机和雷达生成语义丰富且位置精确的BEV特征。具体来说,首先将图像透视特征转换到BEV下,该步骤依赖雷达,称为雷达辅助的视图变换(RVT)。由于转换得到的BEV特征并非完全精确,接下来的多模

    2024年02月03日
    浏览(67)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包