BiFPN 论文重点研读:高效双向跨尺度连接和加权特征融合

这篇具有很好参考价值的文章主要介绍了BiFPN 论文重点研读:高效双向跨尺度连接和加权特征融合。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

这是今天读的第二篇论文,EfficientDet: Scalable and Efficient Object Detection。论文地址以引用方式出现,听起来好像挺酷,其实大家根本不会看的,对吧 = =

这篇论文主要讨论了两个方面,加权双向特征金字塔网络(BiFPN)也是本文重点,另一方面提出改进型网络EfficientDet,可以同时统一缩放所有骨干网、特征网络和框/类预测网络的分辨率、深度和宽度的模型。

代码地址:https://github.com/google/automl/tree/master/efficientdet

非重点番外:模型缩放 :根据[2][3],作者认为增加通道大小和重复特征网络工作也可以带来更高的准确性。这些缩放方法主要集中在单一或有限的缩放维度上,根据《Efficientnet: Rethinking model scaling for convolutional neural networks》[4] 联合扩大网络宽度、深度和分辨率,展示了图像分类的卓越模型效率。作者提出了本文。

重点:
BiFPN 的主要思想:高效双向跨尺度连接和加权特征融合。

模型现况对比

多尺度特征表示是目标检测的重点方向之一,作者认为其主要困难是如何有效地表示和处理多尺度特征。

  1. 早期的检测器通常直接根据从骨干网络中提取的金字塔特征层次结构进行预测 。
  2. 特征金字塔网络 (FPN)提出了一种自上而下的途径来组合多尺度特征。
  3. 基于FPN,PANet 在 FPN 之上添加了一个额外的自下而上的路径聚合网络;
  4. NAS‑FPN [8]利用神经架构搜索来自动设计特征网络拓扑。虽然实现了更好的性能,但 NAS‑FPN 在搜索过程中需要数千 GPU 小时,并且生成的特征网络是不规则的,因此难以解释。
  5. BiFPN:引入可学习的权重来学习不同输入特征的重要性,同时重复应用自上而下和自下而上的多尺度特征融合.

下图表示各类网络模型的结构:
bifpn,计算机视觉论文重点研读,深度学习,计算机视觉,人工智能( a ) FPN 引入自上而下的路径来融合从 3 级到 7 级(P3 ‑ P7)的多尺度特征;
( b ) PANet 在 FPN 之上添加了一个额外的自下而上的路径;
( c ) NAS‑FPN 使用神经架构搜索找到不规则的特征网络拓扑,然后重复应用相同的块;
( d ) BiFPN 双向跨尺度连接和加权特征融合,具有更好的准确性和效率权衡。
BiFPN做法之跨尺度链接

  1. 删除那些只有一个输入边的节点。理由:如果一个节点只有一个没有特征融合的输入边,那么它对旨在融合不同特征的特征网络的贡献就会较小,这导致了一个简化的双向网络。

  2. 如果它们处于同一级别,则从原始输入到输出节点添加一条额外的边,以便在不增加太多成本的情况下融合更多的功能。

  3. 与只有单次双向(自上而下和一个自下而上)路径的 PANet 不同,将每个双向(自聚合多尺度特征:上而下和自下而上)路径视为一个特征网络层,并多次重复同一层以启用更高级的特征融合。

BiFPN做法之加权特征融合

  1. 旧的做法:先将它们调整到相同的分辨率,然后将它们相加。以前的方法都一视同仁地对
    待所有的输入特征,没有区别。
  2. 文中的做法:由于不同的输入特征具有不同的分辨率,它们通常对输出特征的贡献不均。为了解决这个问题,我们建议为每个输入添加一个额外的权重,让网络学习每个输入特征的重要性。提出了三种加权融合方法。
    (1) Unbounded fusion:无边界融合: O =Σ wi · Ii
    (2)Softmax-based fusion基于 Softmax 的融合:过于慢于是提出(3)
    (3)Fast normalized fusion快速归一化融合:本质就是把softmax的e去掉,将权重w作为运算方式

BiFPN融合特征计算方式:
bifpn,计算机视觉论文重点研读,深度学习,计算机视觉,人工智能

Resize: 用于分辨率匹配的上采样或下采样操作
Conv: 用于特征处理的卷积操作。

bifpn,计算机视觉论文重点研读,深度学习,计算机视觉,人工智能EfficientDet 架构 它采用 EfficientNet作为骨干网络,BiFPN 作为特征网络,以及共享类/框预测网络。 BiFPN 层和类/框box网络层都根据不同的资源约束重复多次。

个人总结:本文重点在于说明设计了BiFPN特征网络结构,如果能多使用几次BiFPN的话,会使实验效果更好。

引用:文章来源地址https://www.toymoban.com/news/detail-708070.html

  1. Tan, Mingxing, Ruoming Pang, and Quoc V. Le. “Efficientdet: Scalable and efficient object detection.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020.
  2. Golnaz Ghiasi, Tsung-Yi Lin, Ruoming Pang, and Quoc V. Le. Nas-fpn: Learning scalable feature pyramid architecture for object detection. CVPR, 2019.
  3. Barret Zoph, Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin,Jonathon Shlens, and Quoc V. Le. Learning data aug-mentation strategies for object detection. arXiv preprint arXiv:1804.02767, 2019.
  4. Mingxing Tan and Quoc V. Le. Efficientnet: Rethinkingmodel scaling for convolutional neural networks. ICML,2019.

到了这里,关于BiFPN 论文重点研读:高效双向跨尺度连接和加权特征融合的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 端到端流式语音识别研究综述——语音识别(论文研读)

    语音识别是实现人机交互的一种重要途径,是自然语言处理的基础环节,随着人工智能技术的发展,人机交互等大量应用场景存在着流式语音识别的需求。流式语音识别的定义是一边输入语音一边输出结果,它能够大大减少人机交互过程中语音识别的处理时间。目前在学术研

    2024年02月04日
    浏览(36)
  • 改进 YOLO V5 的密集行人检测算法研究(论文研读)——目标检测

    针对在人员密集区或相互拥挤场景下进行的行人目标检测时,因行人遮挡或人像交叠所导致的跟踪目标丢失、检测识别率低的问题,提出了一种融合注意力机制的改进 YOLO V5 算法。 通过引入注意力机制来深入挖掘特征通道间关系和特征图空间信息,进一步增强了对行人目标可

    2024年02月01日
    浏览(44)
  • (5)步态识别论文研读——GaitDAN:基于对抗域适应的跨视角步态识别

    GaitDAN: Cross-view Gait Recognition via Adversarial Domain Adaptation | IEEE Journals Magazine | IEEE Xplore GaitDAN: Cross-view Gait Recognition via Adversarial Domain Adaptation 基于对抗与适应 摘要:视角变化导致步态外观存在显着差异。因此,识别跨视角场景中的步态是非常具有挑战性的。最近的方法要么在进

    2024年04月27日
    浏览(27)
  • 结构网格自适应(SAMR)——一种高效的多尺度问题解决方案

    网格对于数值模拟十分重要。基于网格的离散是数值计算中最主流的空间离散方式,而网格的类型和质量直接影响计算的精度和效率。一般情况下,网格尺寸越小,数值离散引入的截断误差越小。但除此以外,网格的正交性、斜率,甚至与物理场特征的一致性也都或多或少会

    2024年02月04日
    浏览(38)
  • 论文阅读:不同时间尺度

    [目的]基于气候因子分区条件下,分析贵州省不同区域在不同时间尺度下气象干旱的时空演变特征,可为干旱监测和预测、抗洪救灾提供理论依据。[方法]基于贵州省31个气象站点1970—2019年的逐月降水和气和气温数据,利用 主成分分析 讨论贵州省降水及气温变化特征,结合

    2024年02月16日
    浏览(26)
  • 基于BERT-PGN模型的中文新闻文本自动摘要生成——文本摘要生成(论文研读)

    基于BERT-PGN模型的中文新闻文本自动摘要生成(2020.07.08) 针对文本自动摘要任务中生成式摘要模型对句子的上下文理解不够充分、生成内容重复的问题,基于BERT 和指针生成网络(PGN),提出了一种面向中文新闻文本的生成式摘要模型——BERT-指针生成网络(BERTPGN)。首先,

    2024年02月01日
    浏览(52)
  • 【论文研读】-An Efficient Framework for Optimistic Concurrent Execution of Smart Contracts

    区块链平台中的一个个交易都是由智能合约编写的,每一个交易想要成功上链,首先需要经过矿工(想要进行上链的节点,也就是新区块)进行挖矿,然后将挖好的区块交给验证者(区块链中已经挖矿成功的节点进行验证)进行验证,验证成功就会将区块上链;验证失败,则

    2024年01月21日
    浏览(40)
  • 【高分论文密码】大尺度空间模拟预测与数字制图

    详情点击链接:【高分论文密码】大尺度空间模拟预测与数字制图 一,R语言空间数据及数据挖掘 1、R语言空间数据 1.1R语言基础与数据科学 1.2R空间矢量数据 1.3R栅格数据 2、R语言空间数据挖掘关键技术​​​​​​​ 二 ,R语言空间数据高级处理技术​​​​​​​ 1、R语

    2024年02月08日
    浏览(28)
  • 论文阅读:基于深度学习的大尺度遥感图像建筑物分割研究

    一、该网络中采用了上下文信息捕获模块。通过扩大感受野,在保留细节信息的同时,在中心部分进行多尺度特征的融合,缓解了传统算法中细节信息丢失的问题;通过自适应地融合局部语义特征,该网络在空间特征和通道特征之间建立长距离的依赖关系; 二、分割网络:边

    2024年02月15日
    浏览(45)
  • 论文阅读-2:基于深度学习的大尺度遥感图像建筑物分割研究

    一、该网络中采用了上下文信息捕获模块。通过扩大感受野,在保留细节信息的同时,在中心部分进行多尺度特征的融合,缓解了传统算法中细节信息丢失的问题;通过自适应地融合局部语义特征,该网络在空间特征和通道特征之间建立长距离的依赖关系; 二、分割网络:边

    2024年02月16日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包