论文阅读——Deformable ConvNets v2

这篇具有很好参考价值的文章主要介绍了论文阅读——Deformable ConvNets v2。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文阅读——Deformable ConvNets v2,论文阅读

论文:https://arxiv.org/pdf/1811.11168.pdf

代码:https://github.com/chengdazhi/Deformable-Convolution-V2-PyTorch

1. 介绍

可变形卷积能够很好地学习到发生形变的物体,但是论文观察到当尽管比普通卷积网络能够更适应物体形变,可变形卷积网络却可能扩展到感兴趣区域之外从而使得不相关的区域影响网络的性能,由此论文提出v2版本的可变形卷积神经网络(DCNv2),通过更有效的建模能力和训练使网络关注更恰当的图像区域。
其中建模能力的增强得益于两方面:

  • 更多的可变形卷积层
  • 调节能力,即学习偏移的同时还会加入每一个采样点的权重

当然网络也需要更强大的训练方式,借鉴知识蒸馏的思想,使用一个R-CNN作为Teacher指导网络的训练,因为这个网络可以预测有效的提议框的类别即只受到框里面内容的影响而不会受到框外区域的干扰,DCNv2在ROI层之后的特征趋向于模仿R-CNN的特征,如此一来,DCNv2就增强了自己可变形采样的能力。

2.对可变形卷积的表现进行分析

为了更好地理解可变形卷积的工作机制,论文对以下三个环节进行了可视化分析,这个三部分为理解潜在目标区域对网络节点的贡献提供了详尽的视角。

  • 有效感受野:感受野内的像素点对网络的影响是不相同的,这种影响程度的不同可以使用有效感受野来表示,有效感受野的值用每一个像素点对节点梯度的扰动来表示,利用有效感受野可以评价单个的像素点对网络节点的影响但是并不反映整个图像区域的结构性信息。
  • 有效的采样位置:用采样区域对网络节点梯度的影响表示有效采样区域来理解不同采样的位置对网络的共享。
  • 显著性区域边界错误:网络节点计算的结果不会因为移除图像不想管区域而发生变化,基于此,论文可以将有效的区域缩到最小,和全图相比误差很小,这个称为边界定位有偏差的显著性区域,可以通过不断遮挡图像来计算节点的结果。

可视化结果如下图所示:

论文阅读——Deformable ConvNets v2,论文阅读

能够观察到

  • 标准卷积也具有一定程度的对物体的几何形变进行建模的能力
  • 通过引入可变形卷积,这种能力显著增强,空间上网络接收了更大的区域,覆盖整个目标的同时也包含了更多的不相关的背景信息
  • 第三种类型很明显采样区域更加有效

通过上面的可视化及其分析,很明显可变形卷积能够更好的提升网络对几何形变进行建模的能力,对潜在区域的采样区域更大,因此论文提出需要对这个更大的区域进行进一步的分析,得到一个介于原区域与更大区域二者之间的采样区域以提升精度。

3. 更强大的可变形建模能力

为了提升网络对几何形变进行建模的能力,论文提出了一些变化。


3.1 加入更多的可变形卷积层

因为可变形卷积的特殊能力,论文大胆地(╮(︶﹏︶")╭)提出使用更多的可变形卷积层进一步增强整个网络对于几何形变的建模能力。
该论文将ResNet50的conv3,conv4和conv5阶段中的3x3卷积都替换为可变形卷积也就是一共12层可变形卷积(v1版本只有conv5阶段的三层),在较为简单的Pascal VOC数据集上观察到更多可变形卷积层的表现更为优秀。


3.2 可调节的变形模块

论文引入一种调节机制,不但能够调整接收输入的特征的位置,还能调节不同输入特征的振幅(重要性),极端情况下,一个模块可以通过将重要性设置为0来表示不接收该特征,结果对应采样区域的图像像素点显著减少同时不影响模块的输出,因此这种调节机制能够给网络模块新维度上的能力去调节支持区域。

论文阅读——Deformable ConvNets v2,论文阅读

论文阅读——Deformable ConvNets v2,论文阅读

论文阅读——Deformable ConvNets v2,论文阅读

论文阅读——Deformable ConvNets v2,论文阅读

论文阅读——Deformable ConvNets v2,论文阅读

3.3 R-CNN特征融合

可以从上面三图中看到,deformable RoIPooling使得采样区域增大,但是包含了过多的无关区域甚至可能降低其精度,而可调节的deformable RoIPooling使得区域更加合理。
此外,作者发现这种无关的图像语义信息可能是Faster R-CNN的误差来源,结合一些其他的动机(比如分类分支和边界框回归分支共享一些特征),作者提出将Faster R-CNN和R-CNN的分类分数结合从而获得最终的检测分数,这是由于R-CNN分类分数只专注于输入RoI内的图像内容,这会有助于解决重复语义信息的问题从而提升准确性。然而简单的结合Faster R-CNN和R-CNN会使训练和推断都很慢,论文提出使用R-CNN作为一个教师网络,让DCNV2的RoI池化之后的feature去模拟R-CNN的特征,如下图所示,除了Faster R-CNN外加一个R-CNN分支用于特征模仿,

论文阅读——Deformable ConvNets v2,论文阅读

论文阅读——Deformable ConvNets v2,论文阅读

论文阅读——Deformable ConvNets v2,论文阅读

论文阅读——Deformable ConvNets v2,论文阅读

4. 实验

有无可变形卷积/RoI池化和多层可变形卷积(输入图像的短边1000和800)

论文阅读——Deformable ConvNets v2,论文阅读

论文阅读——Deformable ConvNets v2,论文阅读


从哪个阶段开始R-CNN特征模仿的影响

论文阅读——Deformable ConvNets v2,论文阅读


主干网络的影响

论文阅读——Deformable ConvNets v2,论文阅读


不同尺度的目标

论文阅读——Deformable ConvNets v2,论文阅读


不同大小的输入短边

论文阅读——Deformable ConvNets v2,论文阅读


输入图像的分辨率

论文阅读——Deformable ConvNets v2,论文阅读


不同主干网络的分类精度不同

论文阅读——Deformable ConvNets v2,论文阅读


是否ImageNet预训练?

论文阅读——Deformable ConvNets v2,论文阅读

 文章来源地址https://www.toymoban.com/news/detail-759287.html

到了这里,关于论文阅读——Deformable ConvNets v2的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 论文精读笔记

    DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 参考:AI-杂货铺-Transformer跨界CV又一佳作!Deformable DETR:超强的小目标检测算法! 摘要 摘要部分,作者主要说明了如下几点: 为了解决DETR中使用Transformer架构在处理图像特征图时的局限性而导致的收敛速度慢,特征空间

    2024年02月10日
    浏览(38)
  • 重写阅读书源校验工具v2.0

    针对之前的版本,是比较简陋和混乱的,大概是当时写的太随意了吧。 今天将它重写了一些,顺便优化了一些功能。 文章来源:https://www.skyqian.com/archives/verifybooksource-v2.html Github:Qiantigers/verifyBookSource: 阅读书源校验工具 (github.com) 运行要求: 我用的是Python3.10 其他版本应该也

    2024年02月11日
    浏览(20)
  • 论文阅读:Vary论文阅读笔记

    论文:Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models Paper | Github | Demo 许久不精读论文了,内心一直想找个专门的时间来细细品读自己感兴趣的论文。现在想来,无异于是自己骗自己了,因为根本就不存在那个专门的时间。所以改变最好的时候就是现在。 因为自己一

    2024年01月19日
    浏览(43)
  • 李沐论文精读系列三:MoCo、对比学习综述(MoCov1/v2/v3、SimCLR v1/v2、DINO等)

    传送门: 李沐论文精读系列一: ResNet、Transformer、GAN、BERT 李沐论文精读系列二:Vision Transformer、MAE、Swin-Transformer 李沐论文精读系列四:CLIP和改进工作串讲(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso) 1.1 导言 参考: 论文:Momentum Contrast for Unsupervised Visual Representation Learni

    2024年02月04日
    浏览(52)
  • 【论文阅读】(20230410-20230416)论文阅读简单记录和汇总

    2023/04/09:很久没有动笔写东西了,这两周就要被抓着汇报了,痛苦啊呜呜呜呜呜 (CVPR 2023): Temporal Interpolation Is All You Need for Dynamic Neural Radiance Fields (ICCV 2021):Video Autoencoder: self-supervised disentanglement of static 3D structure and motion (CVPR 2023):DINER: Disorder-Invariant Implicit Neural Representat

    2024年02月12日
    浏览(37)
  • 论文阅读:Vary-toy论文阅读笔记

    论文:Small Language Model Meets with Reinforced Vision Vocabulary Paper | Github | Demo 说来也巧,之前在写论文阅读:Vary论文阅读笔记文章时,正好看到了Vary-toy刚刚发布。 这次,咱也是站在了时代的前沿,这不赶紧先睹为快。让我看看相比于Vary,Vary-toy做了哪些改进? 从整体结构来看,仍

    2024年01月25日
    浏览(55)
  • 论文阅读:TinyGPT-V 论文阅读及源码梳理对应

    引言 TinyGPT-V来自论文:TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones,是一篇基于较小LLM作为backbone的多模态工作。相关工作已经开源,地址为:Github 之所以选择这篇文章,是因为比较具有落地意义,且便于本地运行,查看和调试。 以下代码只给出核心部分,会省

    2024年01月16日
    浏览(61)
  • 论文阅读1---OpenCalib论文阅读之factory calibration模块

    该论文的标定间比较高端,一旦四轮定位后,可确定标定板与车辆姿态。以下为本人理解,仅供参考。 工厂标定,可理解为车辆相关的标定,不涉及传感器间标定 该标定工具不依赖opencv;产线长度一般2.5米 Factory Calibration Tools:四轮定位+多位姿标定板 1)根据传感器安装位姿

    2024年01月25日
    浏览(45)
  • 【论文阅读】(2023.06.09-2023.06.18)论文阅读简单记录和汇总

    2023/06/09:虽然下周是我做汇报,但是到了周末该打游戏还是得打的 2023/06/12:好累好困,现在好容易累。 (TCSVT 2023)Facial Image Compression via Neural Image Manifold Compression (arxiv 2023)Exploring the Rate-Distortion-Complexity Optimization in Neural Image Compression (arxiv 2023)High-Similarity-Pass Attenti

    2024年02月09日
    浏览(38)
  • 【论文阅读】视线估计方向论文

    2022年过去,总结一下已经看过的论文的汇总以及对开展实验的一点想法: 首先,参考[1]中提出的分类,可以将 视线估计(gaze estimation) 分为: 注视目标估计 (gaze target detection,or gaze following),跨帧的视频注视目标估计; 注视点估计 ,估算人双目视线聚焦的在一个二维屏

    2023年04月08日
    浏览(107)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包