论文阅读<GDIP: Gated Differentiable Image Processing for Object-Detection in Adverse Conditions>

这篇具有很好参考价值的文章主要介绍了论文阅读<GDIP: Gated Differentiable Image Processing for Object-Detection in Adverse Conditions>。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

        这篇文章是在2022年AAAI上发表的一篇文章IA-YOLO上进行改进的,基本思想是一致的,利用的相机ISP的pipeline进行图像增强,和YOLOv3进行联合训练。

论文链接:[2209.14922] GDIP: Gated Differentiable Image Processing for Object-Detection in Adverse Conditions (arxiv.org)

代码链接:GitHub - Gatedip/GDIP-Yolo: Gated Differentiable Image Processing (GDIP) for Object Detection in Adverse Conditions | Accepted at ICRA 2023

Abstract 

        在恶劣天气和光照条件下检测物体对于自动驾驶汽车的安全和持续运行至关重要,并且仍然是一个尚未解决的问题。我们提出了一个门控可微图像处理( GDIP )模块,一个域无关的网络结构,它可以插入现有的目标检测网络,并使用恶劣条件下的图像进行端到端的训练,例如在雾和低光照下捕获的图像。我们提出的GDIP块直接通过下游的目标检测损失来学习增强图像。这是通过学习多个同时操作的图像预处理( IP )技术的参数来实现的,它们的输出结合使用通过一种新颖的门控机制学习的权重。我们通过多级引导过程对GDIP进行了进一步的改进,以实现渐进的图像增强。最后,在权衡精度和速度的基础上,我们提出了一种GDIP的变体,可以用作训练Yolo的正则化器,从而消除了在推理过程中对基于GDIP的图像增强的需求,从而获得更高的吞吐量和更合理的实际部署。通过在Pascal VOC等合成数据集以及真实雾( RTTS )和低照度( Ex Dark )数据集上的定量和定性研究,我们展示了比几种最先进的方法显著提高的检测性能。

Method

        提出了GDIP block,用于增强输入图像,以便在不利的环境下进行目标检测,GDIP包括以下几个图像处理模块(Image Processing, IP):tone correction (T ), contrast balance (C), sharpening (S), defogging (DF ), gamma correction (G), white balancing (W B), and the identity operation (I).这几个IP模块和IA-YOLO的保持一致,不同的是IA-YOLO是顺序执行模块,GDIP是使用门控机制对其进行加权。

A Gated Differentiable Image Processing(GDIP) block

        GDIP由多个具有门控机制的的IP模块组成,每个Gb模块包括一个线性层,一个可微分图像处理模块和一个门控机制(使用tanh归一化到0-1之间)。线性层(图中紫色线条块)计算两个实体:可微IP块所需的参数和作为其对应门的输入的标量值。每个Gb模块的各个线性层通过一个公共的特征嵌入作为输入,从一个共享的视觉编码器获得(对应下图中的蓝色模块Vision Encoder)。IP操作(利用预测的参数)的输出乘以门的标量输出。流程可用公式1建模,x是低光图像,z是增强图像,f是IP操作,w是门控值,N是min-max normalization operation。

gdip gated differentiable,目标检测,论文阅读,深度学习

gdip gated differentiable,目标检测,论文阅读,深度学习

Vision Encoder

        Vision encoder用于提取图像潜在特征去计算IP参数和门控值。包括5个kernel size 为3,stride 为1的卷积层,通道从64到1024,每个卷积层后连接一个average pooling,最后一层使用global average pooling,输出大小为1*1*1024,然后使用全连接层映射到1*1*256。GDIP块从视觉编码器连同不利的输入图像取这256维嵌入,并在计算必要的参数后执行图像增强。

GDIP-YOLO

        为了将GDIP与Yolo进行集成,我们使用带有GDIP的视觉编码器进行图像增强(如图所示),并将增强后的图像作为Yolo的输入。以这种方式将GDIP与Yolo集成,确保了我们的架构不需要任何额外的损失公式,并使用Yolo的标准目标检测损失        (简称Lobj)对网络进行端到端的目标检测训练。

B Multi-Level GDIP(MGDIP)

        由于只使用了视觉编码器的最后一层,限制了GDIP可用于图像处理模块学习参数的信息范围。提出了多渐进式图像增强,把GDIP模块和vision encoder的每一层集成实现,命名为MGDIP-Yolo。如图3所示,MGDIP通过将一个GDIP块的输出作为输入反馈到下一个GDIP块来逐步增强图像,其中每个GDIP块由从视觉编码器的不同层提取的特征引导。最终的增强结果用于YOLO的目标检测。MGDIP获得了获得了利用局部/全局特征属性去进行图像处理。

gdip gated differentiable,目标检测,论文阅读,深度学习

C GDIP block as a regularizer

        原始GDIP块使用视觉编码器来获得特征嵌入。或者,多个GDIP块可以连接到Yolo的中间层,绕过视觉编码器的需要,直接使用Yolo的嵌入来构造增强的输出,如图4所示。值得注意的是,这种增强的输出不是Yolo的输入,而是我们用于训练正则化的副产品。将该输出与输入图像的清晰版本之间的重建损失(方程2 )计算为L1范数和均方误差损失LMSE的组合。使用的总体损失函数如式( 1 )所示。3,其中α是重构损失的权重,经验设置为1 × 10 - 4。

gdip gated differentiable,目标检测,论文阅读,深度学习

gdip gated differentiable,目标检测,论文阅读,深度学习

Experiment

        使用PASCAL VOC进行训练,验证的结果如下表所示,hybrid机制是指在训练的时候以一定的概率把图像变暗。        

gdip gated differentiable,目标检测,论文阅读,深度学习

Conclusion

        我们提出了GDIP和MGDIP作为不利天气条件下目标检测的域无关网络架构,它可以与现有的目标检测网络一起使用,并在不同的不利条件下进行训练,正如我们在雾天和低光照条件下证明的那样。我们还提出了GDIP的训练正则化变体,在保持其原始吞吐量的同时,提高了基准Yolo在不利条件下的性能。我们的所有GDIP变体在雾天和低光照条件下的挑战性真实世界数据集上都取得了新的最先进的结果,而仅在合成的不良条件数据上进行了训练,因此表现出显著的泛化能力。未来,该工作可以扩展到其他不利工况类型(例如,雾霾、雨、雪等。)al文章来源地址https://www.toymoban.com/news/detail-766847.html

到了这里,关于论文阅读<GDIP: Gated Differentiable Image Processing for Object-Detection in Adverse Conditions>的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • Lightening Network for Low-Light Image Enhancement 论文阅读笔记

    Lightening Network for Low-Light Image Enhancement 论文阅读笔记

    这是2022年TIP期刊的一篇有监督暗图增强的文章 网络结构如图所示: LBP的网络结构如下: 有点绕,其基于的理论如下。就是说,普通的暗图增强就只是走下图的L1红箭头,从暗图估计一个亮图。但是其实这个亮图和真实的亮图还是有一些差距,怎么弥补呢,可以再进一步学习

    2024年02月16日
    浏览(9)
  • 论文阅读 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    论文阅读 | Restormer: Efficient Transformer for High-Resolution Image Restoration

    前言:CVPR2022oral 用transformer应用到low-level任务 low-level task 如deblurringdenoisingdehazing等任务多是基于CNN做的,这样的局限性有二: 第一是卷积操作的感受野受限,很难建立起全局依赖, 第二就是卷积操作的卷积核初始化是固定的,而attention的设计可以通过像素之间的关系自适

    2024年02月05日
    浏览(16)
  • 【论文阅读笔记】Prompt Tuning for Parameter-efficient Medical Image Segmentation

    【论文阅读笔记】Prompt Tuning for Parameter-efficient Medical Image Segmentation

    Fischer M, Bartler A, Yang B. Prompt tuning for parameter-efficient medical image segmentation[J]. Medical Image Analysis, 2024, 91: 103024. 【开源】 【核心思想】 本文的核心思想是提出了一种用于医学图像分割的参数高效的提示调整(Prompt Tuning)方法。这种方法基于预训练的神经网络,通过插入可学习的

    2024年01月17日
    浏览(23)
  • Learning Enriched Features for Fast Image Restoration and Enhancement 论文阅读笔记

    Learning Enriched Features for Fast Image Restoration and Enhancement 论文阅读笔记

    这是2022年TPAMI上发表的大名鼎鼎的MIRNetv2,是一个通用的图像修复和图像质量增强模型,核心是一个多尺度的网络 网络结构整体是残差的递归,不断把残差展开可以看到是一些残差块的堆叠。核心是多尺度的MRB。网络用的损失函数朴实无华: MRB的核心是RCB和SKFF两个模块,先

    2024年02月16日
    浏览(10)
  • 图像色彩增强相关论文阅读-Representative Color Transform for Image Enhancement(ICCV2021)

    图像色彩增强相关论文阅读-Representative Color Transform for Image Enhancement(ICCV2021)

    作者:Hanul Kim1, Su-Min Choi2, Chang-Su Kim3, Yeong Jun Koh 单位:Seoul National University of Science and Technology 2Chungnam National University 3Korea University 前人方法都是encode-decode方式,丢失细节;密集转化也限制颜色空间的迁移效果; 本文使用颜色迁移表征(RCT)表征颜色变化,根据输入和表征颜

    2024年02月11日
    浏览(13)
  • Generative Diffusion Prior for Unified Image Restoration and Enhancement 论文阅读笔记

    Generative Diffusion Prior for Unified Image Restoration and Enhancement 论文阅读笔记

    这是CVPR2023的一篇用diffusion先验做图像修复和图像增强的论文 之前有一篇工作做了diffusion先验(Bahjat Kawar, Michael Elad, Stefano Ermon, and Jiaming Song, “Denoising diffusion restoration models,” arXiv preprint arXiv:2201.11793, 2022. 2, 4, 6, 7),但这个模型只能做线性的退化,对于暗图增强这种非线性

    2024年02月15日
    浏览(18)
  • 【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS

    【论文阅读】Self-supervised Image-specific Prototype Exploration for WSSS

    一篇CVPR2022上的论文,用于弱监督分割 Self-supervised Image-specific Prototype Exploration for Weakly Supervised Semantic Segmentation https://github.com/chenqi1126/SIPE https://openaccess.thecvf.com/content/CVPR2022/papers/Chen_Self-Supervised_Image-Specific_Prototype_Exploration_for_Weakly_Supervised_Semantic_Segmentation_CVPR_2022_paper.pdf 现

    2024年02月11日
    浏览(8)
  • 【论文阅读】Uformer:A General U-Shaped Transformer for Image Restoration

    🐳博客主页:😚睡晚不猿序程😚 ⌚首发时间:2023.6.8 ⏰最近更新时间:2023.6.8 🙆本文由 睡晚不猿序程 原创 🤡作者是蒻蒟本蒟,如果文章里有任何错误或者表述不清,请 tt 我,万分感谢!orz 目录 🚩前言 1. 内容简介 2. 论文浏览 3. 图片、表格浏览 4. 引言浏览 5. 方法 5.

    2024年02月08日
    浏览(13)
  • 论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

    论文阅读——MAT: Mask-Aware Transformer for Large Hole Image Inpainting

    原文链接: 2022 CVPR 2022 MAT: Mask-Aware Transformer for Large Hole Image Inpainting  [pdf]   [code] 本文创新点: 开发了一种新颖的修复框架 MAT,是第一个能够直接处理高分辨率图像的基于 transformer 的修复系统。 提出了一种新的多头自注意力 (MSA) 变体,称为多头上下文注意力 (MCA),只使用

    2024年02月08日
    浏览(7)
  • ExposureDiffusion: Learning to Expose for Low-light Image Enhancement论文阅读笔记

    ExposureDiffusion: Learning to Expose for Low-light Image Enhancement论文阅读笔记

    南洋理工大学、鹏城实验室、香港理工大学在ICCV2023发表的暗图增强论文。用diffusion模型来进行raw图像暗图增强,同时提出了一个自适应的残差层用来对具有不同信噪比的不同区域采取不同的去噪策略。 方法的框图如下所示: 一张raw图片可以由信号和噪声组成,其中信号是曝

    2024年02月07日
    浏览(11)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包