DiffusionDet: Diffusion Model for Object Detection

这篇具有很好参考价值的文章主要介绍了DiffusionDet: Diffusion Model for Object Detection。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

DiffusionDet: Diffusion Model for Object Detection,论文精读,目标检测,人工智能,计算机视觉
论文题目:DiffusionDet: Diffusion Model for Object Detection
论文来源:arXiv preprint 2022
论文地址:https://arxiv.org/abs/2211.09788
论文代码:https://github.com/ShoufaChen/DiffusionDet

DDPM
DDIM

论文概述

传统方法根据经验设计region proposals/anchor boxes/queries等
本文可从随机初始化的boxes进行回归和分类
方法概述:
DiffusionDet: Diffusion Model for Object Detection,论文精读,目标检测,人工智能,计算机视觉

生成模型:从噪声到图像/从随机的框到精确的框

DiffusionDet: Diffusion Model for Object Detection,论文精读,目标检测,人工智能,计算机视觉

模型架构图

不同之处

DiffusionDet: Diffusion Model for Object Detection,论文精读,目标检测,人工智能,计算机视觉

整体流程

DiffusionDet: Diffusion Model for Object Detection,论文精读,目标检测,人工智能,计算机视觉
DiffusionDet: Diffusion Model for Object Detection,论文精读,目标检测,人工智能,计算机视觉

训练阶段:

  1. 初始化一组boxes,并逐渐加入高斯噪声,得到noisy boxes
  2. 使用ResNet/Swin Transformer作为encoder提取特征
  3. 用noisy boxes从2.得到的特征中裁剪出RoI
  4. 将3.中的RoI送入detection decoder,用于预测真值,计算损失

推理阶段:文章来源地址https://www.toymoban.com/news/detail-650530.html

  1. 随机初始化高斯噪声noisy boxes;用encoder提取特征
  2. 迭代多次:
    将当前的noisy boxes送入decoder,预测目标框;
    (DDIM)传入当前noisy boxes和预测的目标框,预测上一时刻分布;
    (Box renewal)根据阈值筛去undesired框,再加入噪声

到了这里,关于DiffusionDet: Diffusion Model for Object Detection的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Feature Pyramid Networks for object detection

    下图中,蓝色边框表示的是特征图, 边框越粗表示该特征图的语义信息越丰富 ,即在特征层次结构中位置越高。 这四个子图展示了如何在不同层级上提取和融合特征,以便于在不同尺度上进行有效的对象检测。 a) Featurized image pyramid (特征化图像金字塔): 这是传统方法,通

    2024年04月10日
    浏览(42)
  • Centralized Feature Pyramid for Object Detection解读

    主流的特征金字塔集中于层间特征交互,而 忽略了层内特征规则 。尽管一些方法试图在注意力机制或视觉变换器的帮助下学习紧凑的层内特征表示,但它们忽略了对密集预测任务非常重要的被忽略的角点区域。 提出了一种基于全局显式集中式特征规则的中心化特征金字塔(

    2024年02月05日
    浏览(43)
  • 解读 Centralized Feature Pyramid for Object Detection

    视觉特征金字塔在广泛的应用中显示出其有效性和效率的优越性。 然而,现有的方法过分地 集中于层间特征交互,而忽略了层内特征规则 ,这是经验证明是有益的。 尽管一些方法试图在注意力机制或视觉变换器的帮助下学习紧凑的层内特征表示,但它们忽略了对密集预测任

    2024年02月04日
    浏览(40)
  • 【论文笔记】SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model

    原文链接:https://arxiv.org/pdf/2306.02245.pdf   分割一切模型(SAM)作为视觉领域的基石模型,有强大的泛化性,能解决很多2D视觉问题。但是SAM是否可以适用于3D视觉任务,仍需要被探索。   目前几乎没有关于3D目标检测的零样本学习,如何使SAM的零样本能力适用于3D目标检测

    2024年02月16日
    浏览(40)
  • 【Paper Reading】CenterNet:Keypoint Triplets for Object Detection

    首先是借鉴Corner Net 表述了一下基于Anchor方法的不足: anchor的大小/比例需要人工来确认 anchor并没有完全和gt的bbox对齐,不利于分类任务。 但是CornerNet也有自己的缺点 CornerNet 只预测了top-left和bottom-right 两个点,并没有关注整体的信息,因此缺少一些全局的信息 上述的点导致

    2024年02月14日
    浏览(40)
  • 论文阅读 The Power of Tiling for Small Object Detection

    Abstract 基于深度神经网络的技术在目标检测和分类方面表现出色。但这些网络在适应移动平台时可能会降低准确性,因为图像分辨率的增加使问题变得更加困难。在低功耗移动设备上实现实时小物体检测一直是监控应用的基本问题之一。在本研究中,我们解决了在高分辨率微

    2024年02月11日
    浏览(46)
  • 遥感目标检测(3)-DAL(Dynamic Anchor Learning for Object Detection)

    目录 一、概述 二、背景 三、建议 1、旋转RetinaNet 2、动态锚框分布 3、匹配敏感损失  四、实验         由于选择正样本锚框进行回归,不一定能够定位真实的GT,而部分负样本回归甚至可以回归到真实的GT,说明相当多的负样本锚框有着准确定位的能力,这说明IoU进行回归

    2024年02月16日
    浏览(46)
  • 论文阅读 (88):Adversarial Examples for Semantic Segmentation and Object Detection

    题目 :用于语义分割和目标检测的对抗样本 核心点 :将对抗性样本的概念扩展到语义分割和对象检测,并提出 稠密对抗生成算法 (Dense adversary generation, DAG)。 引用 : 令 X mathbf{X} X 表示包含 N N N 个识别目标 T = { t 1 , t 2 , … , t N } mathcal{T}={t_1,t_2,dots,t_N} T = { t 1 ​ , t 2 ​

    2024年02月01日
    浏览(58)
  • 论文笔记 - :DIGGING INTO OUTPUT REPRESENTATION FOR MONOCULAR 3D OBJECT DETECTION

    Title: 深入研究单目 3D 物体检测的 输出表示 单目 3D 对象检测旨在从单个图像中识别和定位 3D 空间中的对象。最近的研究取得了显着的进展,而所有这些研究都遵循基于 LiDAR 的 3D 检测中的典型输出表示。 然而,在本文中,我们认为现有的离散输出表示不适合单目 3D 检测。具

    2024年04月09日
    浏览(43)
  • 论文阅读:CenterFormer: Center-based Transformer for 3D Object Detection

    目录 概要 Motivation 整体架构流程 技术细节 Multi-scale Center Proposal Network Multi-scale Center Transformer Decoder Multi-frame CenterFormer 小结 论文地址: [2209.05588] CenterFormer: Center-based Transformer for 3D Object Detection (arxiv.org) 代码地址: GitHub - TuSimple/centerformer: Implementation for CenterFormer: Center-base

    2024年02月07日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包