《论文阅读18》 SSD: Single Shot MultiBox Detector

这篇具有很好参考价值的文章主要介绍了《论文阅读18》 SSD: Single Shot MultiBox Detector。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

   一、论文

  • 研究领域: 2D目标检测
  • 论文:SSD: Single Shot MultiBox Detector
  • ECCV 2016

  • 数据集

  • 论文链接
  • 论文github

二、论文概要

SSD网络是作者Wei LiuECCV 2016上发表的论文。对于输入尺寸300x300的网络 使用Nvidia Titan XVOC 2007测试集上达到74.3%mAP以及59FPS对于512x512  的网络,达到了76.9%mAP超越当时最强的Faster RCNN(73.2%mAP)

《论文阅读18》 SSD: Single Shot MultiBox Detector,机器学习,机器学习

三、论文详述

《论文阅读18》 SSD: Single Shot MultiBox Detector,机器学习,机器学习

Faster RCNN存在的问题:对小目标检测效果很差;模型大,检测速度较慢。

《论文阅读18》 SSD: Single Shot MultiBox Detector,机器学习,机器学习

Backbone使用的是VGG-16; 在不同的卷积层进行预测

SSD是One-stage的一个代表

"Backbone" 是在深度学习中常用的一个术语,特别是在卷积神经网络(CNN)中。它指的是网络架构中用于提取特征的主要部分,通常是由多个卷积层和池化层构成的层次结构。

  • 在卷积神经网络中,不同的层级会逐步从原始输入数据中提取越来越高级别的特征。
  • Backbone就是负责这个特征提取的部分,它的输出可以被用于各种任务,例如分类、检测、分割等。

在图像处理任务中,一个经典的例子是在图像分类任务中使用的卷积神经网络(如VGG、ResNet、Inception等)。这些网络通常包含多个卷积层和池化层,构成了整个网络的主干部分,即Backbone。后续的全连接层或其他特定任务的层级则可以根据需要在Backbone之后添加。

总之,"Backbone" 是指在深度学习网络中负责从原始输入数据中提取特征的主要部分,通常由卷积层、池化层等组成。它对于构建有效的深度学习模型以及在各种计算机视觉任务中取得良好效果非常重要。

"one-stage" 和 "two-stage" 是用来描述目标检测算法中的两种不同的框架或方法。这两种方法针对物体检测问题采用了不同的策略。

1. **One-Stage 检测器**:
   - "One-stage" 指的是在单个阶段内直接预测目标的边界框和类别。
   - 这类算法通常更简单,速度较快,因为在一个网络中同时完成了定位和分类任务。
   - 一些典型的 "one-stage" 检测器包括 YOLO(You Only Look Once)和 SSD(Single Shot MultiBox Detector)。

2. **Two-Stage 检测器**:
   - "Two-stage" 指的是目标检测分为两个阶段:生成候选框(region proposals)和对这些候选框进行分类和定位。
   - 首先在第一个阶段生成一组可能包含目标的候选框,然后在第二个阶段对这些候选框进行进一步的分类和边界框调整。
   - 这类算法通常在准确性上表现较好,但可能相对复杂且计算成本较高。
   - 一个典型的 "two-stage" 检测器是 Faster R-CNN。

选择使用哪种方法取决于具体的应用需求,速度要求以及模型的准确性。"One-stage" 检测器适用于实时性要求较高的应用,而 "two-stage" 检测器在对于准确性有更高要求的场景中表现更好。近年来,许多研究工作致力于改进这两种方法,以在速度和准确性之间取得更好的平衡。

《论文阅读18》 SSD: Single Shot MultiBox Detector,机器学习,机器学习

xml标注(记录左上角和右下角坐标):

《论文阅读18》 SSD: Single Shot MultiBox Detector,机器学习,机器学习

《论文阅读18》 SSD: Single Shot MultiBox Detector,机器学习,机器学习

COCO和YOLOv5标注(记录的是中心点,w, h归一化的坐标)

《论文阅读18》 SSD: Single Shot MultiBox Detector,机器学习,机器学习文章来源地址https://www.toymoban.com/news/detail-668448.html

四、论文实践

到了这里,关于《论文阅读18》 SSD: Single Shot MultiBox Detector的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】 Few-shot object detection via Feature Reweighting

    Few-shot object detection的开山之作之一 ~~ 属于Metric-based Methods 特征学习器使用来自具有足够样本的基本类的训练数据来 提取 可推广以检测新对象类的meta features。The reweighting module将新类别中的一些support examples转换为全局向量,该全局向量indicates meta features对于检测相应物体的重

    2023年04月09日
    浏览(41)
  • 论文阅读 RRNet: A Hybrid Detector for Object Detection in Drone-captured Images

    Abstract 我们提出了一种名为RRNet的混合检测器,用于在城市场景无人机(UAVs)和无人机拍摄的图像中进行目标检测。在这种具有挑战性的任务中,目标通常呈现出各种不同的大小,并且非常密集。因此,我们将anchor free检测器与re-regression模块相结合。通过摒弃prior anchors,我们

    2024年02月14日
    浏览(38)
  • 【论文阅读】Language Models are Few-Shot Learners(GPT-3)

    本文简要介绍了GPT-3的背景,模型架构,训练数据以及训练方式部分。具体训练细节,实验结果很多,可以在用到的时候再看 本文剖析了pretrain-finetune架构存在的问题: 对于每个新的任务,都需要大量的标注数据 将表达能力更强的模型(预训练阶段要求用大模型)在比较窄的

    2024年02月14日
    浏览(51)
  • (GPT3)Language Models are Few-Shot Learners论文阅读

    论文地址:https://arxiv.org/pdf/2005.14165v4.pdf         最近的工作表明, 通过对大量文本语料库进行预训练,然后对特定任务进行微调,许多 NLP 任务和基准测试取得了实质性进展 。 虽然在体系结构中通常与任务无关,但此方法仍然需要特定于任务的微调数据集,其中包含数

    2024年02月08日
    浏览(60)
  • 论文阅读---Albert :Few-shot Learning with Retrieval Augmented Language Models

    增强语言模型 Augmented Language Models https://arxiv.org/abs/2208.03299 提前知识: BERT (Bidirectional Encoder Representations from Transformers)是一种预训练语言模型,它通过在大规模文本数据上进行预训练,学习文本的双向表示,并在多种NLP任务中展现出卓越的性能。BERT的双向性意味着它能够

    2024年04月23日
    浏览(38)
  • Cross-Drone Transformer Network for Robust Single Object Tracking论文阅读笔记

    无人机在各种应用中得到了广泛使用,例如航拍和军事安全,这得益于它们与固定摄像机相比的高机动性和广阔视野。多 无人机追踪系统可以通过从不同视角收集互补的视频片段 ,为目标提供丰富的信息,特别是当目标在某些视角中被遮挡或消失时。然而,在多无人机视觉

    2024年01月25日
    浏览(59)
  • Zero-shot RIS SOTA:Text Augmented Spatial-aware Zero-shot Referring Image Segmentation 论文阅读笔记

    写在前面   好久没看到有做 Zero-shot RIS 的文章了,看到 arxiv 上面更新了这篇,特意拿出来学习一下。 论文地址:Zero-shot RIS SOTA:Text Augmented Spatial-aware Zero-shot Referring Image Segmentation 代码地址:原文未提供 预计投稿于:AAAI 等顶会 Ps:2023 年每周一篇博文阅读笔记,主页 更

    2024年02月19日
    浏览(45)
  • 论文阅读 TripoSR: Fast 3D Object Reconstruction from a Single Image 单张图片快速完成3D重建

    本文为记录自己在NeRF学习道路的一些笔记,包括对论文以及其代码的思考内容。公众号: AI知识物语 B站讲解:出门吃三碗饭 论文地址: https://arxiv.org/abs/2403.02151 代码: https://github.com/VAST-AI-Research/Tr ipoSR 先来看下演示效果 TripoSR可以在0.5秒内从单张图片重建高质量3D模型,并

    2024年04月14日
    浏览(42)
  • DUET: Cross-Modal Semantic Grounding for Contrastive Zero-Shot Learning论文阅读

    原文链接: https://ojs.aaai.org/index.php/AAAI/article/view/25114/24886 该论文设计了一种 新的零样本学习范式,通过迁移语言模型中的先验语义知识,与视觉模型的特征感知能力进行对齐,以增强后者对于未见过图像的识别能力。 零样本学习(ZSL)旨在预测在训练期间从未出现样本的未

    2024年01月17日
    浏览(51)
  • [论文阅读&代码]DehazeNet: An End-to-End System for Single Image Haze Removal

    现有的单图像去雾方法使用很多约束和先验来获得去雾结果,去雾的关键是根据输入的雾图获得得到介质传输图(medium transmission map) 这篇文章提出了一种端到端的可训练的去雾系统—Dehaze Net,用于估计介质传输图 Dehaze Net中,输入为雾图,输出为介质传输图,随后通过大气散

    2024年02月08日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包