论文解读 | YOLO系列开山之作:统一的实时对象检测

这篇具有很好参考价值的文章主要介绍了论文解读 | YOLO系列开山之作:统一的实时对象检测。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原创 | 文 BFT机器人 

论文解读 | YOLO系列开山之作:统一的实时对象检测,YOLO

01

摘要

YOLO是一种新的目标检测方法,与以前的方法不同之处在于它将目标检测问题视为回归问题,同时预测边界框和类别概率。这一方法使用单个神经网络,可以从完整图像中直接预测目标边界框和类别概率,实现端到端的性能优化。

YOLO的速度非常快,基本模型每秒可以处理45帧图像,而快速版本每秒可处理155帧,同时仍然具有很高的准确率。虽然在定位方面可能会产生一些误差,但不太可能出现背景误报。它能够学习通用的目标表示,不仅在自然图像中表现出色,还在其他领域(如艺术品)中表现优于其他检测方法,包括DPM和R-CNN。

02

介绍

将目标检测重新定义为一个单一的回归问题,直接从图像像素到边界框坐标和类概率。这种系统被称为YOLO(You Only Look Once),它允许在一次图像观察中实时预测存在的物体以及它们的位置。

YOLO的核心思想是使用一个简单的卷积神经网络,同时预测多个边界框和它们的类别概率,如图一。与传统方法相比,YOLO有三个主要优点:

速度快:由于将检测视为回归问题,不需要复杂的处理管道。YOLO的基本网络以每秒45帧的速度运行,快速版本更快,超过150fps。这意味着可以实时处理流媒体视频,延迟低于25毫秒,并且精度优于其他实时系统。

全局推理:YOLO在进行预测时可以看到整个图像,而不像其他方法使用滑动窗口或区域提议。这使得它能够隐式地编码关于物体及其外观的上下文信息,减少了背景误报。与其他方法相比,YOLO的边界框数量较少。

通用性:YOLO能够学习通用的目标表示,表现出色不仅在自然图像中,在其他领域(如艺术品)的测试中也表现出色,超过了其他顶级检测方法,如DPM和R-CNN。

然而,尽管速度快且通用性强,YOLO在精确度方面仍然落后于一些最先进的目标检测系统,特别是在精确定位小物体方面存在挑战。研究进一步探讨了这些权衡和挑战。

论文解读 | YOLO系列开山之作:统一的实时对象检测,YOLO

图一

03

统一检查

核心思想和工作原理

统一神经网络模型:YOLO将目标检测的独立组件整合到一个单一的神经网络中,该网络利用整个图像的特征来预测每个边界框,同时可以同时预测图像中所有类别的边界框。这使得网络能够进行全局推理,同时处理整个图像和所有对象。

端到端训练和实时速度:YOLO的设计旨在实现端到端的训练,同时保持实时处理速度,并且能够保持高平均精度。

S×S网格划分:输入图像被分成S×S网格单元,其中每个网格单元负责检测其中心位于该单元的物体。

每个网格单元的预测:每个网格单元预测了B个边界框和这些边界框的置信度得分,该得分反映了模型对于盒子内是否有物体的自信程度以及预测的准确度。置信度分数定义为Pr(Object) * IOU_truth_pred,如果单元格中没有对象,则置信度分数为零。

边界框预测:每个边界框由五个预测组成,包括 (x, y) 坐标表示相对于网格单元边界的框的中心,以及宽度和高度相对于整个图像的预测。最后,置信度预测表示预测框与真实框之间的交集。

类别概率预测:每个网格单元还预测了 C 个条件类别概率 Pr(Class_i|Object),这些概率取决于包含对象的网格单元。无论边界框数量如何,每个网格单元只预测一组分类概率。

论文解读 | YOLO系列开山之作:统一的实时对象检测,YOLO

网络设计

检测网络有24个卷积层,后面是2个全连接层。交替的1 × 1卷积层减少了前一层的特征空间。在ImageNet分类任务上以一半的分辨率(224 × 224输入图像)预训练卷积层,然后将分辨率提高一倍用于检测。

论文解读 | YOLO系列开山之作:统一的实时对象检测,YOLO

训练

预训练:他们在ImageNet 1000类竞争数据集上对卷积层进行了预训练,使用了模型的前20个卷积层、平均池化层和完全连接层。这个预训练过程提高了模型的性能。

检测模型转换:然后,他们将模型转换为执行目标检测。为了增加性能,作者添加了四个卷积层和两个随机初始化权重的完全连接层。因为检测需要更多的视觉信息,所以他们将网络的输入分辨率从224×224增加到448×448。

最后一层预测:模型的最后一层用于预测类别概率和边界框坐标。边界框的宽度和高度被标准化到0和1之间,并且x和y坐标参数化为特定网格单元格位置的偏移量。

激活函数:最后一层使用线性激活函数,而其他层使用漏整流线性激活函数。

损失函数:作者使用平方和误差作为优化目标,尽管它不完全符合他们最大化平均精度的目标。为了解决训练中的不稳定性问题,他们增加了边界框坐标预测的损失,并减少了不包含对象的框的置信度预测的损失。

论文解读 | YOLO系列开山之作:统一的实时对象检测,YOLO

04

结论

该论文介绍了一种名为YOLO的目标检测统一模型。YOLO模型的构建简单,能够在完整图像上进行训练,与以前的分类器方法不同,它使用了与检测性能直接相关的损失函数进行训练,并且整个模型进行了联合训练。

其中的快速版本YOLO是文献中最快的通用对象检测器,推动了实时对象检测领域的进展。此外,YOLO还能够成功应用于新领域,使其成为依赖于快速和强大的对象检测的应用程序的理想选择。

作者 | 不加糖

排版 | 小河

审核 | 猫

若您对该文章内容有任何疑问,请与我们联系,我们将及时回应。如果想要了解更多的前沿资讯,记得点赞关注哦~文章来源地址https://www.toymoban.com/news/detail-744819.html

到了这里,关于论文解读 | YOLO系列开山之作:统一的实时对象检测的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【YOLO系列】YOLOv3论文超详细解读(翻译 +学习笔记)

    YOLOv3(《Yolov3:An incremental improvement》)是Joseph Redmon大佬关于YOLO系列的最后一篇,由于他反对将YOLO用于军事和隐私窥探,2020年2月宣布停止更新YOLO。  YOLOv3在YOLOv2的基础上改良了网络的主干,利用多尺度特征图进行检测,改进了多个独立的Logistic regression分类器来取代softmax来

    2024年02月07日
    浏览(31)
  • 【YOLO系列】YOLOv1论文超详细解读(翻译 +学习笔记)

    从这篇开始,我们将进入YOLO的学习。YOLO是目前比较流行的目标检测算法,速度快且结构简单,其他的目标检测算法如RCNN系列,以后有时间的话再介绍。 本文主要介绍的是YOLOV1,这是由以Joseph Redmon为首的大佬们于2015年提出的一种新的目标检测算法。它与之前的目标检测算法

    2024年02月04日
    浏览(36)
  • 【YOLO系列】YOLOv2论文超详细解读(翻译 +学习笔记)

    时隔一年,YOLOv2隆重登场,新的YOLO版本论文叫《YOLO9000: Better, Faster, Stronger》,作者 Joseph Redmon 和 Ali Farhadi 在 YOLOv1 的基础上,进行了大量改进,提出了 YOLOv2 和 YOLO9000,重点解决YOLOv1召回率和定位精度方面的不足。 论文原文:[1612.08242] YOLO9000: Better, Faster, Stronger (arxiv.org) 项

    2023年04月08日
    浏览(31)
  • 【扩散模型】2、DDPM | 去噪扩散概率模型开山之作

    论文:Denoising Diffusion Probabilistic Models 代码:https://github.com/hojonathanho/diffusion stable diffusion 代码实现:https://github.com/CompVis/stable-diffusion/blob/main/ldm/models/diffusion/ddpm.py 出处:伯克利 时间:2020.06 假设均值为 0,方差为 1 的高斯分布,则对应的噪声示例如下,就是在 0 附近分布的

    2024年02月07日
    浏览(31)
  • RAG开山之作:结合参数化与非参数化记忆的知识密集型NLP任务新解法

    20年RAG刚提出时的论文:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks,也算是RAG的开山之作之一了。 摘要:检索增强生成(RAG)方法结合了预训练语言模型与基于检索的非参数化记忆,通过端到端训练提升知识密集型NLP任务的性能。RAG模型在多个任务上展现卓越成果,解

    2024年04月24日
    浏览(23)
  • 第六章:YOLO v1网络详解(统一的实时目标检测)

    文章目录 系列文章目录 技术干货集锦 前言 一、摘要 二、正文分析 1.引入库 2.读入数据 总结 我们提出了YOLO,一种新的目标检测方法。之前的目标检测工作将分类器重新用于检测。相反,我们将目标检测视为一个回归问题,用于空间分离的边界框和相关类别概率。一个单一

    2024年02月13日
    浏览(32)
  • 目标检测算法:YOLO v1论文解读

    前言 ​ 其实网上已经有很多很好的解读各种论文的文章了,但是我决定自己也写一写,当然,我的主要目的就是帮助自己梳理、深入理解论文,因为写文章,你必须把你所写的东西表达清楚而正确,我认为这是一种很好的锻炼,当然如果可以帮助到网友,也是很开心的事情

    2024年02月07日
    浏览(31)
  • 【论文阅读】YOLO系列论文:YOLO v5

    代码: https://github.com/ultralytics/yolov5github.com 优点 拥有四种模型,可以灵活部署 缺点 在性能上稍弱于YOLO V4 模型的改进 增加了Focus切片、自适应锚框、自适应图片缩放结构,保留信息,加快推理速度 有4个版本,分别是Yolov5s,Yolov5m,Yolov5l,yolov5x四个模型,其中Yolov5s网络是该

    2024年02月16日
    浏览(30)
  • YOLO物体检测系列3:YOLOV3改进解读

    上篇内容: YOLOV2整体解读 YOLOV3提出论文:《Yolov3: An incremental improvement》 这张图讲道理真的过分了!!!我不是针对谁,在座的各位都是** 故意将yolov3画到了第二象限 终于到V3了,最大的改进就是网络结构,使其更适合小目标检测 特征做的更细致,融入多持续特征图信息来

    2024年02月08日
    浏览(31)
  • 【YOLO系列】YOLOv5超详细解读(网络详解)

    吼吼!终于来到了YOLOv5啦! 首先,一个热知识:YOLOv5没有发表正式论文哦~ 为什么呢?可能YOLOv5项目的作者Glenn Jocher还在吃帽子吧,hh 前言 一、YOLOv5的网络结构  二、输入端 (1)Mosaic数据增强 (2)自适应锚框计算 (3)自适应图片缩放 三、Backbone (1)Focus结构 (2)CSP结构

    2023年04月09日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包