目标检测算法：YOLO v1论文解读

这篇具有很好参考价值的文章主要介绍了目标检测算法：YOLO v1论文解读。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

目标检测算法：YOLO v1论文解读

前言

其实网上已经有很多很好的解读各种论文的文章了，但是我决定自己也写一写，当然，我的主要目的就是帮助自己梳理、深入理解论文，因为写文章，你必须把你所写的东西表达清楚而正确，我认为这是一种很好的锻炼，当然如果可以帮助到网友，也是很开心的事情。

说明

如果有笔误或者写错误的地方请指出（勿喷），如果你有更好的见解也可以提出，我也会认真学习。

原始论文地址

点击这里，或者复制链接

https://arxiv.org/abs/1506.02640

目录结构

1. 文章内容概述：

作者提出了一种新的目标检测方法，是一种单阶段检测方法，称其为YOLO，全称为You only look once。这个方法的主要特点是不再生成区域建议框，而是全部交给网络架构来实现，是真正的端到端结构（其实并不是严格意义上的端到端，因为还需要进行后处理操作）。

正是因为没有了区域建议框的生成，其运行速度非常快，可以实现实时检测，但是同样的，其mAP和最先进的检测方法Faster-RCNN比还是较低。

2. YOLO流程介绍：

如果你看了我之前的关于RCNN、Fast-RCNN、Faster-RCNN的解读，你马上就会感概，YOLO真的好简单。

论文原图如下：

目标检测算法：YOLO v1论文解读

对上图进行简单的说明：

首先，将输入图片改变大小（一般是取大的分辨率，文中取得的是448*448）

问题：为什么要取大分辨率图像？

因为检测问题需要更细致的信息，因此提高分辨率。

然后，将该图片传输给CNN架构，然后产生输出（即预测框和类别预测信息）

3. CNN架构：

这里作者自己设计了CNN架构，当然，对于读了这么多的CNN架构论文来说，小case（如果你是无基础直接看的话，当我没说，此时建议你可以先看看基础的）。

论文原图如下：

目标检测算法：YOLO v1论文解读

具体的网络架构就不谈了，只是要注意，其实网络架构中用到了激活函数，并且不是我们常规的ReLu激活函数，而是leaky relu（最后一层还是relu）：

目标检测算法：YOLO v1论文解读

另外，需要注意它的输出，**这是最重要的部分。**因为它的输出和我们平时的输出不一样，因为无论是图像分类的架构，还是之前的两阶段检测算法，输出就没有三维结构的。

那么，7*7*30是什么意思？下面先分开解释，再结合一起解释。

解释：7*7含义

作者将一张图像划分为S*S个网格，如下图（S=7）：

目标检测算法：YOLO v1论文解读

作者认为：

如果某个物体对象中心落在某一网格中，那么该网格就负责该对象的检测
每个单元格预测B个边界框和其对应的置信度分数，以及一组类概率（比如总共20个类别，则产生20个概率值）

其中，置信度公式和概率公式分别如下，其中Pr(object)取{0,1}，表示该网格有对象，则取值为1，否则取值为0。

目标检测算法：YOLO v1论文解读

解释：30含义

30=（4+1）*2+20，其中4和1分别表示4个坐标值（x，y，w，h）和一个置信度分数；2表示每个单元格预测2个边界框，那么自然需要乘以2；20是因为数据集共20个类别。

解释：7*7*30怎么才能满足我们的要求？

神经网络的神奇之处，就是在于我们可以让它去适应任意的任务。比如这里，我们需要它按照我们的想象输出7*7*30，并且这里的值必须为我们所想的（比如30里面为坐标值、概率值等）。想要让它输出和我们想得一样，就必须让它在训练的时候，告诉它，30里面的值我们要用来生成预测框和判断类别。而，这个控制它的过程，就是定义一个优秀的损失函数，让7*7*30的值各有所用。