目标检测——RCNN与YOLO系列

edited by nrzheng，2022.2.15

参考链接

目标检测简介

two stage：
- 先进行区域生成，该区域称为region proposal（RP，一个有可能包含物体的预选框）；再通过卷积神经络进行样本分类
- 任务流程：特征提取—生成RP—分类/定位回归
- 常见two stage：R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN、R-FCN
one stage：
- 不用RP，直接在络中提取特征来预测物体的分类和位置
- 任务流程：特征提取—分类/定位回归
- 常见one stage：OverFeat、YOLOv1、YOLOv2、YOLOv3、SSD、RetinaNet

目标检测分为两大系列——RCNN系列和YOLO系列：

很多目标检测技术都会涉及候选框（bounding boxes）的生成，物体候选框获取当前主要使用图像分割与区域生长技术。区域生长(合并)主要由于检测图像中存在的物体具有局部区域相似性(颜色、纹理等)。目标识别与图像分割技术的发展进一步推动有效提取图像中信息。

通过滑窗法流程图可以很清晰理解其主要思路：首先对输入图像进行不同窗口大小的滑窗进行从左往右、从上到下的滑动。每次滑动时候对当前窗口执行分类器(分类器是事先训练好的)。如果当前窗口得到较高的分类概率，则认为检测到了物体。对每个不同窗口大小的滑窗都进行检测后，会得到不同窗口检测到的物体标记，这些窗口大小会存在重复较高的部分，最后采用非极大值抑制(Non-Maximum Suppression, NMS)的方法进行筛选。最终，经过NMS筛选后获得检测到的物体。
滑窗法简单易于理解，但是不同窗口大小进行图像全局搜索导致效率低下，而且设计窗口大小时候还需要考虑物体的长宽比。所以，对于实时性要求较高的分类器，不推荐使用滑窗法。

经过标记后的样本数据如下所示：

预测输出可以表示为：

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！