目标检测——RCNN与YOLO系列

文章目录

  • 目标检测简介
    • 0. 图先来两张
    • 1. 核心问题
    • 2. 算法分类
    • 3. 应用
    • 4. 原理
    • 5. 预备知识
      • 5.1. 候选区域的产生
        • 5.1.1. 滑动窗口法
        • 5.1.2. 选择性搜索
      • 5.2. 数据表示
      • 5.3. 效果评估
      • 5.4. 非极大值抑制
  • 目标检测模型——RCNN系列
    • 1. R-CNN
    • 2. SPPNet
    • 3. Fast R-CNN
    • 4. Faster R-CNN
  • RCNN系列总结
    • 1. R-CNN
    • 2. Fast R-CNN
    • 3. Faster R-CNN
  • 目标检测模型——YOLO系列
    • 1. YOLOv1
      • 1.1. 张量举例解释
        • 1.1.1. 7 × 7 × 30 7×7×30 7×7×30 {即 S × S × ( B × 5 + C ) Stimes{Stimes(Btimes5+C)} S×S×(B×5+C)}
        • 1.1.2. 7×7的含义
        • 1.1.3. 30的含义
      • 1.2. Loss函数
        • 1.2.1. 预测框的中心点(x,y)
        • 1.2.2. 预测框的宽高(w,h)
        • 1.2.3. 预测框的置信度C
        • 1.2.4. 物体类别概率P
    • 2. YOLOv2
      • 2.1. better
      • 2.2. stronger
    • 3. YOLOv3
      • 3.1. 编码
      • 3.2. 解码(前向过程)
        • 3.2.1. 先验框
        • 3.2.2 检测框解码
        • 3.2.3. 检测置信度解码
        • 3.2.4. 类别解码
      • 3.3. 训练策略与损失函数(反向过程)
        • 3.3.1. 训练策略
        • 3.3.2. 损失函数
        • 3.3.3. 训练策略解释
    • 4. YOLOv5

edited by nrzheng,2022.2.15

参考链接

目标检测简介

0. 图先来两张

1. 核心问题

  • 分类问题:即图片(或某个区域)中的图像属于哪个类别
  • 定位问题:目标可能出现在图像的任何位置
  • 大小问题:目标有各种不同的大小
  • 形状问题:目标可能有各种不同的形状

2. 算法分类

  • two stage:

    • 先进行区域生成,该区域称为region proposal(RP,一个有可能包含物体的预选框);再通过卷积神经 络进行样本分类
    • 任务流程:特征提取—生成RP—分类/定位回归
    • 常见two stage:R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN、R-FCN
  • one stage:

    • 不用RP,直接在 络中提取特征来预测物体的分类和位置
    • 任务流程:特征提取—分类/定位回归
    • 常见one stage:OverFeat、YOLOv1、YOLOv2、YOLOv3、SSD、RetinaNet

3. 应用

  • 人脸检测:智能门控、智慧超时、人脸支付、实名认证
  • 行人检测:智能辅助驾驶、智能监控、区域入侵监测
  • 车辆检测:自动驾驶、违章查询
  • 遥感监测:大地遥感、农作物监控、军事监测

4. 原理

目标检测分为两大系列——RCNN系列和YOLO系列:

  • RCNN系列是基于区域检测的代表性算法
  • YOLO是基于区域提取的代表性算法
  • 还有著名的SSD是基于前两个系列的改进

5. 预备知识

5.1. 候选区域的产生

很多目标检测技术都会涉及候选框(bounding boxes)的生成,物体候选框获取当前主要使用图像分割与区域生长技术。区域生长(合并)主要由于检测图像中存在的物体具有局部区域相似性(颜色、纹理等)。目标识别与图像分割技术的发展进一步推动有效提取图像中信息。

5.1.1. 滑动窗口法

  1. 通过滑窗法流程图可以很清晰理解其主要思路:首先对输入图像进行不同窗口大小的滑窗进行从左往右、从上到下的滑动。每次滑动时候对当前窗口执行分类器(分类器是事先训练好的)。如果当前窗口得到较高的分类概率,则认为检测到了物体。对每个不同窗口大小的滑窗都进行检测后,会得到不同窗口检测到的物体标记,这些窗口大小会存在重复较高的部分,最后采用非极大值抑制(Non-Maximum Suppression, NMS)的方法进行筛选。最终,经过NMS筛选后获得检测到的物体。
  2. 滑窗法简单易于理解,但是不同窗口大小进行图像全局搜索导致效率低下,而且设计窗口大小时候还需要考虑物体的长宽比。所以,对于实时性要求较高的分类器,不推荐使用滑窗法。

  • 选择搜索流程

    • step0:生成区域集R
    • step1:计算区域集R里每个相邻区域的相似度 S = s 1 , s 2 , … S={s1, s2,…} S=s1,s2,
    • step2:找出相似度最高的两个区域,将其合并为新集,添加进R
    • step3:从S中移除所有与step2中有关的子集
    • step4:计算新集与所有子集的相似度
    • step5:跳至step2,直至S为空
  • 选择搜索优点

    • 计算效率优于滑窗法
    • 由于采用子区域合并策略,所以可以包含各种大小的疑似物体框
    • 合并区域相似的指标多样性,提高了检测物体的概率

5.2. 数据表示

经过标记后的样本数据如下所示:

目标检测——RCNN与YOLO系列

预测输出可以表示为:
y = [ p c b x b y b w b h C 1 C 2 C 3 ] , y t r u e = [ 1 40 45 80 60 0 1 0 ] , y p r e d = [ 0.88 41 46 82 59 0.01 0.95 0.04 ] y=left[

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年5月20日
下一篇 2022年5月20日

相关推荐