图像旋转 错切算法原理_基于Mask RCNN算法的遥感图像舰船目标旋转检测

2.1 数据集的预处理与转换

本次实验选用的是DOTA[7]数据集,该数据集共有2806张图片,来自不同的传感器和平台,每一张尺度约为(800~4000),目标涵盖了各种各样的规模,位置,形状。这些图像被遥感领域的专家注释并被分为15个目标类别,包括飞机、船只、储蓄罐、棒球内场、 球场、篮球场、田径场、海港、桥、大型车辆、小型车辆、直升飞机、英式足球场、环形路线、游泳池,注释后的完整数据集包括188282个实例,每一个被一个任意的四边形标记。

由于DOTA数据集的尺寸非常大,这样的图片输入 络进行训练时,计算资源将不能承载,所以就需要对DOTA数据集进行裁剪。裁剪方式主要分为两个步骤,第一,使用1024×1024窗口在宽幅图片上滑动进行裁剪,窗口每次的步进幅度1000,但是这种裁剪方式可能会导致物体正处于切割处,所以做出如下定义,物体剩余的面积大于或等于原始面积0.7时保留该物体的标注信息,否则对其丢弃处理;第二,对宽幅图像进行放缩,缩放比例分别为0.5,1,2。

Mask RCNN训练时需要三种标注信息,类别(category),包围框(bounding box),掩模(segmentation),其中包围框为非旋转框。DOTA数据集只存在类别与旋转框,标注形式为

图2中 络的整体框架包含一个FPN[2](Feature Pyramid Networks)架构。在FPN之前,大多数的目标检测算法只在特征提取 络的顶层进行检测。虽然卷积神经 络的深层特征有利于分类识别,但不利于目标的定位。为此,一个具有侧向连接的自顶向下的架构被用于构建不同尺度的语义信息。主干 络通过它的正向传播,自然形成一个特征金字塔,FPN在检测各种尺度的目标方面显示出了巨大的进步。FPN已经成为许多目标检测算法的基本组成。

2.3.2 权重标准化

权重标准化[4](Weight Standardization)(以下简称WS)也是为了解决BN对于Batch size的限制要求,基本思想和BN一致的,就是尽量保持映射的平滑性。不过BN是通过反馈信 来间接调整权重,WS是直接调整权重。

设一个卷积 络,其偏置为0,则前向传播过程可以表示为:

在WS中f(x)和x分别表示为损失和权重,所以公式(13)中,由于减去两个正数所以L约束常数将会变小,在小的batchsize下能够像BN在大的batchsize下一样使得损失函数变得很平滑,同时消除了卷积核在偏置和尺度上的自由度,使得训练收敛的更好。

2.3.3 可变卷积

CNN中池化层和STN[5](Spatial Transformer Networks)都是为了增加空间不变性,但是二者增加空间不变性的出发点不同,CNN是尽力让 络适应物体的形变,而STN是直接通过ST将形变的物体变回正常的姿态。CNN固定的卷积核,固定的池化核,固定的RoI,导致高层神经元的感受野是固定的,没有办法有效的编码语义或者位置信息。因此在STN的基础上,针对分类和检测提出了可变卷积[6](Deformable Convolution)(以下简称DC)模块,来动态调节感受野的作用。

3.实验结果

为了避免其它因素对实验结果的影响, 络均不采用ImageNet的预训练模型。为了快速的迭代以及后续计算的限制,主干 络的模型改为ResNet50。本次实验采用SGD优化器,训练的软件平台为Pytorch,硬件平台为Tesla K40c由于现存的限制,训练的图片经过尺度缩放为(800,800)训练,以0.5的概率随机翻转图像。

具体的实验配置如表1所示:

对训练过程中最优的模型在验证集上的各项AP指标的统计如表2所示:

从检测结果可以看出Mask RCNN对于舰船轮廓的边缘缺失做到了有效的提取,实现了实例分割,但是小目标存在较大的漏警率,大目标和中等目标检测效果良好。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年10月16日
下一篇 2020年10月16日

相关推荐