目标检测学习笔记

目标检测学习笔记

Obeject Dectecion

1.概述

 目标检测是计算机视觉三大任务之一,不论是需要实现图像与文字的交互还是需要识别精细类别,它都提供了可靠的信息。本文对目标检测进行了整体回顾,第一部分从RCNN开始介绍基于候选区域的目标检测器,包括 Fast R-CNN、Faster R-CNN 和 FPN等。第二部分则重点讨论了包括YOLO、SSD和RetinaNet 等在内的单次检测器,它们都是目前最为优秀的方法。

目标检测的基本思路:同时解决定位(localization) + 识别(Recognition)

2.分类

 目标检测目前有 one-stage 和 two-stage 两种,two-stage 指的是检测算法需要分两步完成,首先需要获取候选区域,然后进行分类与回归,比如基于Region Proposal的R-CNN系(R-CNN,Fast R-CNN, Faster R-CNN等);与之相对的是 one-stage 检测,其仅仅使用一个卷积神经网络CNN直接预测不同目标的类别与位置,可以理解为一步到位,不需要单独寻找候选区域,典型的有 SSD/YOLO 。第一类方法是准确度高一些,但是速度慢,但是第二类算法是速度快,但是准确性要低一些。这可以在下图中看到。

Performance of Different Structure

3. R-CNN

 该技术结合了两种主要方法:将高容量卷积神经网络应用于自下而上的候选区域,以便对物体进行局部化和分割,并监督辅助任务的预训练。接下来是特定领域的微调,从而产生高性能提升。论文的作者将算法命名为R-CNN(具有CNN特征的区域),因为它将候选区域与卷积神经网络相结合。
 目标检测有两个主要任务:物体分类和定位,为了完成这两个任务,R-CNN借鉴了滑动窗口思想, 采用对区域进行识别的方案,具体是:

  1. 输入一张图片,通过指定算法从图片中提取 2000 个类别独立的候选区域(可能目标区域)
  2. 对于每个候选区域利用卷积神经网络来获取一个特征向量
  3. 对于每个区域相应的特征向量,利用支持向量机SVM 进行分类,并通过一个bounding box regression调整目标包围框的大小

 模型接收图像并提取约2000个自下而上的候选区域,然后,它使用大型CNN计算每个候选区域的特征,此后,它使用特定类的线性支持向量机(SVM)对每个区域进行分类,该模型在PASCAL VOC 2010上实现了53.7%的平均精度。

 模型中的物体检测系统有三个模块:第一个负责生成与类别无关的候选区域,这些候选区域定义了模型检测器可用的候选检测器集;第二个模块是一个大型卷积神经网络,负责从每个区域提取固定长度的特征向量;第三个模块由一类支持向量机组成。

 模型内部使用选择性搜索来生成区域类别,选择性搜索根据颜色、纹理、形状和大小对相似的区域进行分组。对于特征提取,该模型通过在每个候选区域上应用Caffe CNN(卷积神经网络)得到4096维特征向量,227×227 的RGB图像,通过五个卷积层和两个全连接层前向传播来计算特征,节末链接中的论文解释的模型相对于PASCAL VOC 2012的先前结果实现了30%的改进。

RNN的基本原理

一、 提取候选区域
R-CNN目标检测首先需要获取2000个目标候选区域,能够生成候选区域的方法很多,比如:

  1. Objectness
  2. Selective search
  3. Category-independen object proposals
  4. Constrained parametric min-cuts(CPMC)
    5.Multi-scale combinatorial grouping
  5. Ciresan

 R-CNN 采用的是 Selective Search 算法。简单来说就是通过一些传统图像处理方法将图像分成很多小尺寸区域,然后根据小尺寸区域的特征合并小尺寸得到大尺寸区域,以实现候选区域的选取。

二、提取特征向量
 对于上述获取的候选区域,需进一步使用CNN提取对应的特征向量,作者使用模型AlexNet (2012)。(需要注意的是 Alexnet 的输入图像大小是 227x227,而通过 Selective Search 产生的候选区域大小不一,为了与 Alexnet 兼容,R-CNN 采用了非常暴力的手段,那就是无视候选区域的大小和形状,统一变换到 227x227 的尺寸)。
 那么,该网络是如何训练的呢?训练过程如下:

  • 有监督预训练:训练网络参数
  1. 样本:ImageNet
  2. 这里只训练和分类有关的参数,因为ImageNet数据只有分类,没有位置标注
  3. 图片尺寸调整为227x227
  4. 最后一层:4097维向量->1000向量的映射。
  • 特定样本下的微调 :训练网络参数
  1. 样本:
样本 来源
正样本 Ground Truth+与Ground Truth相交loU>0.5的建议框【由于Ground Truth太少了】
负样本 与Ground Truth相交IoU≤0.5的建议框
  1. 采用训练好的AlexNet模型进行PASCAL VOC 2007样本集下的微调,学习率=0.001(PASCAL VOC 2007样本集上既有图像中物体类别标签,也有图像中物体位置标签)
  2. mini-batch为32个正样本和96个负样本(由于正样本太少)
  3. 修改了原来的1000为类别输出,改为21维【20类+背景】输出。

三、SVM分类
通过上述卷积神经网络获取候选区域的特征向量,进一步使用SVM进行物体分类,关键知识点如下:

  1. 使用了一个SVM进行分类:向SVM输入特征向量,输出类别得分
  2. 用于训练多个SVM的数据集是ImageNet数据
  3. 将2000×4096维特征(2000个候选框,每个候选框获得4096的特征向量)与20个SVM组成的权值矩阵4096×20相乘(20种分类,SVM是二分类器,每个种类训练一个SVM,则有20个SVM),获得2000×20维矩阵表示每个建议框是某个物体类别的得分
  4. 分别对上述2000×20维矩阵中每列即每一类进行非极大值抑制剔除重叠建议框,得到该列即该类中得分最高的一些候选框;
    upload successful

SVM训练:
样本:

样本 来源
正样本 Ground Truth
负样本 与Ground Truth相交 IoU < 0.3 的建议框
  • 由于SVM是二分类器,需要为每个类别训练单独的SVM;
  • SVM训练时,输入正负样本是在AlexNet CNN网络输出的4096维特征向量,输出为该类的得分
  • 由于负样本太多,采用hard negative mining的方法在负样本中选取有代表性的负样本

四、边框修正
 使用一个回归器进行边框回归:输入为卷积神经网络pool5层的4096维特征向量,输出为x、y方向的缩放和平移,实现边框的修正。在进行测试前仍需回归器进行训练。
回归器训练。

  • 样本:
样本 来源
正样本 与Ground Truth相交IoU最大的Region Proposal,并且loU>0.6的Region Proposal

在2014年R-CNN横空出世的时候,颠覆了以往的目标检测方案,精度大大提升。
对于R-CNN的贡献,可以主要分为以下两个方面:

  1. 使用了卷积神经网络进行特征提取
  2. 使用bounding box regression进行目标包围框的修正

但是,我们来看一下,R-CNN有什么问题:

  • 耗时的selective search,对一张图像,需要花费2s
  • 耗时的串行式CNN前向传播,对于每一个候选框,都需经过一个AlexNet提取特征,为所有的候选框提取特征大约花费47s
  • 三个模块(CNN特征提取、SVM分类和边框修正)是分别训练的,并且在训练的时候,对于存储空间的消耗很大

R-CNN的一些缺点是:

  • 训练是一个多阶段的任务,调整物体区域的卷积神经网络,使SVM(支持向量机)适应ConvNet(卷积网络)功能,最后学习边界框回归;
  • 训练在空间和时间上都很昂贵,因为VGG16是占用大量空间的深层网络;
  • 目标检测很慢,因为它为每个候选区域都要执行ConvNet前向传播。

相关论文和参考内容链接:

https://arxiv.org/abs/1311.2524?source=post_page
http://host.robots.ox.ac.uk/pascal/VOC/voc2010/index.html?source=post_page
https://heartbeat.fritz.ai/a-beginners-guide-to-convolutional-neural-networks-cnn-cf26c5ee17ed?source=post_page

4. Fast R-CNN

 对R-CNN的缺陷,Ross在2015年提出的Fast R-CNN进行了改进,下图中展示的论文提出了一种基于快速区域的卷积网络方法(Fast R-CNN)进行目标检测,它在Caffe(使用Python和C ++)中实现,该模型在PASCAL VOC 2012上实现了66%的平均精度,而R-CNN则为62%。

upload successful

 与R-CNN相比,Fast R-CNN具有更高的平均精度,单阶段训练,更新所有网络层的训练,以及特征缓存不需要磁盘存储。在其结构中,Fast R-CNN将图像作为输入同时获得候选区域集,然后,它使用卷积和最大池化图层处理图像,以生成卷积特征图,在每个特征图中,对每个候选区域的感兴趣区域(ROI)池化层提取固定大小的特征向量。

 这些特征向量之后将送到全连接层,然后它们分支成两个输出层,一个产生几个对象类softmax概率估计,而另一个产生每个对象类的四个实数值,这4个数字表示每个对象的边界框的位置。

下面我们来概述一下Fast R-CNN的解决方案:

  1. 首先还是采用selective search提取2000个候选框RoI
  2. 使用一个卷积神经网络对全图进行特征提取
  3. 使用一个RoI Pooling Layer在全图特征上摘取每一个RoI对应的特征
  4. 分别经过为21和84维的全连接层(并列的,前者是分类输出,后者是回归输出)

Fast R-CNN通过CNN直接获取整张图像的特征图,再使用RoI Pooling Layer在特征图上获取对应每个候选框的特征,避免了R-CNN中的对每个候选框串行进行卷积(耗时较长)。

Rol Pooling Layer
对于每个RoI而言,需要从共享卷积层获取的特征图上提取对应的特征,并且送入全连接层进行分类。因此,RoI Pooling主要做了两件事,第一件是为每个RoI选取对应的特征,第二件事是为了满足全连接层的输入需求,将每个RoI对应的特征的维度转化成某个定值。
RoI Pooling示意图如下所示:
upload successful
如上图所示,对于每一个RoI,RoI Pooling Layer将其映射到特征图对应位置,获取对应特征。另外,由于每一个RoI的尺度各不相同,所以提取出来的特征向量region proposal维度也不尽相同,因此需要某种特殊的技术来做保证输入后续全连接层的特征向量维度相同。ROI Pooling的提出便是为了解决这一问题的。其思路如下:

  • 将region proposal划分为目标H×W大小的分块
  • 对每一个分块中做MaxPooling(每个分块中含有多个网格,每个分块获取一个特征值)
  • 将所有输出值组合起来便形成固定大小为H×W的feature map

upload successful
upload successful

Fast R-CNN的贡献可以主要分为两个方面:

  1. 取代R-CNN的串行特征提取方式,直接采用一个CNN对全图提取特征(这也是为什么需要RoI Pooling的原因)。
  2. 除了selective search,其他部分都可以合在一起训练。

Fast R-CNN也有缺点,体现在耗时的selective search还是依旧存在。

相关内容参考链接:
https://github.com/rbgirshick/fast-rcnn?source=post_page

5. Faster R-CNN

 Faster R-CNN:利用候选区域网络实现实时目标检测,提出了一种训练机制,可以对候选区域任务进行微调,并对目标检测进行微调。Faster R-CNN 取代selective search,直接通过一个Region Proposal Network (RPN)生成待检测区域,这么做,在生成RoI区域的时候,时间也就从2s缩减到了10ms。下图是Faster R-CNN整体结构。

 Faster R-CNN模型由两个模块组成:提取候选区域的深度卷积网络,以及使用这些区域FastR-CNN检测器, Region Proposal Network将图像作为输入并生成矩形候选区域的输出,每个矩形都具有检测得分。

Faster R-CNN

由上图可知,Faster R-CNN由共享卷积层、RPN、RoI pooling以及分类和回归四部分组成:

  1. 首先使用共享卷积层为全图提取特征feature maps
  2. 将得到的feature maps送入RPN,RPN生成待检测框(指定RoI的位置),并对RoI的包围框进行第一次修正
  3. RoI Pooling Layer根据RPN的输出在feature map上面选取每个RoI对应的特征,并将维度置为定值
  4. 使用全连接层(FC Layer)对框进行分类,并且进行目标包围框的第二次修正。

尤其注意的是,Faster R-CNN真正实现了端到端的训练(end-to-end training)。Faster R-CNN最大特色是使用了RPN取代了SS算法来获取RoI,以下对RPN进行分析

经典的检测方法生成检测框都非常耗时,如OpenCV adaboost使用滑动窗口+图像金字塔生成检测框;或如R-CNN使用SS(Selective Search)方法生成检测框。而Faster R-CNN则抛弃了传统的滑动窗口和SS方法,直接使用RPN生成检测框,这也是Faster R-CNN的巨大优势,能极大提升检测框的生成速度。
首先来看看RPN的工作原理:
RPN
上图展示了RPN网络的具体结构。可以看到RPN网络实际分为2条支线,上面一条支线通过softmax来分类anchors获得前景foreground和背景background(检测目标是foreground),下面一条支线用于计算anchors的边框偏移量,以获得精确的proposals。而最后的proposal层则负责综合foreground anchors和偏移量获取proposals,同时剔除太小和超出边界的proposals。其实整个网络到了Proposal Layer这里,就完成了相当于目标定位的功能。
Anchor:
简单地说,RPN依靠一个在共享特征图上滑动的窗口,为每个位置生成9种预先设置好长宽比与面积的目标框(即anchor)。这9种初始anchor包含三种面积(128×128,256×256,512×512),每种面积又包含三种长宽比(1:1,1:2,2:1)。示意图如下所示:

Anchor
由于共享特征图的大小约为40×60,所以RPN生成的初始anchor的总数约为20000个(40×60×9)。其实RPN最终就是在原图尺度上,设置了密密麻麻的候选anchor。进而去判断anchor到底是前景还是背景,意思就是判断这个anchor到底有没有覆盖目标,以及为属于前景的anchor进行第一次坐标修正。
Generate Anchors
判断前景或背景:
对于所有的anchors,首先需要判断anchor是是否为前景。对于第一个问题,RPN的做法是使用SoftmaxLoss直接训练,在训练的时候排除掉了超越图像边界的anchor;
边框修正:
如图绿色表示的是飞机的实际框标签(ground truth),红色的表示的其中一个候选区域(foreground anchor),即被分类器识别为飞机的区域,但是由于红色区域定位不准确,这张图相当于没有正确检测出飞机,所以我们希望采用一种方法对红色的框进行微调,使得候选区域和实际框更加接近:
Dectect template
对于目标框一般使用四维向量来表示(x,y,w,h)(x,y,w,h) ,分别表示目标框的中心点坐标、宽、高,我们使用AA 表示原始的foreground anchor,使用GG 表示目标的ground truth,我们的目标是寻找一种关系,使得输入原始的Anchor AA 经过映射到一个和真实框GG 更接近的回归窗口G′G′ ,即:

  • 给定:
    $A = \left( A { x } , A { y } , A { w } , A { h } \right) , G = \left( G { x } , G { y } , G { w } , G { h } \right)$
  • 寻找一种变换FF ,使得
    $ F \left( A { x } , A { y } , A { w } , A { h } \right) = \left( G { x } ^ { \prime } , G { y } ^ { \prime } , G { w } ^ { \prime } , G { h } ^ { \prime } \right) $
    $ \left( G { x } , G { y } , G { w } , G { h } \right) \approx \left( G { x } ^ { \prime } , G { y } ^ { \prime } , G { w } ^ { \prime } , G { h } ^ { \prime } \right) $

那么如何去计算 $F$ 呢?这里我们可以通过平移和缩放实现

$F(A) = G^{\prime}$

  • 平移:
    $G { x } ^ { \prime } = A { x } + A { w } \cdot d { x } ( A )$
    $G { y } ^ { \prime } = A { y } + A { h } \cdot d { y } ( A )$
  • 缩放:
    $G { w } ^ { \prime } = A { w } \cdot \exp \left( d { w } ( A ) \right) $
    $ G
    { h } ^ { \prime } = A { h } \cdot \exp \left( d { h } ( A ) \right) $

上面公式中,我们需要学习四个参数,分别是
$d { x } ( A ) , d { y } ( A ) , d { w } ( A ) , d { h } ( A )$
其中$
\left( A { w } \cdot d { x } ( A ) , A { w } \cdot d { y } ( A ) \right)
$表示的两个框中心距离的偏移量

 当输入的anchor A与G相差较小时,可以认为这种变换是一种线性变换, 那么就可以用线性回归来建模对目标框进行微调(注意,只有当anchors A和G比较接近时,才能使用线性回归模型,否则就是复杂的非线性问题了)。
接下来就是如何通过线性回归获得 $d { x } ( A ) , d { y } ( A ) , d { w } ( A ) , d { h } ( A )$

线性回归就是给定输入的特征向量X ,学习一组参数W,使得线性回归的输出WX和真实值Y 的差很小。对于该问题,输入X是特征图,我们使用ϕ 表示,同时训练时还需要A到G变换的真实参数值:

输出是

那么目标函数可以表示为:

其中ϕ(A) 是对应anchor的特征图组成的特征向量,ww 是需要学习的参数,d(A) 是得到预测值(表示x,y,w,h,也就是每一个变换对应一个上述目标函数),为了让预测值和真实值差距最小,代价函数如下:

函数优化目标为:

需要说明,只有在G和A比较接近时,才可近似认为上述线性变换成立,下面对于原文中,A与G之间的平移参数和尺度因子为:
$t { x } = \left( G { x } - A { x } \right) / A { w }$
$t { y } = \left( G { y } - A { y } \right) / A { h }$
$t { w } = \log \left( G { w } / A { w } \right)$
$t
{ h } = \log \left( G { h } / A { h } \right)$

  在得到每一个候选区域anchor A的修正参数之后,我们就可以计算出精确的anchor,然后按照物体的区域得分从大到小对得到的anchor排序,然后提出一些宽或者高很小的anchor(获取其它过滤条件),再经过非极大值抑制抑制,取前Top-N的anchors,然后作为proposals(候选框)输出,送入到RoI Pooling层。
  那么,RPN怎么实现呢?这个问题通过RPN的本质很好求解,RPN的本质是一个树状结构,树干是一个3×3的卷积层,树枝是两个1×1的卷积层,第一个1×1的卷积层解决了前后景的输出,第二个1×1的卷积层解决了边框修正的输出。
RPN代码实现

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
#=========RPN ============#
layer{
name:"rpn conv/3x3"
type:"Convolution"
bottom:"conv5"
top:"rpn/output"
convolution param{
num output:256
kernel size:3 pad:1 stride:1
weight filler { type:"gaussian"std:0.01}
bias filler { type:"constant"value:0}
}
}

layer{
name:"rpn relu/3x3"
type:"ReLU"
bottom:"rpn/output"
top:"rpn/output"
}

layer{
name:"rpn cls score"
type:"Convolution"
bottom:"rpn/output"top:"rpn cls score"
convolution param {
num output:18 #2(bg/fg)*9(anchors)
kernel size:l pad:0 stride:1
weight filler { type:"gaussian"std:0.01
bias filler { type:"constant"value:0}
}
}

layer{
name:"rpn bbox pred"
type:"Convolution"
bottom:"rpn/output"top:"rpn bbox pred"
convolution param{
num output:36 #4*9(anchors)
kernel size:l pad:0 stride:1
weight filler { type:"gaussian"std:0.01
bias filler { type:"constant"value:0}
}
}

  从如上代码中可以看到,对于RPN输出的特征图中的每一个点,一个1×1的卷积层输出了18个值,因为是每一个点对应9个anchor,每个anchor有一个前景分数和一个背景分数,所以9×2=18。另一个1×1的卷积层输出了36个值,因为是每一个点对应9个anchor,每个anchor对应了4个修正坐标的值,所以9×4=36。那么,要得到这些值,RPN网络需要训练。在训练的时候,就需要对应的标签。那么,如何判定一个anchor是前景还是背景呢?文中做出了如下定义:如果一个anchor与ground truth的IoU在0.7以上,那这个anchor就算前景(positive)。类似地,如果这个anchor与ground truth的IoU在0.3以下,那么这个anchor就算背景(negative)。在作者进行RPN网络训练的时候,只使用了上述两类anchor,与ground truth的IoU介于0.3和0.7的anchor没有使用。在训练anchor属于前景与背景的时候,是在一张图中,随机抽取了128个前景anchor与128个背景anchor。

分类与定位
Faster R-CNN中的RoI Pooling Layer与 Fast R-CNN中原理一样。在RoI Pooling Layer之后,就是Faster R-CNN的分类器和RoI边框修正训练。分类器主要是分这个提取的RoI具体是什么类别(人,车,马等),一共C+1类(包含一类背景)。RoI边框修正和RPN中的anchor边框修正原理一样,同样也是SmoothL1 Loss,值得注意的是,RoI边框修正也是对于非背景的RoI进行修正,对于类别标签为背景的RoI,则不进行RoI边框修正的参数训练。对于分类器和RoI边框修正的训练,可以损失函数描述如下:

上式中u>=1表示RoI边框修正是对于非背景的RoI而言的,实验中,上式的λ取1。
在训练分类器和RoI边框修正时,步骤如下所示:

  1. 首先通过RPN生成约20000个anchor(40×60×9)。
  2. 对20000个anchor进行第一次边框修正,得到修订边框后的proposal。
    2 对超过图像边界的proposal的边进行clip,使得该proposal不超过图像范围。
  3. 忽略掉长或者宽太小的proposal。
  4. 将所有proposal按照前景分数从高到低排序,选取前12000个proposal。
  5. 使用阈值为0.7的NMS算法排除掉重叠的proposal。
  6. 针对上一步剩下的proposal,选取前2000个proposal进行分类和第二次边框修正。

总的来说,Faster R-CNN的loss分两大块,第一大块是训练RPN的loss(包含一个SoftmaxLoss和SmoothL1Loss),第二大块是训练Faster R-CNN中分类器的loss(包含一个SoftmaxLoss和SmoothL1Loss),Faster R-CNN的总的loss函数描述如下:

相关论文参考链接:

https://arxiv.org/abs/1506.01497?source=post_page

6. Mask R-CNN

 Mask R-CNN是上述Faster R-CNN架构的扩展,它还能够估计人体姿势。
 在此模型中,物体通过边界框和语义分割实现分类和局部化,语义分割是将图片中每个像素分类。该模型通过在每个感兴趣区域(ROI)添加分割掩模的预测来扩展Faster R-CNN, Mask R-CNN产生两个输出,类标签和边界框。
 Mask R-CNN可以分解为3个模块:Faster-RCNN、RoI Align和Mask。
算法框架如下:
Mask R-CNN算法框架

算法步骤:

  • 首先,输入一幅你想处理的图片,然后进行对应的预处理操作,或者预处理后的图片;
  • 然后,将其输入到一个预训练好的神经网络中(ResNeXt等)获得对应的feature map;
  • 接着,对这个feature map中的每一点设定预定个的RoI,从而获得多个候选RoI;
  • 接着,将这些候选的RoI送入RPN网络进行二值分类(前景或背景)和BB回归,过滤掉一部分候选的ROI;
  • 接着,对这些剩下的RoI进行RoIAlign操作(即先将原图和feature map的pixel对应起来,然后将feature map和固定的feature对应起来);
  • 最后,对这些RoI进行分类(N类别分类)、BB回归和MASK生成(在每一个ROI里面进行FCN操作)。

Mask R-CNN是一个非常灵活的框架,可以增加不同的分支完成不同的任务,可以完成目标分类、目标检测、语义分割、实例分割、人体姿势识别等多种任务,如下图所示。
Mask R-CNN Application

ROI Align

Mask R-CNN使用RoIAlign取代了Faster RCNN中的RoIPooling,故下文对RoIPooling和RoIAlign进行分析与比较

如上图所示,RoI Pooling和RoIAlign最大的区别是:前者使用了两次量化操作,而后者并没有采用量化操作,使用了线性插值算法,具体的解释如下所示。
RoI Pooling

如上图所示,为了得到固定大小(7X7)的feature map,我们需要做两次量化操作:1)图像坐标 — feature map坐标,2)feature map坐标 — RoI feature坐标。我们来说一下具体的细节,如图我们输入的是一张800x800的图像,在图像中有两个目标(猫和狗),狗的BB大小为665x665,经过VGG16网络后,我们可以获得对应的feature map,如果我们对卷积层进行Padding操作,我们的图片经过卷积层后保持原来的大小,但是由于池化层的存在,我们最终获得feature map 会比原图缩小一定的比例,这和Pooling层的个数和大小有关。在该VGG16中,我们使用了5个池化操作,每个池化操作都是2x2Pooling,因此我们最终获得feature map的大小为800/32 x 800/32 = 25x25(是整数),但是将狗的BB对应到feature map上面,我们得到的结果是665/32 x 665/32 = 20.78 x 20.78,结果是浮点数,含有小数,但是我们的像素值可没有小数,那么作者就对其进行了量化操作(即取整操作),即其结果变为20 x 20,在这里引入了第一次的量化误差;然而我们的feature map中有不同大小的ROI,但是我们后面的网络却要求我们有固定的输入,因此,我们需要将不同大小的ROI转化为固定的ROI feature,在这里使用的是7x7的ROI feature,那么我们需要将20 x 20的ROI映射成7 x 7的ROI feature,其结果是 20 /7 x 20/7 = 2.86 x 2.86,同样是浮点数,含有小数点,我们采取同样的操作对其进行取整吧,在这里引入了第二次量化误差。其实,这里引入的误差会导致图像中的像素和特征中的像素的偏差,即将feature空间的ROI对应到原图上面会出现很大的偏差。原因如下:比如用我们第二次引入的误差来分析,本来是2,86,我们将其量化为2,这期间引入了0.86的误差,看起来是一个很小的误差呀,但是你要记得这是在feature空间,我们的feature空间和图像空间是有比例关系的,在这里是1:32,那么对应到原图上面的差距就是0.86 x 32 = 27.52。这个差距不小吧,这还是仅仅考虑了第二次的量化误差。这会大大影响整个检测算法的性能,因此是一个严重的问题。

RoIAlign

如上图所示,为了得到为了得到固定大小(7X7)的feature map,RoIAlign技术并没有使用量化操作,即我们不想引入量化误差,比如665 / 32 = 20.78,我们就用20.78,不用什么20来替代它,比如20.78 / 7 = 2.97,我们就用2.97,而不用2来代替它。这就是RoIAlign的初衷。那么我们如何处理这些浮点数呢,我们的解决思路是使用“双线性插值”算法。双线性插值是一种比较好的图像缩放算法,它充分的利用了原图中虚拟点(比如20.56这个浮点数,像素位置都是整数值,没有浮点值)四周的四个真实存在的像素值来共同决定目标图中的一个像素值,即可以将20.56这个虚拟的位置点对应的像素值估计出来。如下图所示,蓝色的虚线框表示卷积后获得的feature map,黑色实线框表示ROI feature,最后需要输出的大小是2x2,那么我们就利用双线性插值来估计这些蓝点(虚拟坐标点,又称双线性插值的网格点)处所对应的像素值,最后得到相应的输出。这些蓝点是2x2Cell中的随机采样的普通点,作者指出,这些采样点的个数和位置不会对性能产生很大的影响,你也可以用其它的方法获得。然后在每一个橘红色的区域里面进行max pooling或者average pooling操作,获得最终2x2的输出结果。我们的整个过程中没有用到量化操作,没有引入误差,即原图中的像素和feature map中的像素是完全对齐的,没有偏差,这不仅会提高检测的精度,同时也会有利于实例分割。

Mask
下图阐述了Mask R-CNN的Mask branch:

在Mask R-CNN中的RoI Align之后有一个”head”部分,主要作用是将RoI Align的输出维度扩大,这样在预测Mask时会更加精确。在Mask Branch的训练环节,作者没有采用FCN式的SoftmaxLoss,反而是输出了K个Mask预测图(为每一个类都输出一张),并采用average binary cross-entropy loss训练,当然在训练Mask branch的时候,输出的K个特征图中,也只是对应ground truth类别的那一个特征图对Mask loss有贡献。
Mask R-CNN的训练损失函数可以描述为:

相关论文参考链接:
https://arxiv.org/abs/1703.06870?source=post_page

7. YOLO

 以上目标检测模型都是two-stage算法,针对于two-stage目标检测算法普遍存在的运算速度慢的缺点,Yolo创造性的提出了one-stage,也就是将物体分类和物体定位在一个步骤中完成。Yolo直接在输出层回归bounding box的位置和bounding box所属类别,从而实现one-stage。通过这种方式,Yolo可实现45帧每秒的运算速度,完全能满足实时性要求(达到24帧每秒,人眼就认为是连续的)。整个系统如下图所示。

upload successful

 YOLO模型实时处理每秒45帧,YOLO将图像检测视为回归问题,这使得其管道非常简单因此该模型非常快。

 在YOLO中,每个边界框都是通过整个图像的特征来预测的,每个边界框有5个预测,x,y,w,h和置信度,(x,y)表示相对于网格单元边界的边界框中心, w和h是整个图像的预测宽度和高度。

 该模型通过卷积神经网络实现,并在PASCAL VOC检测数据集上进行评估。网络的卷积层负责提取特征,而全连接的层预测坐标和输出概率。

 该模型的网络架构受到用于图像分类的GoogLeNet模型的启发,网络有24个卷积层和2个完全连接的层,模型的主要挑战是它只能预测一个类,并且它在诸如鸟类之类的小物体上表现不佳。

此模型的平均AP精度为52.7%,但能够达到63.4%。

参考链接:
https://arxiv.org/abs/1506.02640?source=post_page

8. SSD: Single Shot MultiBox Detectorz

 SSD是一种使用单个深度神经网络预测图像中物体的模型。网络使用特征图的小卷积滤波器为每个对象类别生成分数。

 该方法使用前馈卷积神经网络,产生特定目标的一组边界框和分数,添加了卷积特征图层,允许在多个尺度上进行特征检测,在此模型中,每个特征图单元格都关联到一组默认边界框.

相关内容参考链接:
https://arxiv.org/abs/1512.02325?source=post_page

Reference

https://blog.csdn.net/electech6/article/details/95240278

打赏

扫一扫,分享到微信

微信分享二维码

请我喝杯咖啡吧~

支付宝
微信