对象检测的方法及性能研究

大致学习了对象检测的各类技术,并从这些技术的发展情况研究了从哪些方面可以提高对象检测的准确度,或说是用什么方法、思路可以提高对象检测的准确度,以及研究了对象检测技术当前最(不完全准确)优的性能粒度和速度。

一、    对象检测传统方法

1.    Viola-Jones框架 

  Viola-Jones框架是一个人脸检测框架,使用多尺度滑动窗口进行特征抽取,再级联adaboost分类器进行人脸检测。

2.    HOG+SVM

  常用于行人检测,国内有很多相关论文。

二、    对象检测深度学习方法

1.    R-CNN

使用卷积网络有效地实现多尺度滑动窗口的方法。经典的目标检测算法使用滑动窗法依次判断所有可能的区域。而RCNN则预先提取一系列较可能是物体的候选区域,之后仅在这些候选区域上提取特征,进行判断。
R-CNN的步骤:
(1)    对图像使用Selective Search方法计算生成1k-2k张region proposal
(2)    对每个region proposal使用深度网络提取特征
(3)    将特征送入SVM进行分类
(4)    使用回归器精细修正region proposal位置(这步叫bounding-box regression)

2.    Fast R-CNN

Fast R-CNN的作者是在SPPNet的启发下,完成的Fast R-CNN,他解决问题的核心就是引入了空间金字塔池化(SPP)层。
R-CNN在选取了region proposal之后,对每一张候选区域(region proposal)进行特征提取时,因为这些区域都来自同一张图片,所以有很多的重复计算,导致了大量的耗时。所以SPPNet就是将所有region proposal计算的特征映射到唯一一个卷积网络层上,减少了重复的计算。

Fast R-CNN就是在R-CNN的基础上加入了SPPNet、end to end训练,损失函数使用了多任务损失函数(multi-task loss)等。

3.    Faster R-CNN

引入了区域生成网络(RPN),用于计算region proposal,代替了Fast R-CNN中的Selective Search方法。

4.    YOLO

single deep neural network,单层深度神经网络。
VOC2007上mAP为63.4%,虽然不如Fast R-CNN,但是相对传统的实时检测方法精度有很大的提升。
实现了实时检测,可以对视频进行处理。

5.    SSD

  SSD 方法的核心就是 predict object(物体),以及其 归属类别的 score(得分);同时,在 feature map 上使用小的卷积核,去 predict 一系列 bounding boxes 的 box offsets。为了得到高精度的检测结果,在不同层次的 feature maps 上去 predict object、box offsets,同时,还得到不同 aspect ratio 的predictions。

三、    对象检测准确度

1.    传统方法

viola jones框架的启示:
引入“积分图像”(Integral Image),通过预处理图像矩阵大大减少了后面特征计算的耗时。使用级联adaboost分类器,耗时相对传统adaboost分类器较低,级联adaboost分类器由每一个小的adaboost分类器组成,每一级的分类器有高检测率(正阳性率)99.9%,和比较高的误检率(假阳性率)50%,但是比如级联20个这样的分类器,那么正阳性率仍很高,为(99.9%)^20≈98%。而假阳性率却大大减少,(50%)^20≈9.5*(10)^(-7)。

2.    R-CNN系列方法

在VOC2007上,R-CNN的mAP为58%,Fast R-CNN为68%。
在准确率的提升上,Fast R-CNN做了这些事:
1、网络末端同步训练的分类和位置调整
2、倍增训练数据

再进一步优化的Faster R-CNN在VOC2007上mAP为73.2%。相对Fast R-CNN:

  • 使用RPN算法代替Selective-Search算法计算region proposal
  • 使用VGG-Net进行特征提取,提高准确度

3.    基于回归的方法

四、    目前对象检测技术的粒度

  本来有很多图的,但是本破网就不一一分析了。。总体来看,现在的技术至少能识别实体的最宽泛的类型,比如奶牛能识别成cow;马能识别为horse,有的也至少能识别实体的最直接的类型,比如三明治就被识别为sandwich而不是food。

五、    相关论文合集

Viola-Jones框架:

《Robust Real-Time Face Detection,Paul Viola,Micheal J. Jones》

OverFeat:

《OverFeat Integrated Recognition, Localization and Detection using Convolutional Networks》

R-CNN:

《Rich feature hierarchies for accurate object detection and semantic segmentation》

SPP-Net:

《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》

Fast R-CNN:

《Fast R-CNN》

Faster R-CNN:

《Faster R-CNN Towards Real-Time Object Detection with Region Proposal Networks》

R-FCN:

《R-FCN: Object Detection via Region-based Fully Convolutional Networks》

YOLO:

《You Only Look Once: Unified, Real-Time Object Detection》

SSD:

《SSD: Single Shot MultiBox Detector》

发表评论

电子邮件地址不会被公开。