细粒度特征提取和定位用于目标检测：PPCNN

1、简介

近年来，深度卷积神经网络在计算机视觉上取得了优异的性能。深度卷积神经网络以精确地分类目标信息而闻名，并采用了简单的卷积体系结构来降低图层的复杂性。基于深度卷积神经网络概念设计的VGG网络。VGGNet在对大规模图像进行分类方面取得了巨大的性能。该网络设计了一堆小卷积滤波器，使网络结构非常简单，但网络有一些定位错误。

就有研究者提出了独特的网络架构，PPCNN（金字塔池化卷积神经网络），以减少定位误差，并提取高级特征图。该网络由改进的VGGNet和U-shape特征金字塔网络组成。介绍了一种提取和收集目标的小特征信息并从源图像中检测小物体的网络。该方法在定位和检测任务中取得了更高的精度。

二、背景

Facebook的特征金字塔网络Feature Pyramid Networks(FPN)。FPN主要解决的是物体检测中的多尺度问题，通过简单的网络连接改变，在基本不增加原有模型计算量情况下，大幅度提升了小物体检测的性能。我们将从论文背景，论文思想，结果与结论几方面探讨此论文。

在物体检测里面，有限计算量情况下，网络的深度（对应到感受野）与stride通常是一对矛盾的东西，常用的网络结构对应的stride一般会比较大（如32），而图像中的小物体甚至会小于stride的大小，造成的结果就是小物体的检测性能急剧下降。传统解决这个问题的思路包括：

多尺度训练和测试，又称图像金字塔，如图1(a)所示。目前几乎所有在ImageNet和COCO检测任务上取得好成绩的方法都使用了图像金字塔方法。然而这样的方法由于很高的时间及计算量消耗，难以在实际中应用。
特征分层，即每层分别预测对应的scale分辨率的检测结果。如图1(c)所示。SSD检测框架采用了类似的思想。这样的方法问题在于直接强行让不同层学习同样的语义信息。而对于卷积神经网络而言，不同深度对应着不同层次的语义特征，浅层网络分辨率高，学的更多是细节特征，深层网络分辨率低，学的更多是语义特征。

因而，目前多尺度的物体检测主要面临的挑战为：

如何学习具有强语义信息的多尺度特征表示？
如何设计通用的特征表示来解决物体检测中的多个子问题？如object proposal, box localization, instance segmentation.
如何高效计算多尺度的特征表示？

针对这些问题，提出了特征金字塔网络FPN，如上图(d)所示，网络直接在原来的单网络上做修改，每个分辨率的feature map引入后一分辨率缩放两倍的feature map做element-wise相加的操作。通过这样的连接，每一层预测所用的feature map都融合了不同分辨率、不同语义强度的特征，融合的不同分辨率的feature map分别做对应分辨率大小的物体检测。这样保证了每一层都有合适的分辨率以及强语义特征。同时，由于此方法只是在原网络基础上加上了额外的跨层连接，在实际应用中几乎不增加额外的时间和计算量。将FPN应用在Faster RCNN上的性能，在COCO上达到了state-of-the-art的单模型精度。

具体而言，FPN分别在RPN和Fast RCNN两步中起到作用。其中RPN和Fast RCNN分别关注的是召回率和正检率，在这里对比的指标分别为Average Recall(AR)和Average Precision(AP)。分别对比了不同尺度物体检测情况，小中大物体分别用s,m,l表示。

在RPN中，区别于原论文直接在最后的feature map上设置不同尺度和比例的anchor，本文的尺度信息对应于相应的feature map（分别设置面积为32^2, 64^2, 128^2, 256^2, 512^2），比例用类似于原来的方式设置{1:2, 1:1,, 2:1}三种。

与RPN一样，FPN每层feature map加入3*3的卷积及两个相邻的1*1卷积分别做分类和回归的预测。在RPN中，实验对比了FPN不同层feature map卷积参数共享与否，发现共享仍然能达到很好性能，说明特征金字塔使得不同层学到了相同层次的语义特征。

三、PPCNN

金字塔池化网络允许从不同卷积层中的多尺度特征作为输入，并提取相同尺度的输出特征图，如上图所示。研究者提出了用VGGNet在u-shape特征金字塔网络中构建的改进的网络架构来提取高级特征图。该特征金字塔网络的特征提取过程如下图所示。

四、实验

可视化结果：

Experimental results of conventional VGG network and proposed PPCNN (VGG network with u-shape feature pyramid network) on MS COCO dataset. The top row contains results of the conventional VGG network, and the bottom row contains the detection results of the proposed network.