论文精读：Feature Pyramid Networks for Object Detection

1. 摘要
- 1.1 背景
- 1.2 提出新方法
- 1.3 贡献
2. 引言
- 2.1 提出问题
- 2.2 叙述Feature pyramid
- 2.3 叙述深度卷积网络
- 2.4 Feature pyramid的局限
- 2.5 使用deep ConvNet计算多尺度特征的方式
- 2.6 提出我们的方法
- 2.7 贡献
3. 相关工作
- 3.1 手工工程特征和早期神经网络
- 3.2 深度卷积目标检测
- 3.3 使用多层次的方法
4. Feature Pyramid Networks
- 4.1 目的
- 4.2 Feature Pyramid Networks结构
- - 4.2.1 Bottom-up pathway
- 4.2.2 Top-down pathway
- 4.2.3 Lateral connection
5.应用
- 5.1 Feature Pyramid Networks for RPN
- 5.2 Feature Pyramid Networks for Fast R-CNN

1. 摘要

提出一个自上而下的架构与横向连接的金字塔结构，以建立高层次的语义特征图在所有尺度，叫做Feature Pyramid Network (FPN)

将FPN用在Faster-RCNN上实现了先进的单模型结果

在这里插入图片描述

OverFeat采用了类似于早期神经网络人脸检测器的策略，将ConvNet作为图像金字塔上的滑动窗口检测器。
R-CNN采用了一种基于区域提议的策略，其中每个提议在使用ConvNet分类之前都进行了尺度归一化。
PPnet证明，这种基于区域的检测器可以更有效地应用于在单个图像尺度上提取的特征图
Fast R-CNN [11]和Faster R-CNN主张使用从单个尺度计算的特征，因为它在准确性和速度之间提供了良好的权衡。然而，多尺度检测仍然表现得更好，特别是对于小对象。

Bottom-up的过程就是将图片输入到backbone ConvNet中提取特征的过程
Backbone输出的feature map的尺寸有的是不变的，有的是成2倍的减小的。对于那些输出的尺寸相同的层，把他们归为一个stage，那么每个stage的最后一层输出的特征就被抽取出来。

Top-down的过程就是将高层得到的feature map进行上采样然后往下传递，这样做是因为，高层的特征包含丰富的语义信息，经过top-down的传播就能使得这些语义信息传播到低层特征上，使得低层特征也包含丰富的语义信息。
采样方法是最近邻上采样，使得特征图扩大2倍

使用的原因：使用lateral connection加强相同Stage的特征，因为自下而上的特征图有较低级别的语义，但其激活更准确地定位，因为它被子采样更少的次数。

对于每个stage输出的feature map，都先进行一个1*1的卷积降低维度。
然后再将得到的特征和上一层采样得到特征图进行融合，就是直接相加
加完之后需要进行一个33的卷积才能得到本层的特征输出，使用这个33卷积的目的是为了消除上采样产生的混叠效应(aliasing effect)，混叠效应该就是指上边提到的‘插值生成的图像灰度不连续，在灰度变化的地方可能出现明显的锯齿状’。

通过用FPN替换单尺度特征图来适应RPN
将相同的设计(3×3 conv和两个1×1 convs)附加到特征金字塔的每个层级上
由于头部在所有金字塔等级的所有位置上密集滑动，因此不必在特定等级上使用多尺度的anchor。相反，为每个层级设置单一锚框
anchor 定义在{P2,P3,P4,P5,P6}上具有{32², 64⁴,128²,256²,512²}，并且分别在每个层级使用{1:2, 1:1, 2:1}的anchor。因此金字塔上共有15个anchor
如果anchor与ground-truth box的IoU大于0.7则为正样本，小于0.3则为负样本
头部的参数在所有金字塔的金字塔层级上都是共享的。表明可以将通用的头部分类器应用于以任何图像比例计算的特征
共享参数的良好性能表明金字塔各层次共享相似的语义层次

Fast R-CNN是一种基于区域的目标检测器，使用感兴趣区域池(Region-of-Interest, RoI)提取特征
将特征金字塔视为是由图像金字塔产生的。因此，通过以下方式将宽度 $w$ 和高度 $h$ 的RoI分配给特征金字塔的水平P_k
1. 224是ImageNet的预训练尺寸
2. k₀是w × h = 224²的RoI应映射到的目标层级