论文提要“Improving Object Detection with DCN via Bayesian Optimization and Structured Prediction”

2015年CVPR中的一篇文章，对R-CNN的改进和提升，主要贡献是：1）使用了贝叶斯优化提升Selective Search方法得到的proposal的准确度；2）使用了结构化的SVM框架训练CNN分类器。

1.使用贝叶斯优化对 bbox进行细粒度搜索
1）广义贝叶斯优化框架
令 $f(x,y)$ 表示图像x中bbox坐标为 $y=(u_1,v_1,u_2,v_2)\in\ Y$ 的region的检测值，检测问题是在给定y的情况下寻找 $f(x,y)$ 的最大值。基于贝叶斯优化准则， $f(x,y)$ 可取自如下概率模型：
这里写图片描述
目标是寻找新的位置 ${{y_N}_+}_1$ 来提高 ${{f_N}_+}_1$ 的值。

2）高斯过程回归得到有效的proposal
对于有限集合 $\{y_j\},j=1,...,N$ ， $f_j$ 服从多方差高斯分布，通过学习7d高斯超参数 $\theta$ 对原始的y进行转换得到如下形式：
这里写图片描述
GP过程是在给定N个y的观测值的情况下最大化如下acquisiton函数的值：

3）局部细粒度搜索
这里写图片描述
具体流程如上图所示，首先过滤掉容易的负样本，得到局部区域内具有最大分类得分的区域 $y_b$ , 对于图中的局部最优区域（红色框）经过贝叶斯优化得到一个绿色框所示区域。该过程是通过在 $y_b$ 的邻域的一些观测框中（黄色框）中进行GP实现的，并经过多设置不同的IOU值进行多次迭代直至没有新的可接受的proposal出现。

2.使用结构化损失学习R-CNN
1）结构化输出的回归
检测问题转化为寻找具有最大得分的结构化标记 $y\in Y$ :
这里写图片描述
其中,

$\phi(x,y)$ 表示标记为1的区域中提取的特征。
通过训练模型参数 $\omega$ 最小化预测标记 $g(x_i;\omega)$ 及ground truth的标记之间的结构损失 $\Delta(.,.)$ ：

检测问题的结构损失 $\Delta(y,y_i)$ 是有bbox之间的IOU定义的，上式中的最小化问题由于结构复杂比较难实现，论文使用了结构化的SVM结构实现：
这里写图片描述

2）使用结构化SVM学习基于梯度的R-CNN
对原始的结构化SVM进行了两点改进，首先限制了SS得到区域的外部空间，其次，将约束转换为hinge loss将梯度反向传播到CNN的低层，更正后的目标函数如下：
这里写图片描述

3.实验结果
使用R-CNN作为baseline,使用了较高的评价标准，IOU=0.7.使用在ImageNet数据库上训练好的CNN，并用VOC2007进行参数微调。在IOU>0.7时比R-CNN效果提升显著，在IOU>0.5时，效果提升不太明显。同时提到了，VGGnet比AlexNet网络更深，在ILSVRC 2014中获得冠军.