论文提要“Selective Search for Object Recognition”

news/2024/7/10 1:31:30 标签: 目标检测

这篇2012年的IJCV使用分割和穷举搜索的方法产生目标proposal，最近出现的R-CNN就是在这些proposal上学习特征进行目标识别的，目标proposal是相对于滑动窗产生的候选框来说的，proposal的数量要少很多。

区域可以归并到一起的原因有很多，如下图所示，（b）颜色，（c）纹理，（d）包含问题，车辆包含车轮等。
这里写图片描述

论文提出了一种数据驱动的SS，结合穷举搜索和多元化采样方法捕获所有的可能区域，文章回答了几个问题：1）自适应分割的多元化策略有哪些，2）产生高质量loc的效率，3）使用SS结合好的分类器和模型描述方法来做目标识别;

算法描述:
SS算法的设计基于以下考虑：1）捕获所有尺度，2）多样化归并方法，3）速度快。首先使用论文“Efficient Graph-Based Image Segmentation”中的方法生成一些起始的小区域，之后使用贪心算法将区域归并到一起：先计算所有临近区域间的相似度，将最相似的两个区域归并，然后重新计算临近区域间的相似度，归并相似区域直至整幅图像成为一个区域，算法具体描述如下：
这里写图片描述

多元化策略：使用不同的颜色空间和不同的相似度计算方法
A.互补的颜色空间
在一系列颜色空间中实现多级归并算法，包括RGB，灰度图，Lab，rgI，HSV，归一化RGB，etc.
B.互补的相似度度量
1）颜色相似度，颜色直方图交叉函数这里写图片描述
2）纹理相似度，使用类SIFT度量，对每个颜色通道在8个方向上进行高斯微分，每个通道的每个方向提取出一个bin是10的直方图，获得一个240维大小的直方图，最后使用 $L_1$ 范数进行归一化，同样适用交叉函数进行相似度度量
3）尺度相似度，计算两个区域共同占有图像面积的比例，小区域优先合并，同时放置某个区域将其他区域全部吞并。
4）填充相似度，主要用来填充缝隙，如果 $r_i$ 包含在 $r_j$ 内，显然需要将它们合并，定义 ${BB_i}_j$ 为包围 $r_i$ 和 $r_j$ 的框，填充相似度计算 ${BB_i}_j$ 中没被 $r_i$ 和 $r_j$ 覆盖的区域占整幅图像的比例：
这里写图片描述

最终的相似度度量是以上四种相似度度量的组合：
这里写图片描述

Combining Locations
对假设的目标进行排序，对于给定的归并策略j，使用 $r_i^j$ 表示层i对应的区域，i=1时区域为整幅图像，令其位置值 $v_i^j = RND \times i$ ，最终的排名是使用 $v_i^j$ 对区域进行排序. (没懂啥意思)

目标分类
分类使用的特征是BOW，采用颜色-SIFT和精细空间分割，词袋适合可变物体的识别，HOG适合刚体的识别，分类器使用的SVM。训练框架如下图所示：
这里写图片描述
正样本为物体的ground truth，负样本为SS产生的与正样本交叠20%~50%的proposal，同时剪除了重叠面积大于70%的负样本，这些负样本是hard样本，在分类中能够成为支持向量。