论文提要“Improving Object Detection with DCN via Bayesian Optimization and Structured Prediction”

news/2024/7/10 2:45:46 标签: 深度学习, 目标检测

2015年CVPR中的一篇文章,对R-CNN的改进和提升,主要贡献是:1)使用了贝叶斯优化提升Selective Search方法得到的proposal的准确度;2)使用了结构化的SVM框架训练CNN分类器。

1.使用贝叶斯优化对 bbox进行细粒度搜索
1)广义贝叶斯优化框架
f(x,y) 表示图像x中bbox坐标为 y=(u1,v1,u2,v2) Y 的region的检测值,检测问题是在给定y的情况下寻找 f(x,y) 的最大值。基于贝叶斯优化准则, f(x,y) 可取自如下概率模型:
这里写图片描述
目标是寻找新的位置 yN+1 来提高 fN+1 的值。

2)高斯过程回归得到有效的proposal
对于有限集合 {yj},j=1,...,N fj 服从多方差高斯分布,通过学习7d高斯超参数 θ 对原始的y进行转换得到如下形式:
这里写图片描述
GP过程是在给定N个y的观测值的情况下最大化如下acquisiton函数的值:
这里写图片描述

3)局部细粒度搜索
这里写图片描述
具体流程如上图所示,首先过滤掉容易的负样本,得到局部区域内具有最大分类得分的区域 yb , 对于图中的局部最优区域(红色框)经过贝叶斯优化得到一个绿色框所示区域。该过程是通过在 yb 的邻域的一些观测框中(黄色框)中进行GP实现的,并经过多设置不同的IOU值进行多次迭代直至没有新的可接受的proposal出现。

2.使用结构化损失学习R-CNN
1)结构化输出的回归
检测问题转化为寻找具有最大得分的结构化标记 yY :
这里写图片描述
其中,
这里写图片描述
ϕ(x,y) 表示标记为1的区域中提取的特征。
通过训练模型参数 ω 最小化预测标记 g(xi;ω) 及ground truth的标记之间的结构损失 Δ(.,.)
这里写图片描述
检测问题的结构损失 Δ(y,yi) 是有bbox之间的IOU定义的,上式中的最小化问题由于结构复杂比较难实现,论文使用了结构化的SVM结构实现:
这里写图片描述

2)使用结构化SVM学习基于梯度的R-CNN
对原始的结构化SVM进行了两点改进,首先限制了SS得到区域的外部空间,其次,将约束转换为hinge loss将梯度反向传播到CNN的低层,更正后的目标函数如下:
这里写图片描述

3.实验结果
使用R-CNN作为baseline,使用了较高的评价标准,IOU=0.7.使用在ImageNet数据库上训练好的CNN,并用VOC2007进行参数微调。在IOU>0.7时比R-CNN效果提升显著,在IOU>0.5时,效果提升不太明显。同时提到了,VGGnet比AlexNet网络更深,在ILSVRC 2014中获得冠军.


http://www.niftyadmin.cn/n/491796.html

相关文章

Android应用开发中三种常见的图片压缩方法

Android应用开发中三种常见的图片压缩方法,分别是:质量压缩法、比例压缩法(根据路径获取图片并压缩)和比例压缩法(根据Bitmap图片压缩)。 一、质量压缩法private Bitmap compressImage(Bitmap image) {Byte…

论文提要“Gradient based Learning Applied to Document Reocognition”

1.综述 提出好的模式识别系统多依赖自学习,少依赖手工设计框架。字符识别可以将原图像作为网络输入,代替之前设计的特征。对于文本理解,之前设计的定位分割识别模块可以使用Graph Transformer Networks 代替。下图显示了传统的识别方法&…

运用turtle库绘制哆啦A梦

运用turtle库绘制哆啦A梦六一儿童节到来之际,作为 90后的我不免想起儿时的动漫剧。于是,打开电脑,开启了哆啦A梦的绘制之旅。OK,废话不多说,直接上代码。 import turtle as tt.speed(200) t.pensize(4) t.hideturtle(…

特征学习“Building High-level Features Using Large Scale Unsupervised Learning”

摘要:GoogleBrain中特征学习的原理,通过使用未标记的图像学习人脸、猫脸high-level特征,得到检测器。文章使用大数据构建了一个9层的局部连接稀疏自编码网络(模型有1 billion个链接,数据有10 million 个200*200的图像&…

Python动漫化图片

Python动漫化图片第一步,在百度AI平台注册自己的账号,具体操作步骤这里就不再赘述了,请自行百度。第二步,编写动漫化的代码第三步,动漫化图像第一步,在百度AI平台注册自己的账号,具体操作步骤这…

骗子或许比你更了解网络攻防

在这个世界中,有人的地方就有江湖。网络也是一样,由于其相对匿名的特性,其中的攻防甚至更为激烈。随着智能手机的兴起,越来越多的人开始接入互联网,同时,以此为基础的灰产也在蒸蒸日上。虽然几乎全社会都浸…

论文提要Fast R-CNN

快速R-CNN,对R-CNN和SPPNet的加速,使用multi-task 进行单步训练,网络使用的是VGG16。R-CNN对每个proposal单独warp处理,SPPNet将warp放到最后一个卷积层的后面,将多个池化网格的结果串联到SPP中。SPPNet的微调算法只能…

ASP.NET Core优化MD5加密

MD5是我们常用的一种加密方式,但是有朋友和我说C#自带的MD5方法碰撞阻力太低,担心安全问题 然后我这里开源一下我日常使用的优化后的MD5加密方法 代码中先创建出MD5对象后对字符串先进行MD5加密,对加密出的内容再次进行按位运算以增加MD5的安…