论文提要Fast R-CNN

news/2024/7/10 0:06:51 标签: 深度学习, 目标检测

快速R-CNN,对R-CNN和SPPNet的加速,使用multi-task 进行单步训练,网络使用的是VGG16。R-CNN对每个proposal单独warp处理,SPPNet将warp放到最后一个卷积层的后面,将多个池化网格的结果串联到SPP中。SPPNet的微调算法只能更新全连接层,限制了深层网路VGG16发挥性能。
主要贡献:
1.比R-CNN检测率更高
2.单步训练,使用multi-class loss
3.可在训练的时候更新所有的网络层
4.特征不需要存储到硬盘中

1.快速R-CNN训练:
使用ConvNet在ImageNet上进行初步训练,构建具有几个卷积层和最大化池化层的网络,接下来有一个RoI池化层和几个全连接层,网络最终以两个子层收尾,一个输出K+1类目标的softmax概率,另外一个输出对应每类的4个实数值(bbox),结构如下图所示:
这里写图片描述
1)RoI池化层
SPPNet中空间金字塔池化的简化,只有一层,RoI池化层的输入是N个特征图和R个RoI区域,特征图是卷积层的输出,大小是H*W*C。RoI是一个多元组(n,r,c,h,w),对应每个特征图的位置和大小。该层的输出是最大池化特征图
2)使用初训练的网络
有三个初始训练的网络,有5个最大池化层和5到13个卷积层,快速R-CNN对它进行了三个变形:最大池化层由一个RoI池化层取代,网络最后一层由两个子层取代,网络接受图像和RoI两种输入
3)检测微调
快速R-CNN将softmax 分类器和bbox 回归一起优化,解决参数微调不能后向传播到SPP之前层的问题,整个流程包括loss,mini-batch sampling,bp through RoI pooling layers, SGD hyperparameters.

A. multi-task loss
使用multi-task loss联合训练分类及回归:
这里写图片描述
k 是真是类标记, Lcls(p,k)=logpk 为标准log损失。 Lcoc 是类 k 的bbox的真实坐标 t 和预测坐标t定义,bbox回归的loss为:
这里写图片描述
L1 loss比起 L2 loss对outliers更不敏感, λ 是平衡两种loss的超参数

B. mini-batch sampling
每个SGD的mini-batch由N=2副图构建,mini-batch的数目R为128,从每副图中采样64个RoI,从proposal中选取与ground truth的IoU>0.5的RoI作为正样本,其余的IoU值在[0.1,0.5)之间的作为负样本。

C. BP through RoI pooling layers
multi-task loss在RoI 池化层的R个输出上进行平均,RoI池化层的后向传播计算损失函数对每个输入变量x的偏导:
这里写图片描述

D. SGD 超参数
全连接层由零均值高斯分布初始化,方差为0.01和0.001,权值学习率为1,偏量学习率为2,30k mini-batch迭代。

2.快速R-CNN检测

输入一个单尺度图像和约2000个proposals,对于每个RoI r,网络输出r的后验概率和bbox,根据概率分配一个置信水平给r。

A. Truncated SVD for faster detection
需要处理的RoI比较多,网络需要花将近一半的时间在全连接层上,论文使用truncated SVD压缩全连接层,全连接层又 u×v 的权值矩阵W表示:
WUΣtVT
因式分解过程中,U是W的前t个左奇异向量, Σt 是W奇异值组成的对角矩阵,V是W的前t个右奇异向量,truncated SVD将参数的个数由uv降到t(u+v)。对应W的全连接层被分解成两个,第一个使用权值矩阵 ΣtVT ,第二个使用U,实现了对网络的压缩。


http://www.niftyadmin.cn/n/491789.html

相关文章

ASP.NET Core优化MD5加密

MD5是我们常用的一种加密方式,但是有朋友和我说C#自带的MD5方法碰撞阻力太低,担心安全问题 然后我这里开源一下我日常使用的优化后的MD5加密方法 代码中先创建出MD5对象后对字符串先进行MD5加密,对加密出的内容再次进行按位运算以增加MD5的安…

Python进行灰色关联度综合评价

Python进行灰色关联度综合评价概念介绍第一步,读取数据,设置城市名称为索引第二步,无量纲化指标第三步,设置参考数列第四步,计算评价对象指标序列与参考序列的差值第五步,获得最大值和最小值第六步&#xf…

GeoDa空间计量(一)——空间权重矩阵的生成

GeoDa空间计量(一)——空间权重矩阵的生成一、基于地理邻近的空间权重矩阵二、基于地理距离的空间权重矩阵半径距离空间权重矩阵k个邻近空间权重矩阵一、基于地理邻近的空间权重矩阵 (一)导入shp文件,文件打开后展示为…

p3302 [SDOI2013]森林(树上主席树+启发式合并)

对着题目yy了一天加上看了一中午题解,终于搞明白了我太弱了 连边就是合并线段树,把小的集合合并到大的上,可以保证规模至少增加一半,复杂度可以是\(O(logn)\) 合并的时候暴力dfs修改倍增数组和维护主席树即可 然后树上主席树就是维…

solidity智能合约[49]-安全-溢出***

***回顾12345672016年6月,以太坊最大众筹项目The DAO被***,***获得超过350万个以太币,最终导致以太坊分叉为ETH和ETC。2016年拒绝服务***:GovernMentals 1100 ETH2016年KotET(“纷争时代”)合约遭受***。20…

GeoDa空间计量(二)——全局和局部Moran‘I指数

GeoDa空间计量(二)——全局和局部MoranI指数合并数据全局MoranI局部MoranI上节我们进行了空间权重矩阵构建,这节我们将根据上节构建的空间权重矩阵进行全局和局部Moran’I指数检验。在进行检验之前,我们首先说一下,如何…

论文提要“Selective Search for Object Recognition”

这篇2012年的IJCV使用分割和穷举搜索的方法产生目标proposal,最近出现的R-CNN就是在这些proposal上学习特征进行目标识别的,目标proposal是相对于滑动窗产生的候选框来说的,proposal的数量要少很多。 区域可以归并到一起的原因有很多&#x…

论文提要“Visual Categorization with Bags of Keypoints”

‘Selective Search for Object Recognition” 文章中特征描述使用了BOW,找到这篇文章看了一下,主要是提取BOK来做广义的目标归类,分类器使用的是朴素贝叶斯和SVM,实验对七类广义目标进行归类,目标姿态不一&#xff0c…