SSD自学笔记

news/2024/7/10 3:20:24 标签: 目标检测, caffe, 人工智能

ssd发布于ECCV2016 ,是一个非常经典的one-stage网络。

网络结构

 上图为SSD的网络结构。输入图像,将其缩放到300*300,然后经过特征提取网络VGG16(贯穿到Conv5的第三层)。后续经过一系列的操作得到6个预测特征层。浅层提取的特征用来检测小目标,随着网络的加深语意信息不断增强,深层网络用来预测大的目标。这样就实现了在不同尺度上去匹配对应的目标,后来的YOLO也是这个思想。

Default Box的scale以及aspect设定

对于aspect,conv4_2,conv10_2,conv11_2使用四个default boxes,对于其它的采用6个default boxes。里面的(1,2,.5)分别代表1:1, 2:1, 1:2

 上图所示,标出来的采用4个特征层,其他的采用6个特征层。

对于scale,原文中提到,每一个尺度会加一个以\sqrt{S{k}S{k+1}}为scale比例为1:1的default boxes,对于第一行,21就是S{k},45就是S{k+1}。可以发现上一行的S{k+1}就是下一行的S{k}。所以我们对于一个预测层的default boxes就是21(1,2,.5)+\sqrt{21*45}一共四个default boxes。

这样每张图会产生8732个default boxes,会把整个图像给覆盖。

 Predictor的实现

对于我们的高和宽为m*n的维度为p的预测特征层,直接使用卷积核大小为3*3的p个卷积核进行预测。生成概率分数和default box的坐标偏移量。

对于每张图的生成的k个box我们会生成c个类别概率和4个边界框偏移参数所以我们会使用k(c+4)个卷积核。对于m*n的特征图而言就会生成(c+4)kmn输出值。

(c+4)k=c*k + 4*k(其中c*k个类别预测分数,4*k边界框偏移参数)(这里的c包括背景)

正负样本的选取

正样本的选取:1。IOU值最大的        2。与任意一个GT IOU值大于0.5的

负样本的选取:对剩下的负样本去计算confidence loss(confidence loss越大网络把它看成正样本的概率就越大)选取排在前面的负样本 正负样本的数量之比为1:3

损失的计算

 其中N为匹配到正样本个数,α为1

 

 

 


http://www.niftyadmin.cn/n/1373852.html

相关文章

【hadoop】2. 运行环境搭建

2019独角兽企业重金招聘Python工程师标准>>> 简介 通过本教程您可以学习到: 安装jdk安装单机版本的hadoop1、安装hadoop 集群环境下的安装和单机其实差不多一样,不过麻烦在于对机器的需求量比较大。为了方便,本教程只演示单机的安…

Jython Bibliography

来源:http://www.pycs.net/users/0000177/stories/13.html "alt.lang.jre: Get to know Jython - Enhance your productivity on the Java platform." Barry A. Feigenbaum. IBM developerWorks. July 2004. http://www-106.ibm.com/developerworks/libr…

ShuffleNet v1 自学笔记

从图上可以看出 ShuffleNet v1在精度上较MobileNet有了不小的提升 使用组卷积能够减少参数的计算量,但是问题是各组之间没有信息交互。上图a所示每个颜色代表一个组。为了解决这个问题,作者提出了channel shuffle的思想,如上图b所示假设我们采…

Integrating Weblogs and Wikis

来源:http://www.pycs.net/users/0000177/categories/blogtools/ As part of a knowledge management effort on our intranet, we have both a wiki (TWiki) and several blogging tools (mostly PyCS). Ive detailed some of the struggles that Ive had with get…

BZOJ5063旅游——非旋转treap

题目描述 小奇成功打开了大科学家的电脑。大科学家打算前往n处景点旅游,他用一个序列来维护它们之间的顺序。初始时,序列为1,2,...,n。接着,大科学家进行m次操作来打乱顺序。每次操作有6步:1、从序列开头(左端&#xf…

一个震惊了整个德国的故事

来源:http://www.smth.edu.cn/pc/pccon.php?id1663&nid43023 不久,德国一家电视台提出高薪,征集“十秒钟惊险镜头”活动。许多新闻工作者为此趋之若鹜,征集活动一时成为人们关注的焦点。在诸多参赛作品,一个名叫…

MobileNetv3自学笔记

v3对比v2 主要有三个部分的改动 1.更新Block(bneck) 2.使用了NAS搜索参数 3.重新设计耗时层结构。 从上图可以看出v3对比v2更准确,更高效。 v2的block 首先经过一个1*1的卷积层(BN,Relu6)进行升维处理。然后是3*3大小…

可爱的 Python:用 Psyco 让 Python 运行得像 C 一样快

可爱的 Python:用 Psyco 让 Python 运行得像 C 一样快英文原文内容: Psyco 是如何工作的使用 PsycoPsyco 的性能Psyco 将何去何从?参考资料关于作者对本文的评价相关内容: Introduction to neural networks 在 Linux 专区还有&…