目标检测算法YOLO-V1算法详解

news/2024/7/10 1:52:59 标签: 深度学习, 目标检测, cnn

一、YOLO-V1结构剖析

   YOLO-V1的核心思想:就是利用整张图作为网络的输入,将目标检测作为回归问题解决,直接在输出层回归预选框的位置及其所属的类别。YOLORCNN最大的区别就是去掉了RPN网络,去掉候选区这个步骤以后,YOLO的结构非常简单,就是单纯的卷积、池化最后加了两层全连接。单看网络结构的话,和普通的CNN对象分类网络几乎没有本质的区别,最大的差异是最后输出层用线性函数做激活函数,因为需要预测bounding box的位置(数值型),而不仅仅是对象的概率。所以粗略来说,YOLO的整个结构就是输入图片经过神经网络的变换得到一个输出的张量,我们来看下YOLO-V1论文中给出的的结构,如下图:

        该网络架构借鉴了GoogLeNet的思想,改造了其中的InceptionV1网络,只是这里并没有使用原始的inception模块,而是用一个1x1的卷积接联一个3x3的卷积来代替,具体的inception模块和GoogLeNet可参考之前的文章:

从上图中可以看到,YOLO-V1网络的主要步骤如下:

 整个算法的大致流程就是这样,接下来我们看下为什么最终会得到7x7x30的结果?

为什么是7x7x30的输出?

YOLO-V1将一副448x448的原图分割成了7x7=49个网格,每个网格要预测两个bounding box的坐标(x,y,w,h)box内是否包含物体的置信度confidence(每个bounding box有一个confidence),以及该网格包含的物体属于20类别中每一类的概率(YOLO的训练数据为voc2012,它是一个20分类的数据集)。所以一个网格对应一个(4x2+2+20)=30维度的向量。如下图:

知道了网络的结构,上面提到的候选框怎么生成呢?

候选框怎么生成?

        上面提到7x7的每个网格都要预测两个bounding box的坐标和置信度,如下图,以红色网格为例,生成两个大小形状不同的蓝色boxbox的位置坐标为(x,y,w,h),其中xy表示box中心点与该格子边界的相对值,也就是说xy的大小被限制在[0,1]之间,假如候选框的中心刚好与网格的中心重合,那么x=0.5,y=0.5
  wh表示预测box的宽度和高度相对于整幅图片的宽度和高度的比例,比如图中的框住狗的蓝色网格的宽度w大致为1/3,高度h大致为1/2。这样(x,y,w,h)就都被限制在[0,1]之间,与训练数据集上标定的物体的真实坐标(Gx,Gy,Gw,Gh)进行对比训练,每个网格负责预测中心点落在该格子的物体的概率。

YOLO-V1候选框生成

        每个box预测的置信度只是为了表达box内有无物体的概率(类似于Faster R-CNNRPN层的softmax预测anchor是前景还是背景的概率),并不预测box内物体属于哪一类。那么这个置信度有什么用呢?

不一样的置信度

        这里面的置信度跟前面学的置信度有一些些不同。以前我们理解的置信度只是一个简单的得分,一个对该物体预测的概率值。YOLO中的置信度公式如下:

        其中前一项表示有无人工标记的物体落入网格内,如果有,则为1,否则为0.第二项表示bounding box和真实标记的box之间的IOU,值越大则表示box越接近真实位置。confidence是针对bounding box的,每个网格有两个bounding box,所以每个网格会有两个confidence与之对应。

预测流程

        知道了网络框架,候选框的生成,以及置信度的定义,我们看下YOLO-V1预测工作流程是怎么样的?

  1. 对输入图片进行网格划分,每个格子生成两个bounding boxes.

  2. 每个网格预测的class信息和bounding boxes预测的confidence信息相乘,得到每个bounding box预测具体物体的概率和位置重叠的概率PrIOU

其中为每个网格预测的class信息,为confidence。3. 最后对于每个类别,对PrIOU进行排序,去除小于阈值的PrIOU,然后做非极大值抑制。

        至此,我们学习了目标检测算法YOLO-V1算法的结构框架和工作流程,明白了YOLO-V1模型的基本知识,下期我们深入一步学下该模型的损失函数以及优缺点。


http://www.niftyadmin.cn/n/1385740.html

相关文章

Open Session In View探讨(引用)

Open Session In View探讨 作者 johnsonchen 目标文章 项目日志 - 2006-05-12提出:session在应用层就关闭,所以持久化要在应用层,但是到了view层持久化则session已经关闭解决:session延迟到view层再关闭原理:session(整个requestS…

pytorch数据选择CPU或者GPU

pytorch中.to(device) 和.cuda()的区别说明 原理 .to(device) 可以指定CPU 或者GPU 1 2 3 4 5 6 device torch.device("cuda:0" if torch.cuda.is_available() else "cpu") # 单GPU或者CPU model.to(device) #如果是多GPU if torch.cuda.device_count(…

VMware Data Recovery安装与体验

VMware Data Recovery安装与体验 VMware Data Recovery这个组件事实上是个虚拟机的备份工具,可以对集群内的任意一台虚拟机进行备份,可以制定备份任务,定时备份。VMware Data Recovery原理是先创建一台专门用于备份的虚拟机,然后通…

Swift学习-枚举(Enumerations)的使用方法

Swift学习-枚举的使用方法 枚举的使用语法: enum someEnumer {// 枚举的成员值 } 以下是方向的一个例子: enum direction {case Upcase Downcase Leftcase Right } 以下摘自Swift 中文翻译组 注意:不像 C 和 Objective-C 一样&…

Spark通过Java Web提交任务

http://blog.csdn.net/u010022051/article/details/48240173转载于:https://blog.51cto.com/beyond3518/1812307

pytorch中的数据类型和相互转换

1 torch.Tensor A torch.Tensoris a multi-dimensional matrix containing elements of a single data type.torch.Tensor 是包含单一数据类型的多维矩阵 2 Data types Torch定义了10种不同CPU和GPU的张量类型,下面摘录常用的几种 Data typedtypeCPU tensorGPU te…

MATLAB/Octave中implicit conversion from real matrix to real scalar错误原因与解决

写程序时提示 implicit conversion from real matrix to real scalar的一个warning,主要问题在于将一个矩阵当成一个标量在使用。我的程序出现这个warning是在使用SIZE函数的时候,size函数返回的应该是一个1X2的矩阵,但我直接拿来当标量使用肯…

AttributeError: module ‘tensorflow.compat.v2.internal‘ has no attribute ‘register_clear_session_func

报错异常:AttributeError: module tensorflow.compat.v2.internal has no attribute register_clear_session_function 原因:keras和tensorflow版本不对应,重新下keras或者tensorflow 解决方案: 重新下载对应版本的keras&#…