【目标检测】原始的 YOLOv1 网络结构(GoogLeNet 作为 backbone 的实现)

news/2024/7/10 0:55:29 标签: 目标检测, YOLO, 深度学习

现在看网上的很多 YOLOv1 的代码实现,基本都是使用新的 backbone,例如 ResNet 或者 VGG 来实现的,因为这些后面的通用的 backbone 可能比较方便的获得预训练模型,不需要从头开始训练。

但是我就是想看一下,一开始 YOLOv1 网络结构是咋样的,所以就当做学习了,来还原一下最初的 YOLOv1 网络结构。

比较常见的图有两张:

在这里插入图片描述
这张是原论文里面的图片,我后面根据下面的卷积参数进行复现的时候,发现如果严格按照上面的输出的话,有输出张量的通道数,图上应该是标错了的。

在这里插入图片描述
这里张图应该也是网友制作的图,但是其中的一个张量的尺寸也是错误的。

首先我们根据论文提供的第一张图的网络结构参数来复原一下:

layeroutput sizemodule
448x448x3
1224x224x64Conv 7x7x64, s-2, p-3modified GoogLeNet backbone
112x112x64Maxpool 2x2, s-2, p-0modified GoogLeNet backbone
2112x112x192Conv 3x3x192, s-1, p-1modified GoogLeNet backbone
56x56x192Maxpool 2x2, s-2, p-0modified GoogLeNet backbone
356x56x128Conv 1x1x128, s-1, p-0modified GoogLeNet backbone
456x56x256Conv 3x3x256, s-1, p-1modified GoogLeNet backbone
556x56x256Conv 1x1x256, s-1, p-0modified GoogLeNet backbone
656x56x512Conv 3x3x512, s-1, p-1modified GoogLeNet backbone
28x28x512Maxpool 2x2, s-2, p-0modified GoogLeNet backbone
7,9,11,1328x28x256Conv 1x1x256, s-1, p-0modified GoogLeNet backbone
8,10,12,1428x28x512Conv 3x3x512, s-1, p-1modified GoogLeNet backbone
1528x28x512Conv 1x1x512, s-1, p-0modified GoogLeNet backnone
1628x28x1024Conv 3x3x1024, s-1, p-1modified GoogLeNet backbone
14x14x1024Maxpool 2x2, s-2, p-0modified GoogLeNet backbone
17,1914x14x512Conv 1x1x512, s-1, p-0modified GoogLeNet backbone
18,2014x14x1024Conv 3x3x1024, s-1, p-1modified GoogLeNet backbone
2114x14x1024Conv 3x3x1024, s-1, p-1
227x7x1024Conv 3x3x1024, s-2, p-1
237x7x1024Conv 3x3x1024, s-1, p-1
247x7x1024Conv 3x3x1024, s-1, p-1
254096x1FC1
261470x1FC2
7x7x30reshape

从这个这个表格我们可以看到:

  • 前 20 层是 backbone,属于魔改之后的 GoogLeNet 网络,修改的细节后续会给出。
  • 在 backbone 后面,还接着 4 个卷积层和 2 个全连接层,最后进行 reshape,输出我们想要的张量维度。

YOLOv1 的 backbone 是根据 GoogLeNet 进行修改的。

首先看一下 GoogLeNet 的网络结构,之前出过一篇文章专门介绍 Inception 家族的,所以 GoogLeNet 的结构示意图如下:

在这里插入图片描述

具体来说,这里的 GoogLeNet modification(20 layers)就是采用 1×1 卷积层加 3×3 卷积层替换了
GoogLeNet 中的 Inception 模块,然后去掉了第二层 1x1 的卷积层和最后的 fc 层

在这里插入图片描述
这就是我们 YOLOv1 的网络结构图:

  • 左边部分就是魔改之后的 GoogLeNet backbone,其中 Inception 的部分都使用 1x1 和 3x3 卷积替代了。简单来说,相当于将 Inception 模块中多条分支,只保留了 1x1 和 3x3 卷积单条分支。
    在这里插入图片描述
  • 中间部分就是紫色 Stem 模块的展开,其中如同上面描述的那样,第二层的 1x1 卷积去掉了
  • 右边部分就是 YOLOv1 最后的输出部分

参考文献

  • 目标检测 YOLO 系列: 开宗立派 YOLO v1
  • You Only Look Once: Unified, Real-Time Object Detection

http://www.niftyadmin.cn/n/5432770.html

相关文章

网络工程师——2024自学

一、怎样从零开始学习网络工程师 当今社会,人人离不开网络。整个IT互联网行业,最好入门的,网络工程师算是一个了。 什么是网络工程师呢,简单来说,就是互联网从设计、建设到运行和维护,都需要网络工程师来…

树莓派自动拷贝U盘的视频

要在树莓派上实现插入U盘后自动拷贝其中的视频文件到本地,你可以使用Python脚本结合udev规则来检测U盘插入事件,并使用shutil库来拷贝文件。以下是一个简单的示例来实现这个功能: 第一步:编写Python脚本 创建一个Python脚本&…

用 bsdtar 做 Linux 全系统迁移 - 最省空间、最灵活的Linux系统迁移方式,但需要那么一点点技巧

(首发地址:学习日记 https://www.learndiary.com/2024/03/migrate-linux-with-bsdtar/ ) 我们在做 Linux 全系统迁移的时候,可以直接备份磁盘或分区(如 dd ),也可以备份全部文件(如…

【Linux进阶之路】HTTP协议

文章目录 一、基本概念1.HTTP2.域名3.默认端口号4.URL 二、请求与响应1.抓包工具2.基本框架3.简易实现3.1 HttpServer3.2 HttpRequest3.2.1 version13.2.2 version23.2.3 version3 总结尾序 一、基本概念 常见的应用层协议: HTTPS (HyperText Transfer Protocol Sec…

移动通信网络AT指令

AT 命令是用来控制 TE(如 PC 等用户终端)和 MT(如移动台等移动终端)之间交互 的规则 AT 命令的返回值包括两部分,响应信息和结果码。 PLMN 移动通信网络PLMN = MCC + MNC,PLMN由MCC移动国家码和MNC移动网络码组成,例如:中国移动GSM的PLMN为:46000(MCC:460, M…

i.mx6quard uboot 之nand

过段时间板子就要到了,虽然之前做过A8的,但那已是三年前的事情了,现在必须的再温习一下,一下为分析概要 顶层的Makefile先包含 一、 110 111 MKCONFIG : $(SRCTREE)/mkconfig 112 export MKCONFIG mkconfig里通过…

【爬虫介绍】了解爬虫的魅力

爬虫 爬虫(Spider)是一种自动化程序,通过模拟人的行为,在互联网上收集、抓取和提取信息。爬虫通常用于网站数据抓取、搜索引擎索引、数据分析和挖掘等领域。 爬虫可以自动访问网页,按照预定的规则抓取网页上的文本、…

排序链表的三种写法

题目链接:https://leetcode.cn/problems/sort-list/?envTypestudy-plan-v2&envIdtop-100-liked 第一种,插入排序,会超时 class Solution {public ListNode sortList(ListNode head) {//插入排序,用较为简单的方式解决ListNo…