英文论文(sci)解读复现【NO.7】基于注意机制的改进YOLOv5s目标检测算法

news/2024/7/10 0:54:45 标签: 目标检测, 深度学习, 人工智能
此前出了目标检测算法改进专栏,但是对于应用于什么场景,需要什么改进方法对应与自己的应用场景有效果,并且多少改进点能发什么水平的文章,为解决大家的困惑,此系列文章旨在给大家解读发表高水平学术期刊中的 SCI论文,并对相应的SCI期刊进行介绍,帮助大家解答疑惑,助力科研论文投稿。解读的系列文章,本人会进行 创新点代码复现,有需要的朋友可关注私信我获取。

一、摘要

为了提高YOLOv 5s(You Only Look Once v5 s)目标检测算法的准确性,提出了一种改进的YOLOv 5s目标检测算法CBAM-YOLOv 5s。卷积块注意模块(CBAM)被纳入YOLOv 5s骨干网络,以提高其特征提取能力。此外,完全交并(CIoU)损失被用作对象边界盒回归损失函数,以加快回归过程的速度。实验在Pascal Visual Object Classes 2007(VOC 2007)数据集和Microsoft Common Objects in Context(COCO 2014)数据集上进行,这些数据集广泛用于对象检测评估。在VOC 2007数据集上的实验结果表明,与原YOLOv 5s算法相比,CBAM-YOLOv 5s算法的查准率、查全率和平均查准率分别提高了4.52%、1.18%和3.09%。在COCO 2014数据集上,与原YOLOv 5s算法相比,CBAM-YOLOv 5s算法的查准率、召回率和mAP分别提高了2.21%、0.88%和1.39%。

二、网络模型及核心创新点

 

1.卷积块注意模块(CBAM)

2.完全交并(CIoU)

三、数据集

本实验中使用的数据集是Pascal Visual Object Classes 2007(VOC2007)数据集[28]和Microsoft Common Objects in Context(COCO2014)数据集。COCO 2014数据集共有80个类别的123,287张图像。VOC 2007数据集总共包含9963张图像。数据集中包括20个类,如图6所示;这些类别包括飞机、自行车、鸟、船、瓶子、公共汽车、汽车、猫、椅子、牛、餐桌、狗、马、摩托车、人、盆栽植物、羊、沙发、火车和电视监视器类别,并且相关联的XML文件提供输入图像的对象类别和对应的地面实况的坐标。

四、实验效果(部分展示)

1.消融实验

在实验训练过程中,随机梯度下降(SGD)优化算法用于更新模型参数。表3显示了在VOC2007数据集上获得的实验结果。

 通过对实验结果进行对比分析,可以得出本文算法比原算法和带SENet模块的算法具有更好的性能。SENet只包含信道关注度,只能获取信道上的重要特征信息,而CBAM不仅包含信道关注度,还包含空间关注度。它可以在信道和空间两个方面获得重要的特征信息,从而使网络能够更好地学习图像中的重要特征。网络学习的图片特征越多,它就能更好地识别物体,这将使网络的识别准确率更高。

2.比较实验

为了进一步验证改进算法的有效性,本文在COCO2014数据集上进行了对比实验。实验结果示于表4中。

从表4可以看出,与原YOLOv 5s算法相比,CBAM-YOLOv 5s算法的查准率、召回率和mAP分别提高了2.21%、0.88%和1.39%。基于表3和表4中的实验结果,可以得出结论,改进的CBAM-YOLOv 5s算法在VOC 2007数据集和COCO 2014数据集上优于原始YOLOv 5s算法。

五、实验结论

本文在YOLOv 5s骨干网中引入CBAM,优化YOLOv 5s骨干网的网络结构,并采用CIoU损失作为对象边界盒回归损失函数,加快回归过程的速度。为了验证所提出的算法的性能,进行了广泛的实验上的VOC 2007数据集。实验结果表明,与原YOLOv 5s算法相比,该算法的查准率、查全率和mAP都有显著提高;此外,使用CIOU损失是因为边界盒回归损失函数在收敛方面比GIOU损失快。本文算法在一定程度上解决了原YOLOv 5s算法检测精度不高的问题,但对于目标密集的复杂图像仍存在一定的检测误差和漏检问题。未来的研究将涉及不断优化所提出的算法的网络结构,以进一步提高其检测精度。

注:论文原文出自An Improved YOLOv5s Algorithm for Object Detection with an
Attention Mechanism本文仅用于学术分享,如有侵权,请联系后台作删文处理。

解读的系列文章,本人已进行创新点代码复现,有需要的朋友欢迎关注私信我获取

http://www.niftyadmin.cn/n/289887.html

相关文章

Wikidata实操

1. Wikidata 简介 Wikidata 即维基数据,是维基百科的一个项目。个项目已经在维基百科德国分部开始进行,项目完成之后,将会交给维基百科基金会进行操作和维护。(具体百度即可,不多赘述) 官网:htt…

前端学习之使用JavaScript(2)

前情回顾:基本 存储类型 数组 Js的数组与其它语言的数组有很大的区别。跟其他语言中的数组一样,ECMAScript 数组也是一组有序的数据。但是,Js的一个数组中可以存储不同类型的数据。 // 数组字面量表示法 let array [1, 2, true];// 构造…

阿里版ChatGPT——通义千问,开箱初体验

所有行业、所有应用、所有服务都值得基于新型人工智能技术重做一遍,在带来创造性客户体验的同时,生产范式、工作范式、生活范式也将发生变化。——阿里集团董事会主席兼CEO 张勇 2023阿里云峰会上,通义千问大语言模型对外发布,宣称…

模糊PID模糊控制(清晰化方法梯形图实现)

模糊PID的模糊化请参看下面的博客文章: 博途PLC模糊PID三角隶属度函数指令(含Matlab仿真)_plc 模糊pid_RXXW_Dor的博客-CSDN博客三角隶属度函数FC,我们采用兼容C99标准的函数返回值写法,在FB里调用会更加直观,下面给大家具体讲解代码。常规写法的隶属度函数FC可以参看下…

Springboot 项目搭建

目录 一、new project 二、pom.xml 三、配置 resources/application.yml 四、CodeGenerator 代码生成 五、在项目主启动类中&#xff0c;添加MapperScan注解 六、编写 Controller 七、选择application类&#xff0c; 点击运行 一、new project: 二、pom.xml <?xml …

JDK对容器的支持和限制

容器毕竟是一种轻量级的实现方式&#xff0c;所以其封闭性不如虚拟机技术。 1、容器环境的资源隔离性 举个例子&#xff1a; 物理机/宿主机有 96 个 CPU 内核、256GB 物理内存&#xff0c;容器限制的资源是 4 核 8G&#xff0c;那么容器内部的 JVM 进程看到的内核数和内存数是…

2023年4月《中国数据库行业分析报告》正式发布(含精彩内容概览)

为了帮助大家及时了解中国数据库行业发展现状、梳理当前数据库市场环境和产品生态等情况&#xff0c;从2022年4月起&#xff0c;墨天轮社区行业分析研究团队出品将持续每月为大家推出最新《中国数据库行业分析报告》&#xff0c;持续传播数据技术知识、努力促进技术创新与行业生…

unity中用异步的whenAny,实现:当点击铲子任一部件,拾取整个铲子

一、铲子的组成 铲子包含很多部件组成&#xff0c;当拾取铲子的时候&#xff0c;只要点击铲子的任意一个部件就可以。 如图&#xff0c;点击【木柄】、【螺母】、【铁铲】都可以拾取该物体。 &#xff08;1&#xff09;打开高亮 &#xff08;2&#xff09;等待土铲被点击&…