基于深度学习的目标检测模型综述

news/2024/7/10 1:20:23 标签: 深度学习, 目标检测, 人工智能

基于深度学习目标检测模型综述

一 概论

目标检测是目标分类的自然延伸,目标分类仅旨在识别图像中的目标。目标检测的目标是检测预定义类的所有实例并通过轴对齐的框提供其在图像中的初略定位。检测器应能够识别所有目标类的实例并在其周围绘制边界框。这通常被视为一种监督学习问题。

目标检测主要挑战

计算机视觉在过去的十年取得了长足的进步,但是扔面临一些重大挑战。其中一些网络在实际应用中面临的关键挑战有:

  • 同类别的内部变异:在同一对象的实例之间存在同类别的内部变异在自然界中相对普遍。这种变异可能是由于各种原因,比如:遮挡、光照、姿态、视角等。这些不受限制的外部因素对对象的外观有戏剧性的影响。预期对象可能存在非刚性变形,或者被旋转、缩放或模糊化 。一些对象可能有不显眼的周围环境,使得提取变得困难。
  • 分类数量:可供分类的物体类别数量庞大,这使得解决此问题变得具有挑战性。此外,它还需要更多高质量的标注数据,而这种数据很难获取。使用较少的示例来训练检测器事一个开放性的研究问题。
  • 效率:当前的模型需要高计算资源来生成准确的检测结果。随着移动设备和边缘设备变得越来越普遍,高效率的物体检测器对于计算机视觉领域的进一步发展至关重要。
    在这里插入图片描述
    在这里插入图片描述

评估指标

目标检测器使用多个标准来衡量检测器的性能,如每秒帧数(FPS),精度和召回率。但是,平均精度均值是最常见的评估指标。精度是从交并比导出的,即地面真值和预测的边界框之间的重叠区域和并集区域的比率。设置阈值以确定检测是否正确。如果IOU超过阈值,则被归类为真正例,如果IOU低于它,则被归类为假正例。如果模型未能检测到标签真值中存在的对象,则被称为假负例。精度衡量的是正确预测的百分比,而召回率衡量的是真正预测与真值相关的方面。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

二 展望

目标检测在过去十年取得了巨大的进展。在某些狭窄领域,算法几乎达到了人类的准确性水平,然而仍然存在许多令人兴奋的挑战需要解决。

  • AutoML(自动机器学习):使用自动神经架构搜索(NAS)确定目标检测器特征以及是一个积极发展的领域。搜索算法是复杂且消耗资源巨大的。
  • 轻量级检测器:尽管轻量级网络通过与完整模型匹配的分类错误已经显示出巨大的潜力,但在检测准确性方面仍然存在超过50%的差距。随着越来越多的设备上机器学习应用进入市场,对小型,高效且同样准确的模型的需求会增加。
  • 弱监督/少样本检测:大多数最先进的目标检测模型实在数百万个边界框注释的数据上进行训练的,而注释数据需要时间和资源,这种训练方法无法扩展。通过使用弱监督数据,即图像级别标记的数据,可以显著降低这些成本。
  • 领域迁移:领域迁移是指在特定源任务的标记图像上训练的模型在不同但相关的目标任务上的应用。它鼓励重用已训练的模型并减少对大型数据集可用性的依赖,以实现高准确性。
  • 3D目标检测:3D目标检测对于自动驾驶来说是一个特别重要的问题。尽管模型已经达到了很高的准确性,但是低于人类水平性能的部署将带来安全担忧。
  • 视频中的目标检测目标检测器是为了在单个图像上执行而设计的,这些图像彼此之间缺乏关联。利用帧之间的时空关系进行目标识别是一个尚未解决的问题。

http://www.niftyadmin.cn/n/5097417.html

相关文章

C# 开发工具包 – 现已正式发布

作者:Wendy Breiding 排版:Alan Wang 今天,我们很高兴地宣布 C# 开发工具包正式发布,C# 开发工具包是一个 Visual Studio Code 扩展,为 Linux、macOS 和 Windows 带来了改进的编辑器优先 C# 开发体验。 谢谢社区的努…

微信小程序开发之flex布局及轮播图组件与后台Mock.js交互

目录 前言 一.flex布局 1.什么的flex布局 2.容器属性 2.1 flex-direction属性 2.2 flex-wrap属性 2.3 justify-content属性 特点: 二.轮播图 1.配置地址请求信息 2.通过方法加载轮播图数据 3.合法域名纠正 ​编辑 4.通过Mock.js模拟响应数据 5.轮播图前…

qt 读取txt文本内容时,中文乱码

项目场景: 项目中,需要在TF卡中做类似txt阅读器的功能,因为app是在嵌入式系统下运行的,发现当读取txt的文本格式为ANSI时,中文的显示是乱码,故记录下解决方法 问题解决 中文乱码问题还是涉及到编码问题&…

深入理解强化学习——强化学习智能体的四要素:模型(Model)

分类目录:《深入理解强化学习》总目录 相关文章: 强化学习智能体的四要素:策略(Policy) 强化学习智能体的四要素:收益信号(Revenue Signal) 强化学习智能体的四要素:价…

Mysql 语句优化方案—官方原版

一、概述 查询以SELECT语句的形式执行数据库中的所有查找操作。调整这些语句是当务之急,无论是实现动态网页的秒级响应时间,还是缩短几个小时来生成巨大的隔夜报告。 除了SELECT语句之外,查询的调优技术也适用于CREATE TABLE。。。作为SELECT…

UI自动化测试必备,Selenium截图方法全解析!

前言 我们执行UI自动化操作时,大多数时间都是不在现场的,出现错误时,没有办法第一时间查看到,这时我们可以通过截图当时出错的场景保存下来,后面进行查看报错的原因,Selenium中提供了几种截图的方法&#…

操作系统监控:守护您的计算机系统稳定运行的坚实防线

在数字化时代,计算机系统已成为各行业的关键支撑。为了保证系统的稳定运行,操作系统监控成为了不可或缺的技术手段。监控易运维管理软件,作为一款全面的监控解决方案,能够监控各类Windows、Linux、UNIX等操作系统,包括…

数组和对象有什么区别?

数组(Array)和对象(Object)是两种不同的数据结构,它们在使用和表示数据上有一些区别。 1:数组(Array): 有序集合:数组是一个有序的数据集合,每个…