基于深度学习的目标检测模型综述

一概论

目标检测是目标分类的自然延伸，目标分类仅旨在识别图像中的目标。目标检测的目标是检测预定义类的所有实例并通过轴对齐的框提供其在图像中的初略定位。检测器应能够识别所有目标类的实例并在其周围绘制边界框。这通常被视为一种监督学习问题。

目标检测主要挑战

计算机视觉在过去的十年取得了长足的进步，但是扔面临一些重大挑战。其中一些网络在实际应用中面临的关键挑战有：

同类别的内部变异：在同一对象的实例之间存在同类别的内部变异在自然界中相对普遍。这种变异可能是由于各种原因，比如：遮挡、光照、姿态、视角等。这些不受限制的外部因素对对象的外观有戏剧性的影响。预期对象可能存在非刚性变形，或者被旋转、缩放或模糊化。一些对象可能有不显眼的周围环境，使得提取变得困难。
分类数量：可供分类的物体类别数量庞大，这使得解决此问题变得具有挑战性。此外，它还需要更多高质量的标注数据，而这种数据很难获取。使用较少的示例来训练检测器事一个开放性的研究问题。
效率：当前的模型需要高计算资源来生成准确的检测结果。随着移动设备和边缘设备变得越来越普遍，高效率的物体检测器对于计算机视觉领域的进一步发展至关重要。

评估指标

目标检测器使用多个标准来衡量检测器的性能，如每秒帧数（FPS），精度和召回率。但是，平均精度均值是最常见的评估指标。精度是从交并比导出的，即地面真值和预测的边界框之间的重叠区域和并集区域的比率。设置阈值以确定检测是否正确。如果IOU超过阈值，则被归类为真正例，如果IOU低于它，则被归类为假正例。如果模型未能检测到标签真值中存在的对象，则被称为假负例。精度衡量的是正确预测的百分比，而召回率衡量的是真正预测与真值相关的方面。
在这里插入图片描述

在这里插入图片描述

二展望

目标检测在过去十年取得了巨大的进展。在某些狭窄领域，算法几乎达到了人类的准确性水平，然而仍然存在许多令人兴奋的挑战需要解决。

AutoML（自动机器学习）：使用自动神经架构搜索（NAS）确定目标检测器特征以及是一个积极发展的领域。搜索算法是复杂且消耗资源巨大的。
轻量级检测器：尽管轻量级网络通过与完整模型匹配的分类错误已经显示出巨大的潜力，但在检测准确性方面仍然存在超过50%的差距。随着越来越多的设备上机器学习应用进入市场，对小型，高效且同样准确的模型的需求会增加。
弱监督/少样本检测：大多数最先进的目标检测模型实在数百万个边界框注释的数据上进行训练的，而注释数据需要时间和资源，这种训练方法无法扩展。通过使用弱监督数据，即图像级别标记的数据，可以显著降低这些成本。
领域迁移：领域迁移是指在特定源任务的标记图像上训练的模型在不同但相关的目标任务上的应用。它鼓励重用已训练的模型并减少对大型数据集可用性的依赖，以实现高准确性。
3D目标检测：3D目标检测对于自动驾驶来说是一个特别重要的问题。尽管模型已经达到了很高的准确性，但是低于人类水平性能的部署将带来安全担忧。
视频中的目标检测：目标检测器是为了在单个图像上执行而设计的，这些图像彼此之间缺乏关联。利用帧之间的时空关系进行目标识别是一个尚未解决的问题。