不同学习任务的评价方法

news/2024/7/9 23:50:49 标签: 数据, 分类, 目标检测, 分割, 评判标准

    图像识别分析数据集是一个多分类数据集,在预测结果评估过程中与需要注意一些问题[Everingham M]:

1. 在图像分类任务中,仅用一个标签标示样本,而图像中可能包含多个类别的物体。面对这种问题,可以借鉴图像检索的评估思路,使用top @k 模型对模型进行评估,只要前k个标签中有一个正确的,就算分类正确。
2. 每类物体的样本数量分布不均匀,避免使用准确率(accuracy)等对有偏数据集上的结果评估不佳的方法。这一现象尤其在物体检测中明显:当使用滑窗算法时可能会面对大比例的负样本这一情况。
3. 评估算法需要有普适性,具有与算法无关的独立性。需要构造一个适用于图像分类、物体检测以及图像分割等多种任务的统一评估方案。

    针对以上问题,我们将图像分类、物体检测和图像分割问题全部都看作对N个相互独立类别的二分类问题,从而将多种任务的评估问题统一到图像分类的评估体系中,增强评估方案的有效性和可行性。

分类">1. 图像分类

    在图像分类任务的研究中,通常使用多类别混淆矩阵及其衍生的统计量评估各个算法的性能。得到混淆矩阵后,可以对分类器整体性能和单一分类器性能评估,从而全面地评估分类模型的性能。
    对于多分类问题的整体分类精度,通常使用整体分类精度(Overall accuracy)进行评估。总体分类精度只考虑了对角线方向上被正确分类的像元数,而Kappa系数则同时考虑了对角线以外的各种漏分和错分像元。可以利用Kappa系数评估分类模型的整体精度,当Kappa系数的值大于0.80时,意味着分类数据和检验数据的一致性较高,即分类精度较高。
    对于整体分类精度的评估并不能完全反应单个分类器的性能。一般可以根据混淆矩阵得到每个分类器的准确率(accuracy) 、精确率(precision)、召回率(recall),绘制ROC曲线、PR曲线,从而评估表分类器精度的高低。
    平均正确率(Average Precision, AP)最初用于信息检索IR的评价指标,它是对不同召回率点上的正确率进行平均。直观地来看,AP就是PR曲线下的面积,这里average的含义是对recall取平均。而平均正确率均值mean average precision,其中mean的含义是对所有类别取平均(每一个类当做一次二分类任务)。现在的图像分类论文基本都是用mAP作为标准。
    对于大规模的数据集,比如ImageNet[Olga Russakovsky*]有1000类共一千万张图像,对大量样本的分类计算量十分巨大。该数据集的分类任务评估采用了总体错误率,当分类错误时累加1最后求均值,该指标是总体正确率(Overall Accuracy)的补集。在该数据集上采用top-1 error和top-5 error对各个模型评估、排序的结果基本一致,最终单独使用top-5 error作为图像分类的评价指标。

目标检测">2. 目标检测

    目标检测需要同时实现目标定位和目标识别两项任务。其中,通过比较预测边框和ground truth边框的重叠程度和阈值的大小判定目标定位的正确性;通过置信度分数和阈值的比较确定目标识别的正确性。以上两步综合判定目标检测是否正确,最终将目标检测转换为“检测正确、检测错误”的分类问题,从而可以构造混淆矩阵,使用目标分类的指标评估模型精度。
**重点内容**PASCAL Visual Object Classes Challenge2007 (VOC2007) [Everingham]数据集使用P-R曲线进行定性分析,使用average precision(AP)定量分析模型精度。重复检测同一目标只算一次正确,其余判为错误。
重点内容对于大规模数据集ImageNet[Olga Russakovsky*],为每一个类别的检测结果计算精确率(Precision)、召回率(Recall)。对于每个目标类别的最终评测指标是平均精度(AP),即P-R曲线的积分值。单目标类别检测AP最高者获胜,检测目标类别获胜数目最多的团队赢得目标检测的挑战。

分割">3. 图像分割

    像素级图像分割的评估问题也可以转换为分类模型的评估。ISPRS[ISPRS]提出了一种经典的基于累加混淆矩阵的分类精度评估方法。首先将原始图像划分为treue ortho photo (TOP) tiles,然后统计tile中每一个像素点所属的类别,从而构建基于像素的混淆矩阵,最后将每个tile的混淆矩阵累加起来得到累加混淆矩阵(accumulated confusion matrix)。得到累加混淆矩阵后,就可以计算精确率(Precision)、召回率(Recall)、F1 score等精度指标,从而评估分割性能。
    PASCAL Visual Object Classes Challenge2007 (VOC2007) [Everingham]数据集采用的评估指标是平均分割准确率,即所有类的分割准确率的算术平均值。每一类的分割准确率是正确分割的像素点数目除以该类ground truth的像素点数目(实际上是精确率Precision)。

Reference

Olga Russakovsky*, Jia Deng*, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg and Li Fei-Fei. (* = equal contribution) ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015

Everingham M, Van Gool L, Williams C K I, et al. The pascal visual object classes (voc) challenge[J]. International journal of computer vision, 2010, 88(2): 303-338.

2D Semantic Labeling Contest. ISPRS
http://www2.isprs.org/commissions/comm3/wg4/semantic-labeling.html


http://www.niftyadmin.cn/n/569478.html

相关文章

跨平台Caffe及I/O模型与并行方案(一)

摘要 Caffe(Convolutional Architecture for Fast Feature Embedding)是一个清晰,模块化,速度快的深度学习框架。“跨平台Caffe及I/O模型与并行方案”系列文章针对Caffe依赖包繁杂,可移植性差的缺点,介绍一种采用第三方库的跨平台…

跨平台Caffe及I/O模型与并行方案(二)

2. 跨平台Caffe Caffe繁杂的依赖项增加了安装使用的难度,也限制了系统的可移植性。为了解决Caffe跨平台的问题,本章首先分析Caffe依赖库,随后提出一种第三方库方案,最后介绍一个轻量级的跨平台Caffe分支项目——Dragon Caffe[2]。…

跨平台Caffe及I/O模型与并行方案(三)

3. Caffe I/O模型 Caffe支持GPU加速模式,这种异构程序设计对于I/O模型的效率有更高的要求。Caffe通过引入多重预缓冲来弥补内存与显存带宽的较大差距,使用主存管理自动机控制内存与显存的数据传输与同步,从而达到隐藏传输时间、提高计算资源利…

跨平台Caffe及I/O模型与并行方案(四)

4. Caffe多GPU并行方案 4.1 多GPU并行概述 得益于训练数据的爆炸性增长和计算性能的巨大提升,深度学习算法能够学习数据的分布和分层的特征表示,从而更好地解决模式分析和分类等任务。面对巨大的数据规模和复杂的深度学习模型,目前主流的单G…

跨平台Caffe及I/O模型与并行方案(五)

5. 参数服务器 5.1 背景介绍 在机器学习和深度学习领域,单机已经解决不了目前快速增长的数据和参数了,分布式的优化已经成了一种先决条件。现实中,训练数据的数量可能达到1TB到1PB之间,而训练过程中的参数可能会达到109到1012。而…

生成式模型 生成对抗网络——资料梳理(专访资料 + 论文分类)

文献整理 题目 主要内容 GAN综述 【1】 「无中生有」计算机视觉探奇 (下) 1. 1)超分辨率重建;2)图像着色;3)看图说话;4)人像复原&am…

对抗样本和对抗网络

前言:本文转载lancezhange 的博文《对抗样本和对抗网络》,文章介绍了对抗样本的概念和相关文献,并且进一步介绍了生成式对抗网络(Generative Adversarial Nets, GAN)。 所谓对抗 样本是指将实际样本略加扰动而构造出的…

Ubuntu系统安装Java JDK和HDFView

前言: 博主在复现Alec Radford的工作(Deep Convolutional Generative Adversarial Networks,DCGAN)对应的github开源项目Newmu/dcgan_code时,需要利用fuel将原始数据转换为hdf5格式。为了观察转换后的hdf5文件内容&#xff0…