FSOD论文阅读 - 基于卷积和注意力机制的小样本目标检测

news/2024/7/10 0:40:21 标签: 论文阅读, 目标检测, 人工智能

来源:知网

标题:基于卷积和注意力机制的小样本目标检测
作者:郭永红,牛海涛,史超,郭铖

郭永红,牛海涛,史超,郭铖.基于卷积和注意力机制的小样本目标检测 [J/OL].兵工学报. https://link.cnki.net/urlid/11.2176.TJ.20231108.1418.002

摘要

  1. 典型的FSOD使用Fast R-CNN作为基本的检测框架
  2. 本文亮点:引入混合扩张卷积确保更大的感受野并减少图像信息的损失;提出支持特征动态融合模块,以每个支持特征和查询特征之间的相关性为权重,自适应地融合支持特征

引言

  1. 早期的FSOD算法遵循元学习范式,首先对训练数据进行采样,然后利用元学习方法训 练FSOD任务的模型,但是元学习器在学习迭代过程中容 易出现非收敛问题(学习算法无法达到一个稳定的解或最优解的状态)
  2. 基于微调的FSOD方法可有效解决非收敛问题(主要是因为这些方法利用了预先训练好的模型和知识,从而在面对有限数据时更有效地学习和适应新任务),基于微调的FSOD方法首先在大 规模基础类数据集上训练检测器,在微调过程中, 主干网络参数可被重用或冻结,而只有Box分类器和回归器是用新数据训练的
  3. Faster R-CNN算法:主要由三部分组成 - 特征提取器、区域候选网络(RPN)和检测头。
  4. Fast R-CNN的工作流程:特征提取器使用卷积神经网络来获得输入图像的feature maps。RPN将feature maps作为输入生成 候选框,并对候选框进行二元分类和粗略回归,将 分类好的候选框映射到feature maps得到感兴趣区域 (RoI)的特征矩阵,发送给后续检测网络,最后由 检测头输出分类和回归的结果
  5. 现有的二阶 段检测算法仍然存在两个明显的缺点。总结就是1、采样过程中的信息丢失. 2、用均值得到的类别融合特征向量会丢失信息
  6. 为解决以上两个问题,文章提出两个方法:1、在主干网络中引入混 合扩张卷积(HDC),以增加感受野. 2、提出了支持特征动态融合(SFDF)模块,使用每个支持特征和查询特征之间的相似性作为权重,动态地融合支持特征,充分利用支持数据

FSOD 任务概述

  1. 一阶段检测算法 - 使用主干网络对图像进行特征提取,直接对特征图像进行分类和回归,例如SSD、YOLO,优点是快,缺点是定位精度低
  2. 二阶段检测算法 - 先找到可能包含目标的RoI,然后对区域进行分类和回归,例如Fast R-CNN,优点是定位精度高,缺点是慢
  3. 综上,在做迁移学习的FSOD时,可以考虑使用以上模型做为基准模型,然后魔改模型中的某部分(本文就是这么干的),然后找到一个baseline,做效率对比
  4. 已有算法:Meta R-CNN(基于transformer)、TFA、MPSR、FSCE、CME、DeFRCN(回头可以考虑使用以上算法做为baseline然后魔改自己的模型测试性能提升)

基于卷积和注意力机制网络结构

  1. N-way K-shot: N个类别,每个类别K个样本
  2. 文章的主干网络是ResNet-101,在主干网络中加入HDC(混合扩张卷积模块)和SFDF(支持特征动态融合模块),模型示意图如下:在这里插入图片描述
  3. HDC模块:混合扩张卷积(扩张卷积:在卷积核之间引入空间,扩大卷积覆盖的范围),本文引入了一个(1, 2, 5)的扩张卷积,对比起(2, 2, 2)的扩张卷积来,感受野的范围更大,且保留了图像信息的连续性:在这里插入图片描述
  4. 扩张卷积引入了间隔,那么扩张卷积是如何保证图像信息不丢失的呢? - 卷积在滑动的过程中会走过每个像素:保证参数不变的同时扩大了感受野.
  5. SFDF模块:该模块首先计算查询特征与支持 集中每一类的每个特征之间的相似度,然后将该系数作为权重,对支持集中每一类的每个特征进行加权求和操作,这样生成的支持集特征可以包含对象最有鉴别性的信息

实验

  1. 使用 ImageNet 数据集上预训练 ResNet101 作为原始模型,使用 RoI Align 作为 RoI 特征提 取器

http://www.niftyadmin.cn/n/5182875.html

相关文章

Unity优化(1)——合并Mesh

在某些移动端项目中,对于DrawCall的要求是很严格的,我们一般查看DrawCall可以通过Statistics里面的Batches进行查看,一般移动设备的Batches要控制在200左右比较合适,所以降低Batches是很重要的。 我们常常会遇到一个物体下挂载很多…

LinkedHashMap源码分析

类结构图 从类图结构可以看出,LinkedHashMap继承自HashMap,里面很多实现都是HashMap的,这篇文章主要写出LinkedHashMap自实现的那部分 Entry LinkedHashMap的每个元素项都是一个Entry类对象,该类继承自HashMap.Node类 static c…

phalcon 访问IndexController 中只能访问indexAction方法,访问不了testAction等其它问题的解决办法

phalcon 访问IndexController 中只能访问indexAction方法,访问不了testAction,也访问不了indexAction方法,但是可以访问ArticleController里面的任意方法。访问其它方法出现这个错误“php - phalcon IndexController handler class cannot be loaded” 有人说是Apache 的rew…

Bobo Python 学习笔记

安装 Bobo 可以通过通常的方式安装,包括使用setup.py install 命令。当然,您可以使用Easy Install、Buildout或pip。 安装bobo Collecting boboDownloading bobo-2.4.0.tar.gz (17 kB) Collecting WebObDownloading WebOb-1.8.7-py2.py3-none-any.whl…

Java中生成指定字体的印章

文章目录 1.引入字体2.Windows环境下3. Linux环境下 生成印章测试类绘制方章测试类 1.引入字体 2.Windows环境下 如果在Windows上安装JAVA环境时,没有安装单独的jre1.8.0_141的话。那么字体就只放到\jdk1.8.0_141\jre\lib\fonts目前下。 3. Linux环境下 cat /etc…

Springboot SpringCloudAlibaba Nacos 项目搭建

依赖版本: spring-boot:2.3.12.RELEASE spring-cloud-alibaba:2.2.7.RELEASE spring-cloud:Hoxton.SR12 nacos:2.0.3 1.部署搭建Nacos注册中心 Linux Nacos 快速启动_nacos linux快速启动-CSDN博客 2.构建项目 源码地…

AM驱动架构—优质Mini-LED显示技术解决方案

MiniLED背光驱动方案作为一种新兴的显示技术方案,具有更高的亮度、更广的色域范围和更低的功耗等优势;以其出色的性能和广泛的应用前景备受关注是实现MiniLED显示效果的重要环节。 MiniLED背光驱动方案是指通过控制MiniLED芯片的电流和亮度,…

代码模版-实现重置按钮清空表单数据,vue+elementUI

文章目录 界面代码 界面 页面上可能会有「搜索」按钮 也会有「重置」按钮 重置 btn 的作用是为了清空前面 form 表单中的数据 代码 我们使用 elementUI vue 来做 解释:我们在 el-form 组件中加上 ref"searchFormRef",后续 js 中通过 thi…