Extended Feature Pyramid Network for SmallObject Detection

摘要

各种尺度的特征耦合会削弱小对象的性能,本文中,我们提出了具有超高分辨率金字塔的扩展特征金字塔网络(EFPN ),专门用于小目标检测。具体来说,我们设计了一个新模块,称为特征纹理转移(FTT ),用于同时超分辨率特征和提取可信的区域细节。此外,我们设计了一个前景 - 背景平衡损失函数来缓解前景和背景的面积不平衡。
总结
设计了一个 特征纹理转移( FTT )新模块 ,它 用于超分辨率特征和提取可信的区域细节
设计了一个 前景 - 背景平衡损失函数 来缓解前景和背景面积不平衡。

1、介绍

由于 CNN 重复使用池化层来提取高级语义,因此可以在 下采样过程中过滤掉小对象的像素
利用低级特征是提取小对象信息的一种方式。在 FPN 中,如图 1 a) 所示,小型对象必须与中型和大型对象共享相同的特征图,而像大型对象这样的简单情况可以从合适的级别提取特征。此外,如图1(b) 所示,随着对象规模的减小,FPN 底层的检测精度和召回率显著下降。图 1 表明,在普通 FPN 检测中,跨尺度的特征融合仍然削弱了小对象检测的能力。
普通的 FPN 中,跨尺度特征融合仍然削弱了小对象检测的能力
补偿小物体信息损失的另一种方法是提高特征分辨率。因此, 一些超分辨率( SR )方法被引入到目标检 测中
本文中,我们提 出了扩展特征金字塔网络( EFPN ),该 网络利用具有丰富区域细节的大规模 SR 特征来 解耦中小型目标检测 EFPN 以专门用于小型物体检测的高分辨率水平扩展了原始 FPN 。为了降低成本,我们的扩展高分辨率特征图是由嵌入特征 SR FPN-like 框架生成
在构建 vanilla 特征之后,所提出的特征纹理转移 FTT )模块首先将来自低分辨率特征的深层语义和来 自高分辨率特征参与的浅区域纹理相结合 。然后, 后续的 FPN-like 横向连接将通过量身定制的中间 CNN 特征图进一步丰富区域特征。
EFPN 的一个优点是,高分辨率特征图的生成依赖于 CNN FPN 产生的原始真实特征,而不是其他类似方法中不可靠的想象。如图1(b) 所示, EFPN 中具有可信细节的扩展金字塔级别显著提高了对小物体的检测性能。
此外,我们引入了由大规模输入图像生成的特征作为监督来优化 EFPN ,并设 计了一个前景 - 背景平衡损 失函数
主要贡献如下:
1 )我们提出了 扩展特征金字塔网络( EFPN ,它提高了小目标检测的性能。
2 )我们设计了一个关键的基于特征参考的 SR 模块, 称为特征纹理转移( FTT ),为扩展的特征金字塔 赋予可信的细节 ,以实现更准确的小目标检测
(3) 引入了一个前景 - 背景平衡损失函数 ,以引起人们对正像素的关注,缓解前景和背景的面积不平衡。

2、超分辨图像用于目标检测

一些研究将 SR 引入到物体检测中,因为小物体检测总是受益于大尺度,图像级 SR 用于存在极小物体的一些特定情况,如卫星图像和具有拥挤的图像。STDN DenseNet 的顶层采用亚像素卷积来检测小对象, 同时减少网络参数 。最近 基于参考的 SR 方法具有利用参考图像的纹理或内容增强 SR 图像的能力 。受基于参考的SR 的启发,我们设计了一种新的模块来超分辨率参考下的具有可信细节的浅特征,从而生成更适合小物体检测的特征。

3、我们的方法

首先,我们 构建了一个扩展的特征金字塔 ,它专门用于底部有高分辨率特征图的小物体。具体来说,我们设计了一个名为特征纹理转移( FTT )的新模块,为扩展的特征金字塔生成中间特征 。此外,我们采 用了一种新的前景 - 背景平衡损失函数 来进一步加强对正像素的学习。

3.1 扩展特征金字塔网络

Vanilla FPN 通过对高级 CNN 特征图进行上采样,并通过横向连接将其与较低的特征融合, 构建了一个 4 层特征金字塔 。不同金字塔级别上的特征负责不同大小的对象, 小对象检测和中等对象检测仍然耦合在 FPN 的统一底层 P2 ,如图所示
为了缓解这个问题,提出了 EFPN vanilla 特征金字塔扩展到了新的层次 ,该层次考虑了具有更多区域细节的小目标检测
我们 通过嵌入特征 SR 模块的 FPN-like 框架来实现扩展的特征金字塔 。该过程直接从低分辨率图像中生成高分辨率特征,以支持小目标检测。EFPN 的概述如图 2 所示。
顶部 4 个金字塔层由自上而下的路径构建,用于中等和大型对象检测。 EFPN 中的底部扩展包含图 2 中的FTT模块、自上而下的路径和紫色金字塔旨在捕获小物体的区域细节。更具体的说,在扩展中, EFPN 第三和第四金字塔层,分别在图 2 中用绿色和黄色层表示。在特征 SR 模块 FTT 中混合,以产生具有所选区域信息的中间特征P_3^ {'} 其中在图 2中由蓝色菱形表示。然后, 自上而下的路径将P_3^ {'} 定制的高分 辨率CNN特征图C_2^ {'}合并,产生最终的扩展金字塔层P_2^ {'}。我们 ResNet/ResNeXt stage2 中删除了一个最大池化层,并得到C_2^ {'}作为 stage2 的输出,如表 1所示。
C_2^ {'}与原始C2共享相同的表 示级别,但由于其更高的分辨率而包含更多的区域细节。
C_2^ {'}中较小的感受野也有助于更好地定位小物体,从数学上讲,所提出的EFPN中的扩展操作可以描述为
其中 表示通过 最近邻插值的双重放大。
EFPN 检测器中, 建议 size 和金字塔级别之间的映射仍然遵循 [19] 中的方式:
这里 l 表示金字塔级别, w h 表示方框建议的宽度和高度, 224 是规范的 ImageNet 预训练大小, l0 是wxh=224x224的方框方案映射到的级别目标。

3.2 FTT模块

基于图像参考的 SR 的启发 下,我们 设计了 FTT 模块来超分辨率特征,并同时从参考特征中提取区域纹 。如果没有 FTT EFPN 的第 4 P2 中的噪声将直接传递到扩展金字塔级,即淹没有意义的语义。
然而,所提出的 FTT 输出 综合了上低分辨率特征中的强语义 下高分辨率参考特征中的关键局部细节 ,但丢弃了参考中的干扰噪声。
如图 3 所示, FTT 模块的主要输入是来自第三层 EFPN 的特征图 P3 ,参考是来自第四层 EFPN 的特征图 P2。 输出P_3^ {'}可以定义为:
其中E_t(\cdot )表示纹理提取器成分,E_c(\cdot )表示内容提取器部分。 表示通过 sub 像素卷
积的双重放大, 表示特征C串联。内容提取器和纹理提取器都是由残差块组成的。
在主 stream 中,考虑到其效率,我们就将 sub-pixed 卷积 应用于 提高 来自主输入 P3 的内容特征的 空间分 辨率 sub像素卷积通过在通道维度上转移像素来增加宽度和高度维度上的像素。将卷积层生成的特征表示为F \in R^{H \times W\times C\times r^2}。亚像素卷积中的像素混洗算子将特征重新排列为 rH \times rW \times C形状 为的映射。(也就是说 经过 sub-pixed 卷积的特征图,是将原特
征图的宽度和高度放大了 r 倍,通道数不变
该运算在数学上可以定义为
其中,PS(F)_{x,y,c}表示像素混洗操作 PS(.) 之后的坐标 (x,y,c)上的 输出特征像
( 像素坐标 ) ,并且 r 表示放大因子。在我们的 FTT 模块中,为了使空间尺度加倍,我们采用 r=2
在参考 stream 中,参考特征 P2 和超分辨率内容特征 P3 的包裹被馈送到纹理提取器中。纹理提取器旨在提取用于小目标检测的可信纹理,并从包裹中屏蔽无用的噪声。
纹理和内容的最终元素添加确保了输出集成了来自输入和引用的语义和区域信息。因此,特征图 P3’ 具有从浅层特征参考P2 中选择的可靠纹理,以及从深层 P3 中选择的相似语义。

3.3训练损失

前景 - 背景平衡损失 。为了提高 EFPN 的综合质量,设计了前景背景平衡损失。常见的全局丢失会导致小物体区域的学习不足,因为小物体只占整个图像的一小部分。前景背景平衡损失函数通过两个部分提高了前景和背景的特征质量:
1 )全局重建损失
2 )正补丁损失
由于背景像素构成了图像的大部分,因此全局构造损失主要导致与真实背景特征的相似性。在这里,我们采用SR 中常用的 l1 损失作为全局重建损失L_{glob}
其中 F表示生成的特征图,F^t表示目标特征图。
正补丁丢失用于吸引人们对正像素的关注,因为严重的前景 - 背景不平衡会阻碍检测器的性能。我们使用前景区域上的l1损失作为正补丁损失L_{glob}
其中, P_{pos} 表示 ground truth 对象的块, N表示正像素的总数,并且(x,y)表示 特征图上的像
素的坐标。正补丁丢失对对象所在的区域起着更强的约束作用,强制学习这些区域的真实表示。
前景 -背景平衡损失函数L_{fbb}被定义为:
其中 \lambda 是权重平衡因子。平衡损失函数通过提高前景区域的特征质量来挖掘 true positives ,并通过提 高背景区域的特征品质来消除 false positives
总损失 。引入 2X 尺度 FPN 的特征图来监督 EFPN 的训练过程,不仅底部扩展特征金字塔级别受到监督,FTT模块也受到监督。 EFPN 的总体训练目标定义为:
是来自 2x 输入 FPN 的目标P2, 来自 2x 输入 FPN 的目标 P3

4、实验

首先,使用了微调完成实验,在实验过程中通过对有无 FTT 模块,进行了实验,同时在前景 - 背景平衡损
失函数上,通过对不同的损失权重进行设置进行了实验。

http://www.niftyadmin.cn/n/5421302.html

相关文章

FPGA AXI4总线操作教程

AXI(Advanced Extensible Interface)总线是一种高性能、低延迟的片上系统(SoC)接口标准,广泛应用于现代数字系统设计中。它允许不同的硬件组件以高效、可靠的方式进行数据传输和控制。本教程将介绍AXI总线的基本操作和…

高效Go编程: encoding/csv标准库深度解析

高效Go编程: encoding/csv标准库深度解析 引言了解encoding/csv库CSV文件的基本结构encoding/csv库的核心功能应用场景 读取CSV文件基本步骤代码示例处理不同的分隔符错误处理 处理CSV数据数据解析代码示例处理不规则数据代码示例 写入CSV文件基本步骤代码示例自定义设置错误处…

现在可以在Mac桌面上快速打开C知道进行AI提问

看,我的Mac桌面有个C知道组件,点击即可快速打开C知道页面进行提问使用,再也不需要先打开浏览器,再输入csdn.net访问网站,然后点击页面上的C知道入口。 这是如何实现的呢? 首先,我们来做一些准…

骨传导耳机哪家强?南卡、韶音和墨觉骨传导耳机的深度评测

作为一名热爱运动的音乐发烧友。在跑步运动的时候,音乐一直都是我不可或缺的伙伴。但是传统的入耳式耳机在运动中很容易脱落,而且长时间佩戴耳朵也很容易有不适感。 后来兜兜转转了好久,我找到了骨传导耳机,这个问题被解决了。骨…

STM32CubeMX 配置 STM32F103 工程:通过DAC输出正弦波

说明:STM32CubeMX 配置 STM32F103 工程,通过DAC输出正弦波,参考代码可自动计算频率,自动计算正弦数据。 先参考这篇文章配置时钟、工程输出的设置: STM32CubeMX 配置 STM32F103 工程:通过DAC生成三角波、…

高通芯片在车载系统上的主要功能?和NXP芯片的区别?

目录 高通芯片在车载系统上的主要功能? 高通芯片和NXP芯片的区别 高通芯片在车载系统上的主要功能? 高通芯片在车载信息娱乐系统(IVI)上的主要功能包括: 高性能计算:高通的骁龙汽车平台提供了强大的计算…

Kafka MQ 生产者和消费者

Kafka MQ 生产者和消费者 Kafka 的客户端就是 Kafka 系统的用户,它们被分为两种基本类型:生产者和消费者。除 此之外,还有其他高级客户端 API——用于数据集成的 Kafka Connect API 和用于流式处理 的 Kafka Streams。这些高级客户端 API 使用生产者和消…

3.6研究代码(2)

指的是微电网运行参数。 在MATLAB中,randi([0,1],1,48) 会生成一个包含1*48个0或1的随机整数数组。这意味着数组中的每个元素都将是0或1。 MATLAB帮助中心:均匀分布的伪随机整数 - MATLAB randi - MathWorks 中国https://ww2.mathworks.cn/help/matlab/r…