Centralized Feature Pyramid for Object Detection解读

news/2024/7/10 0:32:55 标签: 目标检测, 人工智能, 计算机视觉

Centralized Feature Pyramid for Object Detection

问题

主流的特征金字塔集中于层间特征交互,而忽略了层内特征规则。尽管一些方法试图在注意力机制或视觉变换器的帮助下学习紧凑的层内特征表示,但它们忽略了对密集预测任务非常重要的被忽略的角点区域。

核心思想

提出了一种基于全局显式集中式特征规则的中心化特征金字塔(CFP)对象检测方法

  • 空间显式视觉中心策略,其中使用轻量级MLP来捕捉全局长距离依赖关系,并使用并行可学习视觉中心机制来捕捉输入图像的局部角区域
  • 以自上而下的方式对常用特征金字塔提出了一种全局集中的规则,其中使用从最深层内特征获得的显式视觉中心信息来调整正面浅层特征。

方法

Centralized Feature Pyramid(CFP)

作者提出的CFP不仅能够捕获全局长距离依赖关系,而且能够实现全面和差异化的特征表示

具体的流程如下:

  1. 将输入图像馈送到骨干网络,以提取五层的特征金字塔X,其中特征X i _{i} i(i=0,1,2,3,4)的每一层的空间大小分别为输入图像的1/2,1/4,1/8,1/16,1/32。
  2. 特征金字塔的顶层(即X4)使用了一个EVC结构:提出了一种lightweight MLP架构来捕获X 4 _{4} 4全局长距离依赖关系(与基于多头注意机制的transformer encoder相比,轻量级MLP架构不仅结构简单,而且体积更轻,计算效率更高);一个可学习的视觉中心机制与轻量级MLP一起用于聚集输入图像的local corner regions。基于所提出的ECV,为了使特征金字塔的浅层特征能够同时以高效模式从最深特征的视觉集中信息中受益,其中从最深的层内特征获得的显式视觉中心信息用于同时调节所有的前浅特征(使用GCR调节X3和X2)。
  3. 这些特征聚合到一个解耦的头部网络中进行分类和回归。
    在这里插入图片描述

Explicit Visual Center (EVC)

EVC主要由两个并行连接的块组成,lightweight MLP 和 LVC。这两个块的结果特征图沿着信道维度连接在一起,作为用于下游识别的EVC的输出。在X4和EVC之间,Stem块用于特征平滑,而不是直接在原始特征图上实现。Stem块由输出通道大小为256的7×7卷积组成,随后是批量标准化层和激活功能层。
在这里插入图片描述

Lightweight MLP

本文提出的轻量级 MLP 由两个残差模块组成:基于深度可分离卷积的模块(增加特征的表示能力并减少计算量)和基于通道MLP的模块。其中,MLP 模块的输入是深度可分离卷积模块的输出。这两个模块都经过了通道缩放和 DropPath 操作以提高特征泛化和鲁棒性。与空间 MLP 相比,通道 MLP 不仅可以有效地降低计算复杂度,还可以满足通用视觉任务的要求。

空间 MLP 相比,通道 MLP 不仅可以有效地降低计算复杂度,还可以满足通用视觉任务的要求。最后,两个模块都实现了通道缩放、DropPath 和残差连接操作。

Learnable Visual Center (LVC)

LVC 是一个具有内在字典的编码器,由一个固有的码本(B={b1,b2,…,bK},其中N=H×W是输入特征的总空间数,其中H和W分别表示特征图的高度和宽度的空间大小)和一组可学习的视觉中心比例因子(S={s1,s2,…,sK})组成。

LVC 的处理过程包括两个主要步骤:

  1. 使用一组卷积层对输入特征进行编码,并使用 CBR 块进行进一步处理;

  2. 将编码后的特征通过一组可学习的比例因子与固有码本相结合。

  3. 为此,我们使用一组比例因子s按照顺序地使xi和bk映射相应的位置信息。整个图像中关于第k个码字的信息可以通过以下方式计算(可以看成一个softmax的值当作权重因子):
    在这里插入图片描述

    其中,xi是第i个像素点,bk是第k个可学习的视觉码字,sk是第k种比例因子也是设置的可学习的参数。 xi− bk是关于相对于码字的每个像素位置的信息。K是视觉中心的总数。

之后使用一个完全连接层和一个 1×1 卷积层来预测突出的关键类特征。最后,将来自 Stem 块 X i n _{in} in的输入特征和比例因子系数的局部角区域特征进行通道乘法通道加法

Global Centralized Regulation (GCR)

因为EVC计算的是特征层内部的关系,对每个层计算EVC是一笔不小的开销,所以作者使用全局集中特征规范 Global Centralized Regulation (GCR) 在整个特征金字塔上实现跨层特征规范化。

实现:将深层特征上采样到与低层特征相同的空间尺度,然后沿通道维度进行拼接,将拼接后的特征通过 1×1 卷积降采样到 256 个通道。

实验结果

在这里插入图片描述


http://www.niftyadmin.cn/n/5152034.html

相关文章

PTA:前序序列创建二叉树

前序序列创建二叉树 题目输入格式输出格式输入样例(及其对应的二叉树)输出样例 代码 题目 编一个程序,读入用户输入的一串先序遍历字符串,根据此字符串建立一个二叉树(以二叉链表存储)。 例如如下的先序遍…

2023面试知识点三

1、强软弱虚引用 强引用 当内存不足的时候,JVM开始垃圾回收,对于强引用的对象,就算是出现了OOM也不会对该对象进行回收,打死也不回收~! 强引用是我们最常见的普通对象引用,只要还有一个强引用指向一个对象…

[SSD综述 1.4] SSD固态硬盘的架构和功能导论

依公知及经验整理,原创保护,禁止转载。 专栏 《SSD入门到精通系列》 <<<< 返回总目录 <<<< ​ 前言 机械硬盘的存储系统由于内部结构, 其IO访问性能无法进一步提高,CPU与存储器之间的性能差距逐渐扩大。以Nand Flash为存储介质的固态硬盘技术的发展,…

Dubbo捕获自定义异常

一.问题描述 Dubbo远程服务提供者抛出的自定义异常无法被消费方正常捕获&#xff0c;消费方捕获的自定义异常全部变成RuntimeException&#xff0c;使用起来很不方便。 二.原因分析 相关源码 /** Licensed to the Apache Software Foundation (ASF) under one or more* con…

uniapp小程序砸金蛋抽奖

砸之前是金蛋png图片&#xff0c;点击砸完之后切换砸金蛋动效gif图片&#xff1b; 当前代码封装为砸金蛋的组件&#xff1b; vue代码&#xff1a; <template><view class"page" v-if"merchantInfo.cdn_static"><image class"bg&qu…

PTA: h0116. 波兰表达式

波兰表达式 题目输入格式输出格式 提示输入样例输出样例 代码 题目 &#xff08;PTA题目描述有误&#xff0c;应该是波兰表达式&#xff09;逆波兰表达式是一种把运算符前置的算术表达式&#xff0c;例如普通的表达式2 3的逆波兰表示法为 2 3。逆波兰表达式的优点是运算符之间…

【每日一题】重复的DNA序列

文章目录 Tag题目来源题目解读解题思路方法一&#xff1a;哈希表方法二&#xff1a;哈希表滑动窗口位运算 写在最后 Tag 【哈希表】【位运算滑动窗口哈希表】【字符串】【2023-11-05】 题目来源 187. 重复的DNA序列 题目解读 找出字符串中重复出现的字符串。 解题思路 方法…

VBA根据Excel内容快速创建PPT

示例需求&#xff1a;根据Excel中选中的单元格内容&#xff08;3列&#xff09;如下图所示&#xff0c;在已打卡的PowerPoint文件中创建页面。 新增PPT Slide页面使用第二个模板页面&#xff0c;其中包含两个文本占位符&#xff0c;和一个图片占位符。将Excel选中区域中前两列写…