CAVER: Cross-Modal View-Mixed Transformer for Bi-Modal Salient Object Detection

news/2024/7/10 0:34:46 标签: transformer, 目标检测, 深度学习

目录

一、论文阅读笔记:

1、摘要:

2、主要贡献点:

3、方法:

3.1 网络的总体框架图:

3.2 Transformer-based Information Propagation Path (TIPP)

3.3 Intra-Modal/Cross-Scale Self-Attention (IMSA/CSSA)

Q1: MHSA计算复杂度较高

A1:Patch-wise Token Re-Embedding (PTRE)

Q2:目前的MHSA只考虑空间视图上的特征对齐,而忽略了通道视图的潜在值

A2:View-Mixed Attention (VMA)

 3.4 Inter-Modal Cross-Attention (IMCA)

4、实验:

二、代码复现

1、实验细节:

2、数据集:

3、实验步骤:

3.1 将对应的代码和数据集上传到服务器上

3.2 将根目录下的datasets.py里的路径更改成自己的路径

3.3 更改对应的./configs/rgbd-2dataset.py中的路径信息

3.4 将预训练模型从给出的网址上下载下来,上传到对应文件夹 (/root/autodl-tmp/CAVER/pretrained)

3.5 安装对应的module

3.6 在两个数据集上的训练结果

三、BUGS

问题1:assert path.endswith(".jpg") or path.endswith(".png") or path,endswith(".bmp") AssertionError

问题2: TypeError: FormatCode() got an key word 'verify'

​编辑

​编辑 问题3:RuntimeError: CuDA error: no kernel imade is available for execution on the deviceCUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrectFor debugging consider passing CUDA LAUNCH BLOCKING=1.

四、提问



发表期刊及年份:TIP 2023

代码网址:https://github.com/lartpang/CAVER

一、论文阅读笔记:

1、摘要:

        大多数现有的双模态(RGB-D 和 RGB-T)显着对象检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模态信息集成。卷积操作的固有局部连通性将基于卷积的方法的性能限制在天花板上。在这项工作中,我们从全局信息对齐和转换的角度重新思考这些任务。具体来说,所提出的跨模态视图混合转换器 (CAVER) 级联了几个跨模态集成单元来构建自上而下的基于转换器的信息传播路径。CAVER 将多尺度和多模态特征集成视为建立在新颖的视图混合注意力机制之上的序列到序列上下文传播和更新过程。此外,考虑到输入令牌数量的二次复杂度w.r.t,我们设计了一种无参数补丁令牌重新嵌入策略来简化操作。RGB-D 和 RGB-T SOD 数据集的广泛实验结果表明,当配备所提出的组件时,这种简单的双流编码器-解码器框架可以超越最近最先进的方法。代码和预训练模型将在链接处可用。

2、主要贡献点:

  1. 我们引入了transformer从序列到序列的角度重新思考双模态SOD建模,从而获得更好的可解释性。
  2. 我们构建了一个自顶向下的基于transformer的信息传播路径,通过视图混合注意块增强,可以对齐RGB和深度/热模态的特征,充分利用空间和通道视图之间的模态间和模态内信息。
  3. 我们通过使用patch-wise令牌重新嵌入来提高注意中的矩阵操作,提高了transformer对多尺度特征和高分辨率特征的效率。在卷积前馈网络的帮助下,可以进一步增强特征的局部性,并且可以充分感知和探索全局和局部上下文中的关键线索。
  4. 大量的实验表明,该模型在7个RGB-D SOD数据集和3个RGB-T SOD数据集上的性能优于最近的方法。

3、方法:

3.1 网络的总体框架图:

   

3.2 Transformer-based Information Propagation Path (TIPP)

        基于transformer的信息传播路径主要是四个CMUI模块之间自上而下地信息交互和传播,前三个CMUI模块(即CMUI1、CMUI2、CMUI3)都是有三个输入(RGB流、depth/thermal流,来自下一个CMUI的输出 {f_{rgb-d/t}^{i+1}}),但是最后一个CMUI4模块只有两个输入(即RGB流、depth/thermal流)

3.3 Intra-Modal/Cross-Scale Self-Attention (IMSA/CSSA)

        IMSA和CSSA两者的结构式相同的,但相较于自注意机制而言两者在FFN(前馈神经网络)和MHSA(多头注意力机制)两部分做出了改进。如下图所示:

其中如上两部分改进的原因:

Q1: MHSA计算复杂度较高

MHSA单头的计算公式:

        Qh、Kh、Vh 分别是单个头部的查询、键和值。Wq , Wk, Wv 是对应的投影矩阵。Z = [Y1,., Yh ]W^{^{o}}W^{^{o}}是一个输出投影层。

        注意矩阵Q_{h}K_{h}^{T}的点积运算具有输入序列长度的二次复杂度w.r.t,即N^2,这限制了它处理多尺度高分辨率特征。

A1:Patch-wise Token Re-Embedding (PTRE)

        与MHSA相比,PTRE被应用于将矩阵运算从像素形式提高到逐块形式,从而将复杂度降低了p^2倍。这里,p^2是Patch-wise中的元素数量。具体做法就是将1D序列折叠成2D的形式,部分和总体图如下面两图:

Q2:目前的MHSA只考虑空间视图上的特征对齐,而忽略了通道视图的潜在值
A2:View-Mixed Attention (VMA)

        具体做法如下,值得注意的是,计算空间和通道的Z值时,计算方式不一样。

\Rightarrow 

 3.4 Inter-Modal Cross-Attention (IMCA)

        交叉注意机制和自注意机制两者之间的区别就是,自注意机制的Q、K、V是同源的,即来自同一个X,而交叉注意机制的Q、K、V是不同源的,如在IMCA中Q来自rgb流,但是K和V来自d/t流。

        d/t流与上述公式类似

4、实验:

二、代码复现

1、实验细节:

        在AutoDL平台上租的服务器,服务器型号为:RTX A4000(16GB),同时使用的相关配置为:PyTorch  1.11.0 Python  3.8(ubuntu20.04) Cuda  11.3

2、数据集:

        并未采用论文里的数据集,而是采用rsdds_1500数据集和rsdds_113数据集

3、实验步骤:
3.1 将对应的代码和数据集上传到服务器上
3.2 将根目录下的datasets.py里的路径更改成自己的路径

        由于datasets.py中有多个数据集的定义,我只更改了第一个数据集的内容,具体是(更改的地方标红)

_RGBD_SOD_ROOT = "/root/autodl-tmp/CAVER/rsdds"
_RGBT_SOD_ROOT = "<rgbtsod root>"

# RGB-D SOD
rsdds= dict(
    image=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/RGB", suffix=".bmp"),
    depth=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/depth", suffix=".tiff"),
    mask=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/GT", suffix=".png"),
)

3.3 更改对应的./configs/rgbd-2dataset.py中的路径信息

由于使用的是ResNet101d训练模型,所以需要更改对应的./configs/rgbd-2dataset.py中的路径信息。

具体做法如下(由于数据集中图片较少,只进行了训练,没有测试,所以两者都是rsdds_113):

data = dict(
    train=dict(
        name=[
            "rsdds_113",
        ],
        shape=dict(h=256, w=256),
    ),
    test=dict(
        name=[
            "rsdds_113"
        ],
        shape=dict(h=256, w=256),
    ),

3.4 将预训练模型从给出的网址上下载下来,上传到对应文件夹 (/root/autodl-tmp/CAVER/pretrained)

预训练模型网址:

Pre-trained parameters: Release All pretrained parameters. · lartpang/CAVER · GitHub

3.5 安装对应的module
3.6 在两个数据集上的训练结果

rsdds_113

 rsdds_1500

三、BUGS

问题1:assert path.endswith(".jpg") or path.endswith(".png") or path,endswith(".bmp") AssertionError

解决办法:原来对应的datasets.py中的后缀suffix没有更改,原来对应的是如上图,但是我数据集里的三个文件夹中对应的图片格式与之不同,更改成对应的后缀即可 ,如下图:

_RGBD_SOD_ROOT = "/root/autodl-tmp/CAVER/rsdds"
_RGBT_SOD_ROOT = "<rgbtsod root>"

# RGB-D SOD
rsdds= dict(
    image=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/RGB", suffix=".bmp"),
    depth=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/depth", suffix=".tiff"),
    mask=dict(path=f"{_RGBD_SOD_ROOT}/TrainDataset/GT", suffix=".png"),
)

问题2: TypeError: FormatCode() got an key word 'verify'

解决办法:我对应文件夹里的预训练模型上传出现问题,对应的.pth文件大小为0Bytes,重新上传即可

问题3:RuntimeError: CuDA error: no kernel imade is available for execution on the deviceCUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrectFor debugging consider passing CUDA LAUNCH BLOCKING=1.

解决办法:由于为了直接快速安装各种包,我直接使用 pip install -r requirements.txt 安装各种包,但是由于txt文件里有torch和torchvision的版本,与无使用的版本不同,导致我原先的版本被卸载,重新安装了对应的版本,但是由于安装是从阿里云镜像里安装的cpu版本,导致出现这个问题。所以直接换一个服务器,然后再将requirements.txt中对应的torch和torchvision的版本要求删掉,或者一步一步根据错误提示安装对应的包即可。

四、提问

问题1:SOD(显著性目标检测)和图像分割之间的区别


http://www.niftyadmin.cn/n/5305666.html

相关文章

机器学习笔记 - 什么是匈牙利算法?有什么用处?

一、什么是匈牙利算法? 匈牙利算法是一种优化算法,可以在多项式时间内解决分配问题。该算法也被称为Kuhn-Munkres 算法或Munkres 分配算法。 匈牙利算法由以下四个步骤组成。 前两个步骤执行一次,而步骤 3 和 4 则重复执行,直到找到最佳分配。该算法的输入是一个仅包含非负…

MySQL进阶篇(一)存储引擎

一、MySQL 体系结构 &#xff08;1&#xff09; 连接层 最上层是一些客户端和链接服务&#xff0c;包含本地 sock 通信和大多数基于客户端/服务端工具实现的类似于TCP/IP的通信。主要完成一些类似于连接处理、授权认证、及相关的安全方案。在该层上引入了线程池的概念&#xff…

Java Spring boot 可變參數,以及弊端

function中 不固定的參數 public boolean sendEmail(String manFrom, String manTo,String manCc, String subject, String... msg); 必須是最後一個參數&#xff0c;傳值時可以多個。 sendEmail(“a.gmail”,"b.gmail","c.gmail","subject",…

三、计算机理论-关系数据库-数据模型与数据视图;关系代数、关系演算及关系模型

数据模型 具体事物-抽象化-->概念模型-数据化-->数据模型 概念模型也称信息模型&#xff0c;在数据库设计阶段&#xff0c;由设计者按照用户的观点对数据和信息建模&#xff0c;实现对现实世界的概念抽象&#xff1b; 数据模型主要包括网状模型、层次模型、关系模型、面向…

设备树文件(dts文件)的添加与编译

一. 简介 前面说过&#xff0c;在新版本的 Linux 中&#xff0c;ARM 相关的驱动全部采用了设备树(也有支持老式驱动的&#xff0c;比较少)&#xff0c;最新出的 CPU 其驱动开发也基本都是基于设备树。所以&#xff0c;掌握设备树是 Linux 驱动开发人员必 备的技能&#xff01…

STM32疑难杂症

1.keil的奇怪问题 创建的数组分配内存到0x10000000地址的时候,数据总是莫名其妙的出现问题,取消勾选就正常了 stm32f407内部有一个CCM内存,这部分内存只能由内核控制,任何外设都不能够进行访问。这样问题就来了,如果使用keil5进行编程时勾选了这个选项(下图),则编译的…

在Centos7中:通过Docker安装MySQL5.7(保姆级)

前言 随着Docker技术的日益成熟&#xff0c;它已经成为了一种快速、高效且可靠的部署应用的方式。特别是在服务器环境中&#xff0c;Docker可以帮助我们快速地构建、运行和管理应用程序。在这篇博客中&#xff0c;我们将详细介绍如何在CentOS 7上通过Docker安装MySQL 5.7。我们…

【JVM】Java虚拟机JVM堆内存调优

Java虚拟机JVM堆内存调优 一、了解堆内存结构1.1 JDK 1.7堆内存1.2 JDK 1.8堆内存二、设置合理的堆内存大小(-Xms和-Xmx)三、调整新生代与老年代比例(-XX:NewRatio)四、新生代中Eden区与Survivor区比例(-XX:SurvivorRatio)五、启用并调整并行收集器或并发收集器六、设置垃…