Adversarial pan-sharpening attacks for object detection in remote sensing

（对抗性泛锐化攻击在遥感目标检测中的应用）

全色锐化是遥感系统中最常用的技术之一，其目的是将纹理丰富的PAN图像和多光谱MS图像融合，以获得纹理丰富的MS图像。随着深度学习的发展，基于CNN的泛锐化方法近年来受到越来越多的关注。由于全色锐化技术可以融合Pan和MS图像的互补信息，研究人员通常将目标检测器应用于这些全色锐化图像以获得可靠的检测结果。然而，最近的研究表明，基于深度学习的对象检测方法容易受到对抗性示例的影响，即，在干净的图像中添加难以察觉的噪声可以欺骗训练有素的深度神经网络。将泛锐化技术与对抗性示例相结合来攻击遥感中的目标检测器是一件有趣的事情。在本文中，我们提出了一个框架来生成对抗泛锐化图像。具体来说，我们提出了一个双流网络来生成泛锐化图像，然后利用形状损失和标签损失来执行攻击任务。为了保证泛锐化图像的质量，利用感知损失来平衡频谱保持和攻击性能。

介绍

由于技术限制,最先进的光学地球观测卫星,如QuickBird, GeoEye和IKONOS,通常携带两种光学传感器:全色传感器和多光谱传感器。全色(Pan)传感器记录的信号在宽波段和需要高空间但低光谱分辨率图像。在相反的位置,多光谱(MS)传感器记录的信号在狭窄的波段和需要高光谱但低空间分辨率图像。然而，在实际应用中，我们总是需要同时使用高空间分辨率和高光谱分辨率的图像。为了解决这个问题，泛锐化提出了通过融合来自MS和Pan模态的信息来获得高分辨率MS图像。由于传统的泛锐化算法受到线性度的限制，因此不能有效地学习Pan图像中的细节并将其注入到MS图像中。为了克服传统泛锐化算法的不足，近年来提出了许多基于深度学习的泛锐化算法。由于全色锐化图像同时具有高空间分辨率和高光谱分辨率的优点，在遥感领域被广泛应用于各种目标探测器，以达到可靠的目标探测效果。
随着近年来深度学习的发展，已经提出了许多基于卷积神经网络（CNN）的对象检测算法。R-CNN是使用CNN进行对象检测的开创性工作，它采用了基于选择性搜索的区域建议方法。随后，基于区域建议网络（RPN）的两阶段目标检测方法被提出并得到广泛应用。然而，这些算法被证明对对抗性示例不鲁棒。一些研究还推荐了一些攻击CNN检测模型的方法。Xie等人首先提出DAG来攻击图像对象检测器。他们为每个地面事实分配一个对抗性标签，然后执行迭代梯度反向传播来误导检测器。类似地，Chen等人和Li等人利用相同的方法来获得对抗性扰动。上述方法只对自然场景图像进行攻击，对遥感图像不进行攻击。
感兴趣的是在遥感图像上产生扰动以攻击对象检测器。一个简单的想法是为泛锐化图像生成对抗性噪声。然而，研究人员已经提出了许多基于对抗性噪声的特征来检测这种对抗性样本的方法。为了保证加密性，本文将泛锐化技术集成到生成对抗性示例的过程中，并提出了一种对抗性泛锐化攻击（APA）方法来攻击遥感中的目标检测器。为了更好地保留Pan和MS图像的空间细节和光谱信息，我们特别提出了一个双流泛锐化网络（TSPSNet）来生成泛锐化图像并修改损失函数，以便生成的泛锐化图像作为对抗性的例子来攻击基于RPN的检测器。修改后的损失函数被用来添加对抗性噪声的泛锐化图像，可以干扰预测的RPN。具体而言，标签损失用于降低正建议的预测置信度，并且形状损失可以破坏RPN中的边界框回归过程。此外，为了保持泛锐化图像的视觉质量，感知损失用于增强光谱特征。我们的方法在单个阶段生成对抗性泛锐化图像更有效，并且可以以端到端的方式进行训练，与原始泛锐化网络相比，不需要额外的时间来生成对抗性噪声。图1显示了我们提出的方法攻击Faster R-CNN检测器的一些示例，这使得检测器获得错误的结果。请添加图片描述

贡献

1）我们提出了一种新的方法来利用泛锐化图像攻击对象检测器。据我们所知，这是首次将泛锐化技术应用于生成对抗图像。
2）我们设计了一个新的泛锐化框架攻击对象检测器。全色锐化网络可以以端到端的方式进行训练，并且保留空间细节和光谱信息。
3）实验结果表明，该方法可以产生有效的对抗泛锐化图像，保持了较高的成功率的白盒攻击和实现可转移的黑盒攻击。特别是，APA分别获得了Faster R-CNN和SSD的0.798和0.535的检测精度下降。结果表明，该方法是有效的，具有一定的通用性。

相关工作

Pan-sharpening based on deep learning

目前，卷积神经网络（CNN）被广泛用于图像融合任务。在遥感领域，CNN也有利于泛锐化。Masi等人首先介绍了泛锐化卷积神经网络（PNN）模型，其结构类似于SRCNN。PNN通过三层卷积学习从低分辨率到高分辨率的映射关系。由于全色锐化的输入是两个图像，因此预内插的MS图像与PAN图像在输入层处堆叠以跟随SRCNN的输入。为了进一步提高融合性能，Zhong等人设计了一种两级全色锐化架构，该架构也采用SRCNN来增强MS的分辨率，然后通过Gram-Schmidt变换添加全色细节以获得全色锐化图像。随着残差网络的出现，Wei等人使用残差学习来提升空间-光谱精度。此外，Wu等人开发了一种多目标决策优化算法，以实现泛锐化图像中空间和光谱信息之间的平衡。以前的研究认为泛锐化是一个超分辨率问题，并利用CNN作为工具来提取空间或光谱特征。它们没有充分利用Pan和MS的个体特征。最近，Zhou等人提出了一种双流网络（FusionNet），用于分别从Pan和MS中提取特征，然后将它们连接起来以重建泛锐化图像。该网络可以保存空间和光谱信息。因此，我们参考FusionNet的结构，并提出TSPSNet来生成泛锐化图像。

Object detection

目标检测是计算机视觉领域的一个重要应用。目前，目标检测模型分为两类，一阶段方法和两阶段方法。RCNN作为两阶段方法之一，基于选择性搜索生成数千个自下而上的区域建议，然后利用CNN对建议进行分类。继R-CNN之后，Faster RCNN使用统一架构（区域建议网络）作为选择性搜索的替代，该选择性搜索通过各种固定大小的锚点预测检测候选框。为了减少实际使用的推理时间，提出了一个单阶段检测器，如YOLO和LAMD，以在回归过程中直接预测检测框的坐标。此外，FCOS和ATSS引入了用于无锚检测的中心度分支。

Adversarial attack on deep learning

Szegedy等人首先发现了CNN在图像分类任务中的弱点。他们将对抗性扰动生成的难题转化为优化问题。FGSM被提出来有效地找到最优的最大范数约束扰动。在此基础上，Kurakin等人扩展了FGSM，并提出了I-FGSM来迭代地生成扰动。同时，MIFGSM将动量集成到I-FGSM中，并实现了更高的攻击性能。除了精心制作的扰动之外，对抗补丁是生成对抗示例的另一种方法。构建PS-GAN框架以生成任何风格的基于补丁的扰动，这确保了攻击能力和视觉自然度。为了进一步提高感知局部微小干扰的能力，Gao等人，Liu等人成功地为现实世界的攻击生成了通用和强大的对抗补丁。
与图像分类任务相比，生成对抗对象检测的对抗性示例是一个非常困难的问题。DAG是Xie等人提出的第一种攻击图像分类器的方法。他们为每个地面实况分配一个对抗性标签，然后执行迭代梯度反向传播来误导检测器。类似地，Chen等人和Li等人使用相同的方法来获得对抗扰动。此外，Lu等人试图通过在stop符号和face上添加对抗性扰动来错误分类相应的检测器。最近，提出了一种U-DOS算法来推导针对对象检测的通用对抗性扰动，这可能导致对象检测器无法在大多数图像上找到任何对象。所有这些方法都是基于优化的方式攻击目标检测器，并且具有非常高的计算成本。为了解决这个问题，Wei等人提出了一种名为UEA的统一方法，用于基于生成对抗网络（GAN）框架生成对抗图像和视频。类似地，Xiaoet等人设计了一种自适应的面向对象的对抗机制来生成对抗扰动。本文借鉴UEA的思想，提出了一种适用于遥感领域的对抗性泛锐化攻击（APA）方法。

方法

图2示出了所提出的APA方法的总体流程图，其基本上由两个部分组成：全色锐化模块和攻击模块。泛锐化模块使用L _l1损失和L_per损失来生成泛锐化图像。请添加图片描述
攻击模块通过L_shape和L_label损失将生成的泛锐化图像变成对抗图像。整个网络可以端到端地训练，输入是平移图像和预插值的MS图像，输出是对抗性的平移锐化图像。在测试阶段，我们简单地使用泛锐化模块来生成对抗性的泛锐化图像，而不是任何其他耗时的操作。

Problem formulation

令X_P ∈ $R^{H×W}$ 表示具有大小H ×W的Pan图像，并且X_M ∈ $R^{H×W ×N}$ 表示具有与Pan图像相同大小的上采样MS图像（N表示频带数）。为方便起见，我们使用Φ（·）表示用于泛锐化的CNN。然后（X_P，X_M）∈ $R^{H×W ×N}$ 且¯Φ（X_P，X_M）∈ $R^{H×W ×N}$ 分别表示泛锐化图像和对抗泛锐化图像。假设（B_i，C_i）是（X_P，X_M），其中B_i是边界框，并且C_i是类别。我们希望¯Φ（X_P，X_M）可以攻击检测器D，使得检测结果为（¯B_i，¯C_i）。其中¯C_i≠ C_i或¯B_i与B_i之间的IOU小于0.3。为了测量APA的性能，我们通过计算mAP（平均平均精度）来比较检测精度。Φ（X_P，X_M）和¯Φ（X_P，X_M）。

Pan-sharpening network

为了获得更好的泛锐化效果，我们在本模块中提出了一种称为TSPSNet的双流泛锐化网络。TSPSNet的详细架构如图3所示。请添加图片描述
TSPSNet由特征提取、特征重建和图像生成三个模块组成。在特征提取模块中，TSPSNet使用双流网络分别从Pan和MS图像中提取各个特征图。每个子网络包含两个连续的卷积单元（一个卷积层和一个relu层）和一个下采样卷积层。然后，将两个特征图连接在一起，以馈送到特征重建模块中的另一个卷积单元和下采样层。从图3中我们可以看到，特征图的空间和光谱分辨率每两个卷积单元被上采样。为了恢复在下采样过程中丢失的更多细节，TSPSNet在浅特征图和深特征图之间添加跳过连接。通过以上两个模块，TSPSNet可以完整地获取空间和光谱信息。TSPSNet的最后一个模块是图像生成，网络以tanh层结束，并输出所需的高分辨率4波段MS图像。

Loss function

损失函数在许多基于CNN的方法中起着重要的作用。在本文中，选择L₁损失作为全色锐化损失函数，因为几项研究已经证实L₁在图像重建任务的优势。给定训练样本（X_P，X_M，G），G是原始MS图像，L₁损失可表示为：在这里插入图片描述
正如我们上面所讨论的，我们的目标是生成一个对抗性的泛锐化图像，以欺骗检测器中的RPN。为了解决这个问题，我们使用如下描述的标签损失L_label和形状损失L_shape：
Label loss：
类似于对象检测器的现有对抗扰动方法，标签损失L_label用于通过降低正建议的预测置信度来扰动RPN建议的预测标签。标签损失L_label定义为：
在这里插入图片描述
其中n是正proposal的数量，m是proposal的总数，p_i ∈ { 0，1 }，其中如果第i个proposal是正的，则p_i = 1，否则为负。μ_i是第i个proposal的预测置信度。当这是一个正的proposal，μ_i>λ₁或第i个proposal的边界框与相应的地面实况之间的IOU（intersect-over-union）大于λ₂。在我们的方法中，我们设置λ1 = 0.01且λ2 = 0.3 。
Shape loss：
形状损失L_shape可以破坏RPN中的边界框回归过程。形状损失L_shape定义为：
在这里插入图片描述
其中t-box_i表示第i个proposal的边界框，g-box是相应的groundtruth。
为了减少L_label和L_shape对全色锐化视觉质量的影响，我们还添加了感知损失，

最后，我们的全损失函数可以表示为：

这些损失的相对权重由α、β和δ确定。我们设置这些权重（α = β = 0.5，δ = 0.1），使得每个损失的平均梯度处于相同的尺度。然后对抗性泛锐化图像¯Φ（X_P，X_M）可以通过优化min L来获得。