使用目标之间的先验关系提升目标检测器性能

今天跟大家分享阿姆斯特丹大学等提出的用于提升目标检测和实例分割性能的新方法RP-FEM，该方法将目标之间位置的先验关系融入到feature中。

论文标题：Relational Prior Knowledge Graphs for Detection and Instance Segmentation
机构：阿姆斯特丹大学、TomTom
论文地址：https://arxiv.org/pdf/2310.07573.pdf
开源代码（即将开源）：https://github.com/ozzyou/RP-FEM
关键词：目标检测、实例分割

1.动机

在认知心理学中，人类通过理解物体之间的关系来感知世界。通过认识物体之间的关联，建立对环境的心理表征，对可能的行为进行推断，实现对这些行为结果的预测。从简单的日常活动（如过马路）到更复杂的任务（如理解自然语言、计划和决策）。

同样，在计算机视觉领域，物体之间的关系已经成为一个重要的研究方向。利用对象间的关系，计算机视觉系统可以增强图像中目标检测和分割的能力，推理它们之间的关系，构建更复杂的应用程序实现对视觉信息的深入理解。

作者提出通过建模目标之间的关系增强目标检测性能。作者引入了一个基于关系先验的特征增强模型（Relational Prior-based Feature Enhancement Model，简称RP-FEM），使用了多头注意机制来选择相关的先验，使用graph transformer model对其进行聚合。图像被表示为场景图（scene graph），使用图节点表示proposal的特征，目标关系的先验知识构成图的边。使用RPKG（Relational Prior Knowledge Graph）描述目标之间的关系，RPKG可从场景图数据集Visual Genome中获取。

将RP-FEM应用于目标检测中，可以从目标关系的角度滤除不合理的目标检测框，还能减少小目标的重复检测框。

2.方法

总体结构如下：

Relation Head通过关注场景图中的相邻节点（表示proposal）和RPKG（表示类嵌入）的相邻节点，用关系先验知识更新场景图中的每条边。原始proposal特征和预测的边输入 Graph Transformer，得到更新的场景图，从更新后的场景图中预测box和mask。

2.1 Relational Prior Knowledge Graph（RPKG）

作者利用Visual Genome数据集构造了3个不同的Relational Prior Knowledge Graph（RPKG）。将训练好的Faster R-CNN模型中倒数第二层的特征（记作 $d$ ）作为RPKG的节点，使用Visual Genome数据集中的场景图标注统计目标之间的关系，将其作为RPKG的边。作者统计了3种目标之间的关系：

（1）共同出现（Co-occurrence）：两个类别的目标在整个数据集中一起出现的频率。

（2）相对位置（Relative Orientation）：两个类别目标的相对位置，比如A在B的中间、上侧、下侧、左侧、右侧。可以存在多个选项同时出现，比如A在B的左侧和上侧。

（3）相对距离（Relative Distance）：图片中同时出现的两个目标之间的平均距离和平均标准差。

综上可构造RPKG，记作 $\mathbf{R}=\langle\mathbf{D}, \mathbf{K}\rangle$ ，其中 $\mathbf{K} \in \mathbb{R}^{C \times C \times R}$ ， $R$ 的值取决于构造RPKG时要使用的关系。

当Visual Genome数据集中的类别与COCO数据集类别名字不一致时，需要手动构造两个数据集中类别名的映射关系。

2.2 使用RPKG增强特征

利用RPKG中的先验知识增强特征，基于潜在目标的特征，从 $\mathbf{R}$ 中检索目标的关联信息，使得关联信息在proposal特征空间中表达。

首先构造场景图 $\mathbf{S}=\langle\mathbf{P}, \mathbf{E}\rangle$ ，使用proposal特征表示节点，即 $\left\{p_i, \ldots, p_{\mathcal{N}}\right\}=\mathbf{P} \in \mathbb{R}^{\mathcal{N} \times \mathcal{F}_{\mathrm{p}}}$ ，图的边表示为 $\left\{e_{i i}, e_{i j}, \ldots, e_{\mathcal{N N}}\right\}=\mathbf{E} \in \mathbb{R}^{\mathcal{N} \times \mathcal{N} \times \mathcal{F}_{\mathrm{e}}}$ 。

然后使用 $\mathbf{P}$ 和 $\mathbf{R}$ 的值计算 $\mathbf{E}$ ，即计算 $\mathbf{S}$ 中节点特征对和 $\mathbf{R}$ 中节点特征对的相似度。根据两个相邻节点之间的相似度进行加权，对 $\mathbf{R}$ 中的边值进行聚合。使用 $\mathbf{S}$ 中的每对儿节点 $\left[p_i, p_j\right] \in \mathbf{P}$ 作为query， $\mathbf{R}$ 中所有的节点 $\left[d_u, d_v\right] \in \mathbf{D}$ 作为key，计算注意力系数 $\alpha_{(i j),(u v)}$ 。对节点邻域的特征进行堆叠，利用共享权重矩阵进行线性变换，分别为 $\mathbf{S}$ 和 $\mathbf{R}$ 构造局部潜在邻域表示 $\hat{p}_{i j} \in \mathbb{R}^{\mathcal{F}_{\mathrm{p}}+\mathcal{F}_{\mathrm{p}}}$ 和 $\hat{d}_{u v} \in \mathbb{R}^{\mathcal{F}_{\mathrm{r}}+\mathcal{F}_{\mathrm{r}}}$ 。为计算 $\mathbf{S}$ 中的边 $\mathbf{E}$ ，对 $\mathbf{R}$ 中经过线性变换的边（作为value）乘以相应的注意权值。公式表示如下：

$\alpha_{(i j),(u v)}=\frac{\exp \left(\operatorname{att}\left(\mathbf{W}_q\left[p_i, p_j\right], \mathbf{W}_k\left[d_u, d_v\right]\right)\right)}{\sum_{u=0}^C \sum_{v=0}^C \exp \left(\operatorname{att}\left(\mathbf{W}_q\left[p_i, p_j\right], \mathbf{W}_k\left[d_u, d_v\right]\right)\right)}$

$=\frac{\exp \left(\operatorname{att}\left(\hat{p}_{i j}, \hat{d}_{u v}\right)\right)}{\sum_{u=0}^C \sum_{v=0}^C \exp \left(\operatorname{att}\left(\hat{p}_{i j}, \hat{d}_{u v}\right)\right)}$

$\left.e_{(i j),(k l)}=\alpha_{(i j),(k l)}\right) \mathbf{W}_v \mathbf{R}_{k l}$

$\mathbf{E}_{i j}=\mathbf{W}_{\mathrm{E}} \sum_{k=0}^C \sum_{l=0}^C e_{(i j),(k l)}$

上式中 $\mathbf{W}_q$ 、 $\mathbf{W}_k$ 、 $\mathbf{W}_v$ 、 $\mathbf{W}_{\mathbf{E}}$ 为计算query、key、value和边的值时用到的的权重。矩阵 $\mathbf{E}$ 根据先验知识图中出现的目标组合关系的先验知识来权衡proposal目标对场景图中其他目标的重要性。

2.3 上下文更新

在得到了场景图 $\mathbf{S}$ 的边 $\mathbf{E}$ 的值以后，作者使用multi-layered Graph Transformer实现上下文更新操作。上下文更新确保 $\mathbf{S}$ 中的节点特征在图中聚合，为每个节点提供更多关于整个场景的上下文以及与上下文中其他节点之间基于先验知识的关系。

在此过程中，每个节点通过消息 $m$ 获得其相邻节点的信息，并通过边矩阵 $\mathbf{E}$ 进行加权，得到上下文感知的节点 $\left\{\mathbf{z}_i, \ldots, \mathbf{z}_{\mathcal{N}}\right\}=\mathbf{Z} \in \mathbb{R}^{\mathcal{N} \times \mathcal{F}_{\mathrm{z}}}$ 。表示如下：

$\left.\mathbf{f}_{i j}^{(l)}=\mathcal{E}\left(\delta_{i j}\right)\right) \quad \quad \delta_{i j}= \begin{cases}\mathbf{E}_{i j} & \text { if } l=0 \\ \mathbf{A}_{i j}^{(l-1)} & \text { if } l>0\end{cases}$

$\mathbf{n}_i^{(l)}=\gamma_{i j} \quad \quad \gamma_{i j}= \begin{cases}p_i & \text { if } l=0 \\ \mathbf{z}_i^{(l-1)} & \text { if } l>0\end{cases}$

$\alpha_{i j}^{(l)}=\sigma\left(\operatorname{LReLU}\left(\left[\mathbf{f}_{i j}^{(l)} \oplus \mathbf{n}_i^{(l)}\right]\right)\right)$

$\mathbf{m}_i^{(l)}=\sum_{j \in \mathcal{I}} \alpha_{i j}^{(l)} \mathbf{f}_{i j}^{(l)}$

$\hat{\mathbf{z}}_i^{(l)}=\mathbf{L N}\left(\mathbf{n}_i^{(l)}+\mathbf{m}_i^{(l), \text { head }}+\mathbf{m}_i^{(l), \text { tail }}\right)$

$\mathbf{z}_i^{(l)}=\mathbf{L} \mathbf{N}\left(\hat{\mathbf{z}}_i^{(l)}+f\left(\hat{\mathbf{z}}_i^{(l)}\right)\right)$

上式中 $\mathcal{F}_{\mathrm{z}}$ 表示输出特征的维度， $l$ 表示第 $l$ 个Graph Transformer层， $\mathcal{E}$ 为应用于边特征的transformer function， $\sigma(\cdot)$ 表示softmax函数，LReLU表示Leaky ReLU激活函数， $\oplus$ 表示concat操作，LN表示LayerNorm， $f(\cdot)$ 表示2个包含Leaky ReLU的线性层。

第一个Graph Transformer使用了原始的边矩阵 $\mathbf{E}$ ，在后面的层中边矩阵会更新为 $\mathbf{A}$ :

$\mathbf{h}_i^{(l), \text { head }}=\mathcal{H}\left(\mathbf{n}_i^{(l)}\right) \quad \mathbf{h}_i^{(l), \text { tail }}=\mathcal{T}\left(\mathbf{n}_i^{(l)}\right)$

$\begin{aligned} \alpha_i^{(l), \text { head }} & =\operatorname{LReLU}\left(\mathcal{A}\left(\left[\delta_i^{\text {head }} \oplus \mathbf{h}_i^{(l), \text { head }}\right]\right)\right) \\ \alpha_i^{(l), \text { tail }} & =\operatorname{LReLU}\left(\mathcal{A}\left(\left[\delta_i^{\text {tail }} \oplus \mathbf{h}_i^{(l), \text { tail }}\right]\right)\right) \end{aligned}$

$\quad \delta_i= \begin{cases}\mathbf{E}_i & \text { if } l=0 \\ \mathbf{A}_i^{(l-1)} & \text { if } l>0\end{cases}$

$\alpha_i^{(l), \text { head+tail }}=\sigma\left(\left[\alpha_i^{(l), \text { head }} \oplus \alpha_i^{(l), \text { tail }}\right]\right)$

$\mathbf{A}_i^{(l)}=\alpha_i^{(l), \text { head+tail }} \odot\left[\mathbf{h}_i^{(l), \text { head }} \oplus \mathbf{h}_i^{(l), \text { tail }}\right]$

上式中的 $\mathcal{H}$ 和 $\mathcal{T}$ 为分别应用于head indices或tail indices的proposal特征的transformer function， $\mathcal{A}$ 为应用于concat后的节点和边特征的transformer function， $\odot$ 表示元素乘法。

2.4 mask的预测

经过上下文更新的 $L$ 次迭代后，丢弃边矩阵，将最终第 $L$ 个节点特征 $\mathbf{Z}^{(L)}$ 与原始proposal特征 $P^{box}$ 进行concat得到用于box预测的输出特征 $O^{box}$ 。用于掩码预测的输出特征 $O^{mask}$ 通过包含前景目标的proposal特征 $P^{mask}$ 与 $\mathbf{Z}^{(L)}$ 进行concat得到的。表示如下：

$\begin{aligned} & \mathbf{O}^{b o x}=\left[\mathbf{P}^{b o x} \oplus \mathbf{Z}\right] \\ & \mathbf{O}^{\text {mask }}=\left[\mathbf{P}_{\mathcal{B}\left(\mathbf{O}_{b b}\right)}^{\text {mask }} \oplus \mathbf{Z}\right]=\left[\mathbf{P}_{f g}^{\text {mask }} \oplus \mathbf{Z}\right] \\ & \end{aligned}$