【目标检测】SSD损失函数详解

文章目录

定位损失 $L_{loc}$
- 偏移值的计算
- smooth L1 loss
置信率损失 $L_{conf}$

最近看看这个古早的目标检测网络，看了好多文章，感觉对损失函数的部分讲得都是不很清楚得样子，所以自己捋一下。

首先，SSD 得损失函数由两部分得加权和，一部分是定位损失 $L_{loc}$ ，另一部分是分类置信率损失 $L_{conf}$ 。公式一般写成： $\frac{1}{N}\left( L_{conf}(x, c) + \alpha L_{loc}(x, l, g) \right)$ 总结来说，定位损失 $L_{loc}$ 是使用 smooth L1 loss 来计算的，而分类置信率损失 $L_{conf}$ 是通过 softmax loss 来计算的。

定位损失 $L_{loc}$

接下来就分开讲讲两部分，首先是定位损失 $L_{loc}$ ，它的公式可以写成： $L_{loc}(x, l, g) = \sum_{i \in Pos}^{N} \sum_{m \in \left\{ cx, cy, w, h \right\}} x_{ij}^p \cdot \mathbf{smooth_{L1}}(l_i^m - \hat{g}_j^m)$ 下昂西介绍一下里面的各种参数的含义：

$\in Pos$ ：第一个求和下的 $P os$ 是一个集合，我们知道在训练的时候，会根据 IOU（SSD 里好像是大于 0.5）对 Default box（其实和 anchor 的含义一样）与 Ground truth box（后面统称 gt box）进行匹配，如果第 $i$ 个 default box 与第 $j$ 个 gt box 匹配上了，那么这个 default box $i$ 就会被放入 $P os$ 的集合中，表示 positive，也就是被标记成了正样本。
$N$ ：是正样本集合 $P os$ 的总数，表示有 $N$ 个 default box 与 gt box 匹配上了。
$\in \left\{ cx, cy, w, h \right\}$ ：这四个值是 anchor 的位置参数，表示中心点的坐标和 anchor 的尺寸。
$x_{ij}^p$ ：可以理解为唯一标识 flag，如果 default box $i$ 与 gt box $j$ 是匹配的，gt box 的类别是 $p$ ，则为1，否则 0。
$l_i^m$ ：是预测值，也就是 bounding box 与 default box 的偏移值，不是真实的坐标，具体的转换在下面给出。
$\hat{g}_j^m$ ：是真实值，是 gt box 与 default box 的偏移值。

偏移值的计算

回到前面提到的偏移值，如果 default box $i$ 的位置参数是 ${ d_i^{cx}, d_i^{cy}, d_i^{w}, d_i^{h} \}$ ，gt box $j$ 的位置参数是 ${ g_j^{cx}, g_j^{cy}, g_j^{w}, g_j^{h} \}$ ，我们就可以算出真实值对应的偏移量 $\{ \hat{g}_j^{cx}, \hat{g}_j^{cy}, \hat{g}_j^{w}, \hat{g}_j^{h} \}$ ：
$\begin{align*} \hat{g}_j^{cx} = \frac{(g_j^{cx} - d_i^{cx})}{d_i^w} & \space\space\space\space\space\space\space\space\space \hat{g}_j^{w} = \log\left( \frac{g_j^w}{d_i^w} \right)\\ \hat{g}_j^{cy} =\frac{ (g_j^{cy} - d_i^{cy})}{d_i^h} & \space\space\space\space\space\space\space\space\space \hat{g}_j^{h} = \log\left( \frac{g_j^h}{d_i^h} \right) \end{align*}$ 同理，我们也可以通过预测得到的 bounding box 参数 ${b_i^{cx}, b_i^{cy}, b_i^{w}, b_i^{h} \}$ ，来计算得到 bounding box 的偏移量，也就是预测值 $l$ 。 $\begin{align*} l_i^{cx} = \frac{(b_i^{cx} - d_i^{cx})}{d_i^w} & \space\space\space\space\space\space\space\space\space l_i^{w} = \log\left( \frac{b_i^w}{d_i^w} \right)\\ l_i^{cy} =\frac{ (b_i^{cy} - d_i^{cy})}{d_i^h} & \space\space\space\space\space\space\space\space\space l_i^{h} = \log\left( \frac{b_i^h}{d_i^h} \right) \end{align*}$

中心点的偏移量计算是很好理解的，为什么宽高的偏移量要用 log 函数来算呢？

smooth L1 loss

SSD 是用到 smooth L1 loss 来计算真实值与预测值之间的差异： $\mathbf{smooth_{L1}}(x) =\begin{cases} 0.5x^2 & \text{ if } |x|< 1 \\ |x| -0.5 & \text{ otherwise } \end{cases}$

这篇文章我觉得解释得挺清晰的，比较了 L1 loss， L2 loss 和 smooth L1 loss 三者之间的优劣。也提到了 loc loss 的演进。

bounding box 回归损失函数，也就是用于定位边界框的损失函数，其演进线路如下：

我记得 YOLOv1 的损失函数，在计算位置损失的时候，还是使用的欧式距离，也就是所谓的 L2 loss。

L1 loss 是求两个数之间的绝对值距离，导数是常数（小于 0 则为 -1，大于等于 0 则为 1），在零点处是不平滑的；

L2 loss 是两个数之间差的平方，导数是 $2 x$ （也可以看出，受到 $x$ 的影响很大），但是在零点处是平滑的。多个 L2 loss 求和再平均也叫做 MSE loss （Mean Square Error）。

而我们的主角 smooth L1 loss，如名字所见，是平滑版的 L1 loss，导数为： $\frac{ \mathrm{d} \space \mathbf{smooth_{L1}}(x)}{\mathrm{d}x} =\begin{cases} x & \text{ if } |x|< 1 \\ \pm1 & \text{ otherwise } \end{cases}$ 在零点附近都是平滑的，而且在其它区间都是常数，也不会出现 L2 loss 随着 $x$ 的增大而在损失函数中占据主导地位。

置信率损失 $L_{conf}$

下面就讲一下分类的置信率损失 $L_{conf}$ ，完整的公式如下： $L_{conf}(x, c) = - \sum_{i \in Pos}^N x_{ij}^p\log{\hat{c}_i^p} - \sum_{i\in Neg} \log{\hat{c}_i^0} \space\space\space\space \text{where} \space\space\space\space \hat{c}_i^p=\frac{\exp{(c_i^p)}}{\sum_p \exp{(c_i^p)}}$ ，从公式的形态，可以看出来是二元交叉熵。没错，其实 softmax loss 就相当于交叉熵和 softmax 的组合，先看看最后的 softmax 公式： $\hat{c}_i^p=\frac{\exp{(c_i^p)}}{\sum_p \exp{(c_i^p)}}$

$c_i^p$ ：对于分类的部分，一般网络的全连接层会输出 $P$ 个类别的向量，在 SSD 因为要考虑背景（背景是分类 0），这个长度为 $P + 1$ 的向量经过 softmax 之后，所有值的和会被限制为 1。其中置信率最大的值即是 $c_i^p$ （目前这个值还没经过归一化），这表示 anchor $i$ 是的类别是 $p$ 的可能性最大。
$\hat{c}_i^p$ ：是通过对 $c_i^p$ 进行 softmax 而得到的，表示 anchor $i$ 是分类 $p$ 的概率，值是位于 0~1 之间的。

然后就是主公式的各个参数的具体含义：

$x_{ij}^p$ ：含义同上面位置损失提到的，如果 anchor $i$ 与 gt box $j$ 是匹配的，gt box 的类别是 $p$ ，则为1，否则 0。
$\hat{c}_i^0$ ：就是背景的分类概率（负样本）。

其实这个公式也没什么难理解的。

大致就是这么多了，如果大家有什么不清楚的地方或者是文章哪里写错了，欢迎评论留言。