上图是Fast R-CNN的整体结构，首先在SPP-Net与R-CCN一直使用的SVM分类器被换成了SoftMax，SPP-Net中的SPP换成了RoI pooling，多任务损失函数的引入整合了分类网络的损失函数与bounding box回归模型的损失函数，使任务不需要分阶段训练，区域建议依然使用ss算法生成，并在卷积后的特征图上提取（充分共享卷积计算），初始模型从AlexNet换成了VGG16。

感兴趣区域池化

上面这张图说明了SPP与RoI pooling的区别，其实RoI pooling是SPP的一种简化，原本SPP是一种多尺度的池化操作，最后将三个尺度的特征做串接作为全连接层的输入，而RoI pooling只选择了其中一种尺度，将ss算法的建议框做坐标变化后的尺寸的长和宽，平均分为w份和h份，在每一份中使用最大池化，最后产生wh个bin，这样做有下面几个好处：

1.统一输出维度，这个是必须的。

_2.相比于SPP-Net，RoI pooling的维度更少，假设RoI pooling选择了4_4的话，那么维度就可以从21个bin降低为16个，虽然这样看来降低的并不多，但是不要忘了特征还有厚度，如果厚度是256的话，那么降维就比较可观了。

3.RoI pooling不再是多尺度的池化，这样一来梯度回传就会更方便，有利于Fast R-CNN实现end-to-end的训练。

感兴趣区域池化的梯度回传

在上说提到了，RoI pooling是单层的SPP，也就是只用一层金字塔并在区域内做Max pooling，所以如何说在卷积层上提取特征的时候，特征的位置没有出现重叠，RoI pooling就是一个Max pooling，梯度回传也是一样的，而出现位置重叠的时候，梯度回传才会发生变化。

那么先解释一下什么是重叠：

我们知道Fast R-CNN的区域建议同样是ss算法生成的，那么一幅图片在生成多个建议框时（假设是2个）可能会出现一些像素重叠的情况，就像下面这样：

而这种情况就没有重叠：

显然，重叠的区域经过相同的坐标变换之后在卷积特征图上同样是有重叠的，那么这部分重叠的像素梯度应该如何让计算呢？

是多个区域的偏导之和：

上图中有r0与r1两个区域，每个区域都通过RoI pooling之后生成4个bin，x23的意思是第23个像素，那么计算x23位置的梯度就可以根据上图中左侧的公式，其中r是包含有这一点的区域，j是某个区域内的所有位置。

但是x23的梯度计算显然不需要r0，r1内的所有位置的梯度信息，它只需要包含x23这一点的，或者说是x23这一点有贡献的点的梯度，所以这里需要一个阈值函数—i*(r,j)，它的作用就是如果需要RoI pooling后的这一点的梯度，那么i*(r,j)=1，否则i*(r,j)=0。

这样一来，RoI pooling层的梯度回传只需要在Max pooling上简单修改即可。

多任务损失函数

Multi-task loss是Fast R-CNN最重要的改进了，它将分类模型的损失函数与bounding box模型的损失函数加到了一起，这样一来就不再需要分阶段的训练了，而是实现了end-to-end。

首先分类模型的loss：

其中p是每个RoI的概率分布：

而u是Ground truth的类别，显然u的范围为(0,…,k)

显然，这就是损失函数一个交叉熵，只是它简写了，或者说换了一种形式。

Bounding box回归模型的loss：

这个loss和R-CNN中的Bounding box的loss没啥区别，都是在用实际的边界框信息与ss算法给出的边界框信息构建一个L1距离。如下：

其中平滑方程的具体形式如下：

而平滑方程里面的东西，就和R-CNN一样了。最后，组合的多任务损失函数为：

这里有一个

[u\geq 1]

它是一个指示函数，作用就是背景类不需要bounding box修正，也就没有回归loss。

在处理边界框回归时，采用smooth L1 loss的原因是，在误差的绝对值大于1的时候，smooth L1是一个L1 loss，这样很大误差情况下，梯度也是一个常数，避免了梯度爆炸。并且，L1 loss是对于离群点、异常值(outliers)更不敏感，这增加了网络的鲁棒性。但是在误差比较小的时候，smooth L1是一个L2 loss，因为误差已经小于1了，梯度不会是个很大的值，但是如何还保持一个恒定的值的话，就不利于后续的调优。

Fast R-CNN训练与测试

上面这张图解释了Fast R-CNN的训练与测试过程，前面两部分说明了RoI pooling层的梯度回传与多任务损失函数的构建，所以Fast R-CNN的梯度可以一直传到卷积层，实现end-to-end的训练。

此外，为了在训练时得到更好的效果，作者提出了一种mini-batch sampling方法，如果batch-size为128的话，那么这128个RoI由2张图片，各生产64个区域。并且，128个ROI中，正负样本的比例是1:3，即25%的目标ROI和75%的背景ROI。正例的判定条件是，SS算法给出的区域建议与Ground Truth的IOU要大于等于0.5。负例的判定条件是IOU要在[0.1,0.5)之间，这个IOU最小到了0.1是为了一种类似启发式的难例挖掘策略。

而Fast R-CNN的测试过程和之前没啥区别。

Fast R-CNN性能评价

上面这张图对比了R-CNN，SPP-Net与Fast R-CNN的训练时间，单张图片的测试时间与mAP，可以看到由于Fast R-CNN可以end-to-end的训练，它的mAP比R-CNN还要高一些，这样就不会出现像SPP-Net那样mAP降低的情况，而在训练时间与测试时间上，又一次有了较大进步。

那么为什么Fast R-CNN比SPP-Net更快呢，最重要的原因就是end-to-end的训练，这样训练不再是分阶段的。

Fast R-CNN的问题

虽然上面那张图上写的，Fast R-CNN的单图测试时间为0.32s，但是其实这样说并不准确，0.32为了和R-CNN的47.0s做对比。是的Fast R-CNN依然没有脱离ss算法，但是ss算法跑一张图的时间，大概是2s，所以讲道理的话，Fast R-CNN依然是达不到实时检测的要求的，好在ss算法在Faster R-CNN中被换成RPN（区域建议网络），这个我们后面再说。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2017-11-08，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习