【新智元导读】层数越多的神经网络越难以训练。当层数超过一定数量后,传统的深度网络就会因优化问题而出现欠拟合(underfitting)的情况。ResNet 作者之一、现在 Facebook AI 实验室工作的何凯明在演讲中描述了残差学习框架,大幅降低训练更深层网络的难度,也使准确率得到显著提升。在 ImageNet 和 COCO 2015 竞赛中,共有 152 层的深度残差网络 ResNet 在图像分类、目标检测和语义分割各个分项都取得最好成绩,相关论文更是连续两次获得 CVPR 最佳论文。
何凯明还在演讲中介绍了残差网络的传播方式。最新研究发现,当残差网络将身份映射作为 skip connection 并实现 inter-block activation,正向和反向信号能够直接从一个区块传播到另一个区块,这样就达到了 1001 层的残差网络。由此可见,神经网络的深度这一非常重要的因素,还有很大的提升空间。
该演讲为 ICML 2016 讲座。
引言
深度残差网络(ResNets)
简单易用
背景
批归一化(BN)
深度残差网络,从10层到100层
整体结构设计简单利落,在标准的卷积神经网络上增加了捷径,可以跳过中间的基层。每走一次捷径就生成一个残差区块,区块里的卷基层会预测一个残差值,加入该区块的输入张量中。深度卷积网络原本优化困难,超过一定层数以后,再增加网络层数,即使使用批归一化方法,也就会导致训练结果的误差和验证误差增大。
作者提出一个深度残差学习框架解决神经网络因深度增加而准确率降低的问题。 假设期望的网络层关系映射为 H(x), 让 the stacked nonlinear layers 拟合另一个映射, F(x):= H(x)-x , 那么原先的映射就是 F(x)+x。 假设优化残差映射F(x) 比优化原来的映射 H(x)容易。
F(x)+x 可以通过捷径实现,如上图所示。
平原网络受 VGG 网络启发,主要采用3*3滤波器,遵循两个设计原则:1)对于相同输出特征图尺寸,卷积层有相同个数的滤波器;2)如果特征图尺寸缩小一半,滤波器个数加倍以保持每个层的计算复杂度。通过步长为2的卷积来进行降采样。一共34个权重层。 这个网络与VGG相比,滤波器要少,复杂度要小。
训练
应用
结论
通过深度残差学习