【ResNet何凯明】深度残差网络从100层到1001层（89PPT）

新智元

发布于 2018-03-26 16:50:47

2.8K0

发布于 2018-03-26 16:50:47

文章被收录于专栏：新智元

【新智元导读】层数越多的神经网络越难以训练。当层数超过一定数量后，传统的深度网络就会因优化问题而出现欠拟合（underfitting）的情况。ResNet 作者之一、现在 Facebook AI 实验室工作的何凯明在演讲中描述了残差学习框架，大幅降低训练更深层网络的难度，也使准确率得到显著提升。在 ImageNet 和 COCO 2015 竞赛中，共有 152 层的深度残差网络 ResNet 在图像分类、目标检测和语义分割各个分项都取得最好成绩，相关论文更是连续两次获得 CVPR 最佳论文。

何凯明还在演讲中介绍了残差网络的传播方式。最新研究发现，当残差网络将身份映射作为 skip connection 并实现 inter-block activation，正向和反向信号能够直接从一个区块传播到另一个区块，这样就达到了 1001 层的残差网络。由此可见，神经网络的深度这一非常重要的因素，还有很大的提升空间。

该演讲为 ICML 2016 讲座。

引言

深度残差网络（ResNets）

《用于图像识别的深度残差学习》CVPR 2016 *最佳论文
训练“极”深网络的简单框架
图像分类、目标检测、语义分割等项目实现目前最优性能

简单易用

有很多第三方 implementation
结果容易复现
有一系列的插件及更新

背景

批归一化（BN）

归一化输入
BN：每个 Mini-batch，每层都归一化
大幅提高训练速度
初始化影响小
改善正则化策略

深度残差网络，从10层到100层

整体结构设计简单利落，在标准的卷积神经网络上增加了捷径，可以跳过中间的基层。每走一次捷径就生成一个残差区块，区块里的卷基层会预测一个残差值，加入该区块的输入张量中。深度卷积网络原本优化困难，超过一定层数以后，再增加网络层数，即使使用批归一化方法，也就会导致训练结果的误差和验证误差增大。

作者提出一个深度残差学习框架解决神经网络因深度增加而准确率降低的问题。假设期望的网络层关系映射为 H(x), 让 the stacked nonlinear layers 拟合另一个映射， F(x):= H(x)-x , 那么原先的映射就是 F(x)+x。假设优化残差映射F(x) 比优化原来的映射 H(x)容易。

F(x)+x 可以通过捷径实现，如上图所示。