前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【ResNet何凯明】深度残差网络从100层到1001层(89PPT)

【ResNet何凯明】深度残差网络从100层到1001层(89PPT)

作者头像
新智元
发布2018-03-26 16:50:47
2.7K0
发布2018-03-26 16:50:47
举报
文章被收录于专栏:新智元新智元

【新智元导读】层数越多的神经网络越难以训练。当层数超过一定数量后,传统的深度网络就会因优化问题而出现欠拟合(underfitting)的情况。ResNet 作者之一、现在 Facebook AI 实验室工作的何凯明在演讲中描述了残差学习框架,大幅降低训练更深层网络的难度,也使准确率得到显著提升。在 ImageNet 和 COCO 2015 竞赛中,共有 152 层的深度残差网络 ResNet 在图像分类、目标检测和语义分割各个分项都取得最好成绩,相关论文更是连续两次获得 CVPR 最佳论文。

何凯明还在演讲中介绍了残差网络的传播方式。最新研究发现,当残差网络将身份映射作为 skip connection 并实现 inter-block activation,正向和反向信号能够直接从一个区块传播到另一个区块,这样就达到了 1001 层的残差网络。由此可见,神经网络的深度这一非常重要的因素,还有很大的提升空间。

该演讲为 ICML 2016 讲座。

引言

深度残差网络(ResNets)

  • 《用于图像识别的深度残差学习》CVPR 2016 *最佳论文
  • 训练“极”深网络的简单框架
  • 图像分类、目标检测、语义分割等项目实现目前最优性能

简单易用

  • 有很多第三方 implementation
  • 结果容易复现
  • 有一系列的插件及更新

背景

批归一化(BN)

  • 归一化输入
  • BN:每个 Mini-batch,每层都归一化
  • 大幅提高训练速度
  • 初始化影响小
  • 改善正则化策略

深度残差网络,从10层到100层

整体结构设计简单利落,在标准的卷积神经网络上增加了捷径,可以跳过中间的基层。每走一次捷径就生成一个残差区块,区块里的卷基层会预测一个残差值,加入该区块的输入张量中。深度卷积网络原本优化困难,超过一定层数以后,再增加网络层数,即使使用批归一化方法,也就会导致训练结果的误差和验证误差增大。

作者提出一个深度残差学习框架解决神经网络因深度增加而准确率降低的问题。 假设期望的网络层关系映射为 H(x), 让 the stacked nonlinear layers 拟合另一个映射, F(x):= H(x)-x , 那么原先的映射就是 F(x)+x。 假设优化残差映射F(x) 比优化原来的映射 H(x)容易。

F(x)+x 可以通过捷径实现,如上图所示。

平原网络受 VGG 网络启发,主要采用3*3滤波器,遵循两个设计原则:1)对于相同输出特征图尺寸,卷积层有相同个数的滤波器;2)如果特征图尺寸缩小一半,滤波器个数加倍以保持每个层的计算复杂度。通过步长为2的卷积来进行降采样。一共34个权重层。 这个网络与VGG相比,滤波器要少,复杂度要小。

训练

  • 所有的平原或残差网络都是从零开始训练
  • 所有的平原或残差网络都使用批归一化
  • 标准的超参数和数据扩增

应用

结论

通过深度残差学习

  • 能简单训练极深网络
  • 极深网络在增加层数的同时也能保持准确率
  • 极深网络在其他任务中也有很好的泛化性能
  • ImageNet 达到 200 层,CIFARI 1000 层
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-07-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档