【ResNet何凯明】深度残差网络从100层到1001层(89PPT)

【新智元导读】层数越多的神经网络越难以训练。当层数超过一定数量后,传统的深度网络就会因优化问题而出现欠拟合(underfitting)的情况。ResNet 作者之一、现在 Facebook AI 实验室工作的何凯明在演讲中描述了残差学习框架,大幅降低训练更深层网络的难度,也使准确率得到显著提升。在 ImageNet 和 COCO 2015 竞赛中,共有 152 层的深度残差网络 ResNet 在图像分类、目标检测和语义分割各个分项都取得最好成绩,相关论文更是连续两次获得 CVPR 最佳论文。

何凯明还在演讲中介绍了残差网络的传播方式。最新研究发现,当残差网络将身份映射作为 skip connection 并实现 inter-block activation,正向和反向信号能够直接从一个区块传播到另一个区块,这样就达到了 1001 层的残差网络。由此可见,神经网络的深度这一非常重要的因素,还有很大的提升空间。

该演讲为 ICML 2016 讲座。

引言

深度残差网络(ResNets)

  • 《用于图像识别的深度残差学习》CVPR 2016 *最佳论文
  • 训练“极”深网络的简单框架
  • 图像分类、目标检测、语义分割等项目实现目前最优性能

简单易用

  • 有很多第三方 implementation
  • 结果容易复现
  • 有一系列的插件及更新

背景

批归一化(BN)

  • 归一化输入
  • BN:每个 Mini-batch,每层都归一化
  • 大幅提高训练速度
  • 初始化影响小
  • 改善正则化策略

深度残差网络,从10层到100层

整体结构设计简单利落,在标准的卷积神经网络上增加了捷径,可以跳过中间的基层。每走一次捷径就生成一个残差区块,区块里的卷基层会预测一个残差值,加入该区块的输入张量中。深度卷积网络原本优化困难,超过一定层数以后,再增加网络层数,即使使用批归一化方法,也就会导致训练结果的误差和验证误差增大。

作者提出一个深度残差学习框架解决神经网络因深度增加而准确率降低的问题。 假设期望的网络层关系映射为 H(x), 让 the stacked nonlinear layers 拟合另一个映射, F(x):= H(x)-x , 那么原先的映射就是 F(x)+x。 假设优化残差映射F(x) 比优化原来的映射 H(x)容易。

F(x)+x 可以通过捷径实现,如上图所示。

平原网络受 VGG 网络启发,主要采用3*3滤波器,遵循两个设计原则:1)对于相同输出特征图尺寸,卷积层有相同个数的滤波器;2)如果特征图尺寸缩小一半,滤波器个数加倍以保持每个层的计算复杂度。通过步长为2的卷积来进行降采样。一共34个权重层。 这个网络与VGG相比,滤波器要少,复杂度要小。

训练

  • 所有的平原或残差网络都是从零开始训练
  • 所有的平原或残差网络都使用批归一化
  • 标准的超参数和数据扩增

应用

结论

通过深度残差学习

  • 能简单训练极深网络
  • 极深网络在增加层数的同时也能保持准确率
  • 极深网络在其他任务中也有很好的泛化性能
  • ImageNet 达到 200 层,CIFARI 1000 层

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-07-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

概率论之概念解析:极大似然估计

【导读】本文是数据科学家Jonny Brooks-Bartlett概率论基础概念系列博客中的“极大似然估计”一章,主要讲解了极大似然估计的若干概念。分别介绍了参...

37370
来自专栏智能算法

GBDT(梯度提升决策树)算法(详细版)

一、前言 通过之前的文章GBDT算法(简明版)对GBDT的过程做了大概的讲解,我们可以了解到GBDT是一种迭代的决策树算法,由多棵决策树组成,所有树的结论累加起...

945110
来自专栏AI科技大本营的专栏

笔记 |《深度学习原理与TensorFlow实践》学习笔记(三)

作者 | 王清 目录 图像识别的经典课题 计算机视觉 图像识别课题 卷积神经网络原理 前深度学习时代 卷积操作Convolution 池化Pooling ReL...

38250
来自专栏AI科技大本营的专栏

笔记 | 吴恩达Coursera Deep Learning学习笔记

向AI转型的程序员都关注了这个号☝☝☝ ? 作者:Lisa Song 微软总部云智能高级数据科学家,现居西雅图。具有多年机器学习和深度学习的应用经验,熟悉各种业...

472150
来自专栏计算机视觉战队

每日一学——最优化(下)

梯度计算 计算梯度有两种方法:一个是缓慢的近似方法(数值梯度法),但实现相对简单。另一个方法(分析梯度法)计算迅速,结果精确,但是实现时容易出错,且需要使用微分...

402100
来自专栏深度学习自然语言处理

【精华】Batch Normalization理论与实践

batch norm也可以当做调参的一部分,对于有些实验是有效果的,有些实验是几乎没啥效果,但是它的收敛速度还是很客观的,所以我们还是有必要要了解下哒!

11720
来自专栏机器学习原理

机器学习(6)——决策树前言:

前言: 通过第前面的学习介绍了机器学习回归模型创建的流程,并且知道了机器学习要做的事情是找到目标函数,优化它,通过每次迭代都使目标函数值最小,最优解就是目标函数...

520100
来自专栏SIGAI学习与实践平台

深入浅出聚类算法

聚类问题是机器学习中无监督学习的典型代表,在数据分析、模式识别的很多实际问题 中得到了应用。在本文中,SIGAI 将为大家深入浅出的介绍聚类问题的定义以及各种典...

21710
来自专栏应用案例

入门必看!一文读懂神经网络中的激活函数(二)

看看深度学习之激活函数 本篇接着上一篇推文入门《必看!从零开始了解到训练神经网络(一)》,在介绍完神经网络的基本原理和结构之后,继续介绍神经网络中的关键之一 —...

631100
来自专栏大数据挖掘DT机器学习

手把手教你实现SVM算法

什么是机器学习 (Machine Learning) 机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断...

354100

扫码关注云+社区

领取腾讯云代金券