专栏首页有三AI有没有网络模型是动态变化的,每次用的时候都不一样?

有没有网络模型是动态变化的,每次用的时候都不一样?

欢迎大家来到《知识星球》专栏,这里是网络结构1000变小专题,今天给大家介绍一类网络结构,它是动态变化的,每一次使用的时候都不一样。

作者&编辑 | 言有三

1 训练时变化的网络结构

首先我们看第一种,即训练的时候拓扑结构发生动态变化的,最熟悉的是什么?Dropout和DropConnect对吧!

大家都知道的我们肯定是不会讲了,下面给大家讲一个非常优秀的研究。

有三AI知识星球-网络结构1000变

Stochastic Depth

多个独立研究表明实际上ResNet的有效深度没有想象中那么深,152层的网络有效深度也就是40多层左右,怎么去研究这个问题呢?

作者/编辑 言有三

stochastic depth对此做出了研究,它做的事情很简单,就是在训练的时候把残差网络的单元随机删减掉一些,测试时不变,所以网络训练的时候是一个比测试时更浅层的网络。

实验证明这不仅减小了训练时间,还提升了测试精度,实验结果如下:

从这两个图可以看出,加上随机删减后测试集的精度在CIFAR10和CIFAR100上都有所提升了。与基础ResNet结构相比,测试集的精度大于训练集,证明网络过拟合大大下降。下面SVHN的结果更加印证了这一点,稳稳地压倒普通ResNet网络。

另一方面再看右上图,1201层的网络的性能也很不错,不仅仅没有过拟合,而且相对于152层的ResNet性能还能够继续提升,这就相当不易了。

上面展示了实验结果,那为什么有效呢?作者给出了一点解释。即这样的网络梯度更大更有效,如下图第一个卷积层的对比:

随机删减网络的梯度始终比普通ResNet更大,而且学习率下降后更加明显。

[1] Huang G, Sun Y, Liu Z, et al. Deep networks with stochastic depth[C]//European conference on computer vision. Springer, Cham, 2016: 646-661.

Stochstic depth网络本质上可以看作是多个网络的集成,与Dropout等技术一样在训练时结构发生变化,能提高模型的表达能力。

2 测试时变化的网络结构

上面说了训练时发生变化的网络,那有没有测试时也发生动态变化的网络呢?

有三AI知识星球-网络结构1000变

BranchyNet

通常来说模型训练完之后结构就是固定的,测试时图片沿着固定的通路进行计算。然而测试样本本身有不同的难度,简单的样本只需要少量的计算量就可以完成任务,困难的样本则需要更多的计算量。BranchyNet就可以根据不同难度的图片,使用不同的计算通路,从而使计算更加高效。

作者/编辑 言有三

如上图所示,它在正常网络通道上包含了多个旁路分支,这样的思想是基于观察到随着网络的加深,表征能力越来越强,大部分简单的图片可以在较浅层时学习到足以识别的特征,如上图中的Exit 1通道。一些更难的样本需要进一步的学习,如上图中的Exit 2通道,而只有极少数样本需要整个网络,如Exit3通道。这样的思想可以实现精度和计算量的平衡,对于大部分样本,可以用更小的计算量完成任务。

那么如何判断是否可以提前结束呢?在提出该网络的论文中,作者采用分类信息熵,一旦该通道的分类信息熵低于某一个阈值,说明已经以很高的置信度获得了分类的结果,直到最终的通道。

在训练的时候,每一个通道都会对损失有贡献,越靠近浅层的网络权重越大。多通道的损失不仅增强了梯度信息,也在一定程度上实现了正则化。

将BranchyNet的设计思想用于LeNet,AlexNet,ResNet结构后,在维持性能的前提下,加速效果明显。

对于拥有N个分支的网络,需要的就是N-1个阈值,因为最后一个分支不需要阈值。

LeNet系列网络可以让超过90%的样本在第一个分支提前终止,AlexNet提前终止样本比例也超过一半,ResNet提前终止样本比例超过了40%。

[1] Teerapittayanon S, McDanel B, Kung H T. Branchynet: Fast inference via early exiting from deep neural networks[C]//2016 23rd International Conference on Pattern Recognition (ICPR). IEEE, 2016: 2464-2469.

更多相关内容请大家移步有三AI知识星球。

3 关于有三AI知识星球

有三AI知识星球是我们继公众号之后重点打造的原创知识学习社区,有需要的同学可以在评论区留言哦

转载文章请后台联系

侵权必究

本文分享自微信公众号 - 有三AI(yanyousan_ai),作者:言有三

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-09-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【模型解读】resnet中的残差连接,你确定真的看懂了?

    想必做深度学习的都知道skip connect,也就是残差连接,那什么是skip connect呢?如下图

    用户1508658
  • 【模型解读】“全连接”的卷积网络,有什么好?

    我们知道,曾经深度网络训练不好收敛,Resnet的出现打破了这一僵局,背后的思想仅仅只是拉了一个skip connect,也就是将输入和输出相连相加,下面是一个...

    用户1508658
  • 【AI不惑境】残差网络的前世今生与原理

    残差连接的思想起源于中心化,在神经网络系统中,对输入数据等进行中心化转换,即将数据减去均值,被广泛验证有利于加快系统的学习速度。

    用户1508658
  • python列表推导式中使用if-els

       今天在处理自动化邮件数据时碰到数据行中包含字符串后,从hive中拿到的整数型数据自动转化成了浮点数,严重影响美观性。因此想到了用列表推导式来做转化,将其中...

    py3study
  • matlab自助法实现

    方法:以bootstrap sampling为基础,给定包含m个样本的数据集,我们对它进行采样产生数据集D’:每次随机从D中挑选一个样本,将其拷贝放入D’,然后...

    听城
  • 刷新COCO目标检测纪录!谷歌只靠AI扩增数据,就把一个模型变成SOTA,已开源

    但自从团队用机器学习解锁了特别的数据扩增策略,再用自动扩增来的新数据集训练目标检测模型,事情就完全不同了。

    量子位
  • AI平台之争烽烟骤起,2018有哪些值得观察的热门技术?

    一年一度的国际消费电子展(CES)即将揭开序幕,今年有哪些值得观察的热门技术呢?物联网(又来了…)、无人驾驶汽车以及增强现实/虚拟现实(AR/VR),当然还有健...

    机器人网
  • kubernetes 指标采集组件 metrics-server 的部署

    metrics-server 是一个采集集群中指标的组件,类似于 cadvisor,在 v1.8 版本中引入,官方将其作为 heapster 的替代者,metr...

    田飞雨
  • SAP SD-客户管理方案

    l 会计部门与销售和分销部门都对该客户主记录进行存取。为了避免数据冗余,这两个部门的数据分别保存在公用主记录中。

    用户5495712
  • Word表格怎么调整行距?分享六个超实用技巧

    选中表格,然后在[开始]界面中,点击[段落]中的[行与段落间距]图标,点击[3.0]可以将行间距调整为3倍行距。

    高效办公

扫码关注云+社区

领取腾讯云代金券