深度学习性能分析(下)

3.4内存

我们分析了TX1设备的系统内存消耗,它使用CPU和GPU的共享内存。 图5显示最大系统内存使用量初始为常数,然后随批量大小增加。这是由于网络模型的初始存储器分配(其是大的静态分量)以及处理批处理时所需的存储器的贡献,其与图像的数量成比例地增加。 在图6中,我们还可以注意到,对于尺寸小于100MB的网络,初始分配永远不会下降到200MB以下,并且其后是线性的,斜率为1.30。

3.5操作

在自定义实现神经网络加速器的情况下,操作计数对于建立推理时间和硬件电路大小的粗略估计是必要的。在图7中,对于16个图像,在每个图像的操作计数和推断时间之间存在线性关系。因此,在设计时,我们可以对操作数量施加约束,以将处理速度保持在实时应用或资源有限部署的可用范围内。

3.6操作和功耗

在本节中,我们分析了功耗和给定模型所需的操作次数之间的关系。图8显示了不同架构里没有特定的功耗。 当完成资源利用时,通常随着批量增大,所有网络消耗大致相同的功耗量,标准偏差为1W。 这对应于完全利用时的最大系统功率。 因此,如果能源消耗是我们的关注点之一,例如对于电池供电的设备,可以简单地选择满足应用最低要求的最快架构。

3.7精度和吞吐量

我们注意到,在每单位时间的推理精度和数量之间存在非平凡解的线性上界。图9给出了对于给定的帧速率,可以实现的最大精度与帧速率本身成线性比例。 在这里我们展示他们的准确性是在一条直线上,可以应用于更系统的神经网络工程。特别是选择一个特定的推理时间,现在可以得出理论精确度上限。 由于功耗是恒定的,我们甚至可以进一步进行,并且即使对于能量约束也获得准确度的上限,这可能是需要在嵌入式系统上运行的网络的基本设计因素。

由于3.1节中的扰流器已经离开,当考虑前向推理时间时,精度与吞吐量关系的线性特性转化为双曲线特性。然后,假设操作计数与推理时间是线性的,我们得到的精度对网络需要的计算量具有双曲线依赖性。

3.8参数的使用

已知DNN能够高效地利用所述自学习能力(参数数量/自由度)。 利用这种平衡,使用权重修剪,量化和可变长度符号编码将网络文件大小减少到50×。值得注意的是,使用更有效的架构开始可以产生更紧凑的表示。 在图10中,我们清楚地看到,尽管VGG具有比AlexNet更好的准确性(如图1所示),但其信息密度更差。 这意味着在VGG结构中引入的自由度的量在精度方面带来较小的改进。此外,GoogLeNet获得最高的分数,表明20倍更少的参数足以提供最先进的结果。

4.结论

在本文中,我们分析了在准确性,内存占用,参数,操作计数,推理时间和功耗方面提交给ImageNet挑战的多个最先进的深层神经网络。我们的目标是提供深入的设计选择,可以导致有效的神经网络的实际应用,和优化经常有限的资源在实际部署。我们表明,完全连接的层有很多改进的空间,这表明较小批量的图像的不足。我们显示精度和推理时间是一个双曲线关系:准确度的一点点增加花费大量的计算时间。我们显示在网络模型中的操作数量可以有效地估计推理时间。我们表明能量约束将在操作计数方面设置最大可实现精度和模型复杂性的特定上限。最后,我们表明GoogLeNet是参数空间利用率最好的架构。

原文发布于微信公众号 - 鸿的学习笔记(shujuxuexizhilu)

原文发表时间:2016-12-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

MXNet 作者李沐:用深度学习做图像分类,教程+代码

2225
来自专栏人工智能

6步创建一个通用机器学习模板

小编说:本文将介绍一个通用的机器学习的项目模板,创建这个模板总共有六个步骤。你将会学到: •端到端地预测(分类与回归)模型的项目结构。 •如何将前面学到的内容引...

26010
来自专栏AI研习社

如何用PyTorch训练图像分类器

如果你刚刚开始使用PyTorch并想学习如何进行基本的图像分类,那么你可以参考本教程。它将介绍如何组织训练数据,使用预训练神经网络训练模型,然后预测其他图像。

1672
来自专栏机器学习算法与理论

利用二维图像进行头部姿态估计

3D头部姿态估计(ubuntu操作系统,基于opencv3.2+Dlib19.4+python2.7)打开摄像头,可实现实时(realtime)姿态检测。 坐标...

5875
来自专栏AI研习社

微软开源 repo 1.0 ,旨在创造深度学习框架通用语言

AI 研习社按,日前,微软提出深度学习框架的通用语言——repo1.0,号称希望通过构建这一深度学习框架「Rosetta Stone(罗塞塔石碑)」,让研究者们...

1382
来自专栏IT派

一文简短介绍Caffe

导语:在经过三天之后,我们的活动人数已经达到50人了,感谢大家对小编的支持,同时在本文末附上活动的众筹榜单(同日另一篇文)。希望能跟小伙伴们度过愉快的6天! 深...

3597
来自专栏深度学习-机器学习

深度学习三大框架对比

人工智能的浪潮正席卷全球,诸多词汇时刻萦绕在我们的耳边,如人工智能,机器学习,深度学习等。“人工智能”的概念早在1956年就被提出,顾名思义用计算机来构造复杂的...

6637
来自专栏新智元

【重磅】百度开源分布式深度学习平台,挑战TensorFlow (教程)

【新智元导读】今天百度开源深度学习平台Paddle。业内人士纷纷点赞:Paddle代码简洁、设计干净,没有太多的abstraction,速度比Tensorflo...

1.1K7
来自专栏QQ大数据团队的专栏

神盾推荐——离线算法平台

1.9K7
来自专栏机器之心

学界 | 密歇根州立大学提出NestDNN:动态分配多任务资源的移动端深度学习框架

论文:NestDNN: Resource-Aware Multi-Tenant On-Device Deep Learning for Continuous M...

1973

扫码关注云+社区

领取腾讯云代金券