前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度学习性能分析(下)

深度学习性能分析(下)

作者头像
哒呵呵
发布2018-08-06 17:18:49
4330
发布2018-08-06 17:18:49
举报
文章被收录于专栏:鸿的学习笔记

3.4内存

我们分析了TX1设备的系统内存消耗,它使用CPU和GPU的共享内存。 图5显示最大系统内存使用量初始为常数,然后随批量大小增加。这是由于网络模型的初始存储器分配(其是大的静态分量)以及处理批处理时所需的存储器的贡献,其与图像的数量成比例地增加。 在图6中,我们还可以注意到,对于尺寸小于100MB的网络,初始分配永远不会下降到200MB以下,并且其后是线性的,斜率为1.30。

3.5操作

在自定义实现神经网络加速器的情况下,操作计数对于建立推理时间和硬件电路大小的粗略估计是必要的。在图7中,对于16个图像,在每个图像的操作计数和推断时间之间存在线性关系。因此,在设计时,我们可以对操作数量施加约束,以将处理速度保持在实时应用或资源有限部署的可用范围内。

3.6操作和功耗

在本节中,我们分析了功耗和给定模型所需的操作次数之间的关系。图8显示了不同架构里没有特定的功耗。 当完成资源利用时,通常随着批量增大,所有网络消耗大致相同的功耗量,标准偏差为1W。 这对应于完全利用时的最大系统功率。 因此,如果能源消耗是我们的关注点之一,例如对于电池供电的设备,可以简单地选择满足应用最低要求的最快架构。

3.7精度和吞吐量

我们注意到,在每单位时间的推理精度和数量之间存在非平凡解的线性上界。图9给出了对于给定的帧速率,可以实现的最大精度与帧速率本身成线性比例。 在这里我们展示他们的准确性是在一条直线上,可以应用于更系统的神经网络工程。特别是选择一个特定的推理时间,现在可以得出理论精确度上限。 由于功耗是恒定的,我们甚至可以进一步进行,并且即使对于能量约束也获得准确度的上限,这可能是需要在嵌入式系统上运行的网络的基本设计因素。

由于3.1节中的扰流器已经离开,当考虑前向推理时间时,精度与吞吐量关系的线性特性转化为双曲线特性。然后,假设操作计数与推理时间是线性的,我们得到的精度对网络需要的计算量具有双曲线依赖性。

3.8参数的使用

已知DNN能够高效地利用所述自学习能力(参数数量/自由度)。 利用这种平衡,使用权重修剪,量化和可变长度符号编码将网络文件大小减少到50×。值得注意的是,使用更有效的架构开始可以产生更紧凑的表示。 在图10中,我们清楚地看到,尽管VGG具有比AlexNet更好的准确性(如图1所示),但其信息密度更差。 这意味着在VGG结构中引入的自由度的量在精度方面带来较小的改进。此外,GoogLeNet获得最高的分数,表明20倍更少的参数足以提供最先进的结果。

4.结论

在本文中,我们分析了在准确性,内存占用,参数,操作计数,推理时间和功耗方面提交给ImageNet挑战的多个最先进的深层神经网络。我们的目标是提供深入的设计选择,可以导致有效的神经网络的实际应用,和优化经常有限的资源在实际部署。我们表明,完全连接的层有很多改进的空间,这表明较小批量的图像的不足。我们显示精度和推理时间是一个双曲线关系:准确度的一点点增加花费大量的计算时间。我们显示在网络模型中的操作数量可以有效地估计推理时间。我们表明能量约束将在操作计数方面设置最大可实现精度和模型复杂性的特定上限。最后,我们表明GoogLeNet是参数空间利用率最好的架构。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-12-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 鸿的学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档