【在线视频】如何在GPU上进行混合精度训练

混合精度在计算方法中结合了不同的数值精度。

使用精度低于FP32的系统可以减少内存使用,允许部署更大的网络。数据传输需要更少的时间,而且计算性能会提高,尤其是在NVIDIA gpu上,它的Tensor Core支持这种精度。DNNs的混合精度训练实现了两个主要目标:

-减少需要的内存,使训练更大的模型或训练更大的小批量

-通过低精度算法降低所需资源,缩短训练/推理时间。

本视频演示了如何在TensorFlow里训练ResNet-50与混合精度。

在这个视频中有五件重要的事情:

  1. 混合精度训练可以提高计算性能,并在保持训练精度的同时减少内存带宽。
  2. 充分利用了Tensor Cores在FP16中进行计算操作。
  3. 权重的主副本保存在FP32中,以避免在反向传播期间进行不精确的权重更新。
  4. 为了确保梯度在FP16中得到安全地表示,进行了损耗缩放,并在FP32中计算了损耗,以避免FP16中出现的溢出问题。
  5. Tensor Core加速的最佳实践指南:使用8的倍数做为Linear层矩阵的大小, 和做为卷积通道的数量.。
视频内容

NVIDIA官网关于混合精度的文档:

更多学习视频:

确认过的眼神:这是一份NVIDIA TensorRT 4.0的实战教程

MATLAB 与 NVIDIA TensorRT 在一起啦,你不看看么?

原文发布于微信公众号 - 吉浦迅科技(gpusolution)

原文发表时间:2018-08-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

OpenAI推新程序包:GPU适应十倍大模型仅需增加20%训练时间

安妮 编译自 Medium 量子位 出品 | 公众号 QbitAI GPU内存太小可能是神经网络训练过程中最大的拦路虎。 不怕,用这个OpenAI推出的grad...

34011
来自专栏磐创AI技术团队的专栏

使用Keras进行深度学习:(六)LSTM和双向LSTM讲解及实践

2644
来自专栏AI研习社

2017 TensorFlow开发者峰会之ML工具包

这是来自谷歌的工程师Ashish Agarwal的演讲,主题是《ML Toolkit》。他认为TensorFlow 是一项很棒的技术,在谷歌,它已经在为很多系统...

3053
来自专栏AI科技大本营的专栏

你应该知道的神经网络调试技巧

作者 | Russell Stewart 译者 | zhwhong(@zhwhong_shsf) 整理 | AI100(rgznai100) 以下建议主要针对...

2787
来自专栏深度学习-机器学习

深度学习三大框架对比

人工智能的浪潮正席卷全球,诸多词汇时刻萦绕在我们的耳边,如人工智能,机器学习,深度学习等。“人工智能”的概念早在1956年就被提出,顾名思义用计算机来构造复杂的...

6127
来自专栏IT派

一文简短介绍Caffe

导语:在经过三天之后,我们的活动人数已经达到50人了,感谢大家对小编的支持,同时在本文末附上活动的众筹榜单(同日另一篇文)。希望能跟小伙伴们度过愉快的6天! 深...

3507
来自专栏AI研习社

微软开源 repo 1.0 ,旨在创造深度学习框架通用语言

AI 研习社按,日前,微软提出深度学习框架的通用语言——repo1.0,号称希望通过构建这一深度学习框架「Rosetta Stone(罗塞塔石碑)」,让研究者们...

1332
来自专栏机器之心

业界 | 现代「罗塞塔石碑」:微软提出深度学习框架的通用语言

选自arXiv 作者:Ilia Karmanov等 机器之心编译 参与:路雪、刘晓坤、白妤昕 深度学习框架就像语言一样:很多人会说英语,但每种语言都有自己的特殊...

3454
来自专栏腾讯Bugly的专栏

深度学习三大框架对比

人工智能的浪潮正席卷全球,诸多词汇时刻萦绕在我们的耳边,如人工智能,机器学习,深度学习等。

1.4K11
来自专栏有趣的Python和你

sklearn调包侠之无敌小抄

1646

扫码关注云+社区

领取腾讯云代金券