微软开源深度学习工具包CNTK更新2.3版,带来多重性能改进

近日微软更新了自家开源深度学习工具包CNTK,新的版本号为2.3,带来了多项性能改进。

CNTK全名为Computational Network Toolkit,与谷歌的TensorFlow、Facebook的Caffe/Caffe2一样是开源的计算平台/工具包,意在服务更多深度学习、人工智能的研究人员和开发者们。从2016年开源起,微软就宣传CNTK的性能明显高于Caffe、Theano、TensoFlow等其它的一些热门工具,当然也提供了基于英伟达cuDNN的一到多GPU加速支持。

CNTK在2.0的多个Beta和RC版本中逐步更新了面向Python、C++、C#、Java等语言的API支持,对Keras的后端支持,Python示例和教程、自动安装等等一大堆新功能,接着在2.1中把cuDNN版本升级到了6.0、支持Universal Windows Platform,在2.2中做了许多模型支持相关的改进之后,近日CNTK也发布了2.3版本。AI研习社把更新内容简单介绍如下:

CNTK 2.3 更新重点

  • 对ONNX标准的更好支持(关于ONNX看这里http://t.cn/Rpbv0JH)
  • 分布式训练支持切换到NCCL2,带来更好的性能(NCCL是英伟达官方的多卡训练库,详细解读看这里http://t.cn/RWciCvH)
  • 改进了C# API 的支持
  • (2.2版本中必须安装OpenCV库)现在OpenCV不是必须安装的,只有当用到TensorBoard Image功能和图像读取功能时才需要安装它
  • 多重性能改进
  • 增加了网络优化API
  • 更快的稀疏Adadelta

性能改进的相关项目包含

  • 改进 C# API,提升训练和预测性能
  • 通过自由动态轴的支持,提升带有卷积操作的网络的训练速度。对于某些模型,训练速度可以提升5倍以上;
  • 提升验证性能,移除了许多不需要的验证检查;
  • CPU 卷积中更多地使用MKL-ML,AlexNet的训练速度可以提升4倍;
  • Linux的正式版CNTK-GPU会默认使用NCCL2,可以降低分布式训练中的聚合开销。对于Python用户来说没有什么影响,Linux的Python自己就带有NCCL支持。BrainScript版本的用户需要先自己手工安装NCCL库作为CNTK的运行环境,就像CUDA和CUDNN一样。CPU版本和Windows版本都不受影响,因为目前NCCL只支持Linux。
  • 提升了梯度稀疏时Adadelta的更新速度。现在每次更新的运行时间和梯度中不为零的元素的数量成正比。对于在单个GPU上运行的带有高维稀疏输入(大约2百万特征)的前馈模型,性能可以提升5倍。内存需求稍有增加,每一个稀疏的输入特征会需要额外的四个字节空间(对前面提到的模型来说一共增加8MB左右的内存需求)

其它值得注意的项目

  • 2.3版本是最后一个支持Python3.4的版本,未来版本的CNTK将不再支持Python3.4。
  • ONNX方面,优化标准支持的同时,ONNX标准也更新到了最新版本;目前已经覆盖了ResNet、Inception、VGG在内的多数计算机视觉模型
  • 增加了GPU上分组卷积的支持

CNTK2.3版本此次发布了运行在Windows下的CPU、GPU、GPU+1bit-SGD、UWP等多个版本以及运行在Linux下的CPU、GPU、GPU+1bit-SGD三个版本,都支持64位系统。有需要的研究人员和开发者请到CNTK的github(http://t.cn/RbmuElb)马上更新吧。

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2017-12-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

学习R语言,一篇文章让你从懵圈到入门

在实际工作中,每个数据科学项目各不相同,但基本都遵循一定的通用流程。具体如下: 数据科学工作流程 数据导入 数据整理 反复理解数据 数据可视化 数据转换 ...

4034
来自专栏AI科技大本营的专栏

被 TensorFlowLite 刷屏了吧,偏要再发一遍

在本文中,Google 展示了 TensorFlow Lite 的框架构成以及一些功能特性。

4600
来自专栏CDA数据分析师

学习R语言,一篇文章让你从懵圈到入门

在实际工作中,每个数据科学项目各不相同,但基本都遵循一定的通用流程。具体如下: ? 数据科学工作流程: 1.数据导入 2.数据整理 3.反复理解数据 数据可视...

2466
来自专栏me的随笔

【译】10个机器学习的JavaScript示例

原文地址:10 Machine Learning Examples in JavaScript

862
来自专栏大数据文摘

手把手 | 如何在你的iPhone上建立第一个机器学习模型(Apple最新CoreML框架入门)

3665
来自专栏目标检测和深度学习

谷歌GPU资源免费啦

注:本文编译自medium,原英文链接:https://medium.com/@nickbourdakos/train-your-machine-learnin...

4227
来自专栏磨磨谈

调整PG分多次调整和一次到位的迁移差别分析

这个问题来源于我们研发的一个问题,在进行pg调整的时候,是一次调整到位好,还是分多次调整比较好,分多次调整的时候会不会出现某个pg反复挪动的问题,造成整体迁移量...

701
来自专栏瓜大三哥

SDI中的GTX

信号的高频成分经过PCB走线或者电缆传输后相对于信号的低频成分会被衰减得更多,此现象被称为曲阜效应,它会破坏高速信号的完整性,使其眼图关闭并增加信号抖动。为了补...

1244
来自专栏AI研习社

Tensorflow 入门与安装 | Tensorflow 最全资料汇总【2】

【AI研习社】关注AI前沿、开发技巧及技术教程等方面的内容。欢迎技术开发类文章、视频教程等内容投稿,邮件发送至:zhangxian@leiphone.com 自...

3786
来自专栏AI科技大本营的专栏

今天被TensorFlowLite刷屏了吧,偏要再发一遍

翻译 | 刘畅Troy 谷歌今天终于发布了TensorFlow Lite 的开发者预览!该项目是在5月份的I/O开发者大会上宣布的,据Google网站描述,对移...

4476

扫码关注云+社区

领取腾讯云代金券