【业界】是时候解决深度学习的生产力问题了

深度学习正在推动从消费者的手机应用到图像识别等各个领域的突破。然而,运行基于深度学习的人工智能模型带来了许多挑战。最困难的障碍之一是训练模型所需的时间。

需要处理大量的数据和构建基于深度学习的人工智能模型的计算复杂性,同时也降低了精确度和实用性。训练时间通常要花费几天,有时是几周的时间。为了缩短创建深度学习模型的时间,我们需要减少与深度学习训练相关的时间,从几天到几小时,再到几分钟或几秒钟。

GPU速度过快 为了理解深度学习研究者们正在努力解决的问题,不妨考虑一下盲人和大象的简单故事。在寓言中,每个盲人都能感觉到大象的不同部分。然后,他们会根据自己有限的经验,争论整只大象的长相。

如果你给盲人一段时间,他们可以分享足够的信息,拼凑出一张相当准确的大象图片。它与GPU(图形处理器)是一样的,它与CPU(中央处理器)一起使用,以加快深度学习、分析和计算的速度。

如果你在一个系统中有比较缓慢的计算芯片,你可以很容易地同步它们的学习进度。

但是,随着GPU变得越来越智能和迅速,它们会变得不同步。然后它们就会花很多时间等待对方的结果。

深度学习系统中的功能缺口 为了实现改进的快速模型训练,数据科学家和研究人员需要在大量服务器上进行深度学习。然而,大多数流行的深度学习框架都是在一个服务器上,而不是在许多服务器上使用GPU。

挑战在于,在许多服务器上编排和优化一个深度学习问题是很困难的,因为GPU运行得越快,它们学习的速度就越快。GPU也需要与其他GPU共享它们的学习,但在传统软件中,这是不可能的。

最近,深度学习系统中的这种功能缺口促使IBM研究团队开发了分布式深度学习(DDL)软件和算法,这些软件和算法可以在数十台服务器上的数百个GPU加速器中实现大型的和复杂的计算任务的并行化。

对于这个软件,研究人员开发了一个定制的通信库,它可以帮助系统中的所有学习者(GPU)以非常接近于最优的速度和带宽的方式相互通信。而且,这个库并不是硬编码到一个深度学习软件包中,因此它可以与诸如TensorFlow、Caffe和Torch这样的框架集成在一起。

在这个项目中使用的GPU之间的通信对于打破图像识别能力的训练记录至关重要。研究人员能够将神经网络的训练时间减少到50分钟,即“ResNet-50”。在另一个网络,ResNet-101中,他们通过750万张的训练图像得到了33.8%的新精确度记录。这些图像来自ImageNet,一个包含了超过1500万张有标签的、属于22000种不同的类别的高分辨率图像大数据集。

采用这种方法,数据科学家和机器学习研究人员可以快速提高精确度,并训练神经网络模型,计算机软件建模于人脑和神经系统。训练有素的神经网络模型能够完成特定的任务,比如在医学图像中检测癌细胞。它们的准确性可以通过再次训练来进一步提高,这需要几秒钟的时间。

将深入学习搬出“象牙塔”(指脱离现实生活的小天地) 当然,我们的目标是让人工智能算法和软件以及其他机器学习技术尽可能快地运行。通过系统设计和系统创新,像这样的分布式深度学习软件可以解决深度学习的生产力问题。你越快开始创造新的人工智能能力,消费者在图片标签或语音识别等事情上的准确度就越高。

人工智能已经变得更快、更智能、功能更完善。但我们需要从“象牙塔”中深入学习,那里的训练时间和精确度仍有待进一步提高。为此,我们必须加快从研究人员手中获得创新的时间,并投入到客户的手中,他们需要几分钟或几秒钟的时间来取得商业成果。研究人员需要找到新的方法来更快地处理深度学习,用正确的框架,来解决持续的和具有挑战性的人工智能问题。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-11-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器人网

三个自动化深度学习平台比较和盘点

数据科学领域有一部分研究者和开发者已经选择学习这些新技术了,但在预测性和规范性建模的问题类型和技术方面(我们 90% 的工作就是这些),学习深度学习技术却与我们...

1002
来自专栏SIGAI学习与实践平台

人工智能非技术从业者必知的十件事

原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不得转载,不能用于商业目的。

581
来自专栏AlgorithmDog的专栏

深度学习框架大战正在进行,谁将夺取“深度学习工业标准”的荣耀?

深度学习框架大战正在进行,谁将夺取“深度学习工业标准”的荣耀,我们拭目以待。

2377
来自专栏机器之心

深度 | 生产级深度学习的开发经验分享:数据集的构建和提升是关键

本文从生产层面强调了深度学习项目开发中需要更加重视数据集的构建,并以作者本人的亲身开发经验为例子,分享了几个简单实用的建议,涉及了数据集特性、迁移学习、指标以及...

920
来自专栏AI科技评论

视频 | 给正在读论文的你:如何高效阅读文献?

原标题:How to Read a Research Paper 翻译 | 王飞 J叔 字幕 | 凡江 整理 | 林尤添 无论是对于机器学习,密码...

27210
来自专栏祝威廉

如何实现AutoML--让机器先做出Baseline

我之前写过一篇如何实现AutoML -- 先Auto每个环节,大致思路是让机器先自动化每一个小环节,每个环节输出唯一一个结果,这样可以极大的简化搜索空间。比如我...

741
来自专栏窦融的专栏

手把手带你做推荐(一):推荐分类和样本构造

继上篇《个性化推荐101》之后,同学们反馈还不够详细,可能对没有做过推荐的同学初上手还是不知所措,故根据自己的经验分三篇出一个系列更加详细的指导文档,一步步带大...

1.1K1
来自专栏机器人网

强化学习方法汇总,以及他们的区别

了解强化学习中常用到的几种方法,以及他们的区别, 对我们根据特定问题选择方法时很有帮助. 强化学习是一个大家族, 发展历史也不短, 具有很多种不同方法. 比如...

2744
来自专栏人工智能头条

算法、应用与计算平台,讯飞百度阿里360的深度学习经

2064
来自专栏量子位

Facebook新方法加速计算机视觉训练,120万张图只用1小时(附论文)

陈桦 编译自 Facebook 量子位出品 | 公众号 QbitAI 知乎上有个问题,大意是你在等待机器学习模型训练的时候,都做些什么。 Facebook今天在...

3475

扫码关注云+社区