功率密度成深度学习设计难题，数据中心市场展现新机遇

新智元

发布于 2018-03-27 15:53:09

6940

发布于 2018-03-27 15:53:09

文章被收录于专栏：新智元

【新智元导读】设计计算机系统来执行深度学习算法，以及构建数据中心基础设施来为这些系统供电和冷却，是一个日益凸显的难题。功率密度和互联可能是数据中心系统中深度学习的两大设计挑战。为了应对这一挑战，迎合相应的市场需求，一些企业涌现了出来。优秀的高密度数据中心空间供应商不愁没有客户。

这个星球上很少有人比Rob Ober 更了解如何制造服务于人工智能的计算机。作为Nvidia 加速计算团队的顶尖技术执行官，他是Tesla 的首席平台架构师，Tesla 是机器学习市场上功能最强大的GPU。

GPU ，即Graphics Processing Unit ，其名称源于其初始的设计目的，但今日其应用之广泛早已超越图形处理。

超级计算机设计人员发现 GPU 是从他们所构建系统的 CPU 中卸载庞大的工作负载块的理想工具；GPU 也被证明是深度学习这一机器学习方法中的超高效处理器。这正是Google 定位广告，亚马逊Alexa 即时应答语音查询那一类的 AI 。

通过观察和迭代创建计算机学习的算法无疑是复杂的; 同样极端复杂的是设计计算机系统来执行这些指令，以及构建数据中心基础设施来为这些系统供电和冷却。 Ober 已经敏锐地捕捉到这个需求，开始协助Nvidia 的超级客户在他们庞大的数据中心系统上开展深度学习。

他在接受 Data Center Knowledge 采访时说：“我们一直在处理超大规模数据中心中的大量超大规模问题，真正是所有的超大规模数据问题。” “构建一个用于深度学习训练的GPU 系统是非常难的工程问题。真的非常非常难。即使像Facebook 和微软这样的大家伙也在努力。“

训练AI耗能巨大

训练是深度学习中涉及的一种计算工作（更像是一类计算工作，因为这个领域在不断进化，而且训练方法也不止一种）。它的目的是教一个深层神经网络——一个包含计算节点的网络，旨在模拟神经元在人类大脑中相互作用的方式——基于已有数据的新的能力。例如，神经网络可以通过重复地“查看”其中标记为“狗”的各种狗的图像来学习识别照片中的狗。

另一类工作是推理，即神经网络将其知识应用于新数据（例如，识别出之前未见过的图像中的狗）。

Nvidia 为这两类工作制造GPU ，但是训练是数据中心中特别困难的一部分，因为用于训练的硬件需要非常密集的GPU 群集，或互连服务器，每个服务器需要高达八个 GPU 。一个这样的机柜需要至少30千瓦的功率，而超级计算机领域之外的大多数数据中心都无法支持这样的功率密度。即便以最低功率要求计算，20个这样的机柜的功率相当于尽管这是范围的低端，20个这样的机柜的功率约等同于达拉斯牛仔队 AT & T 球场的超大屏幕，该屏幕为世界上最大的1080p 视频显示器，包含3000万个灯泡。

Ober 谈到Nvidia 的GPU 时表示：“我们极其重视数据中心的基础设施”。 “深度学习的训练需要极其密集的计算机集群，功率因此也会变得极其密集，这是一个真正的挑战。”另一个问题是控制这些集群中的电压。GPU 计算本身特质会导致大量的电力瞬变（电压突然上升）的产生。Ober 表示：“这些都是难以应付的。”

互连节点是另一大难题。 “不同来源的数据会对数据中心网络带来难以置信的工作压力。” Ober 表示，“可能会制造一个超高热点。”在Ober 看来，功率密度和互联可能是数据中心系统中深度学习的两大设计挑战。

冷却人工大脑

Ober说，超大规模数据中心的运营者——比如Facebook和微软——大多数都是通过在许多机架上扩展深度学习集群来解决功率密度的难题，尽管有些使用了一点液体冷却或液体辅助冷却。液体冷却是指冷却水直接传送到主板的芯片上（这是冷却超级计算机的常见方法）；液体辅助冷却是指冷却水被带到连接到IT机柜的热交换器上，以冷却空气后送至服务器。

不是每个需要支持高密度深度学习硬件的人都能拥有数十万平方英尺的数据中心空间，而那些没有这种条件的，例如专注于高密度数据的为数不多的数据中心供应商，已经选择了液体辅助冷却的方式。最近，这些供应商在服务需求上有所上升，这在很大程度上是机器学习日益增长的兴趣所致。

初创公司和大型公司都在寻求被广泛预测为下一轮创新浪潮推动力的技术，但大多数公司没有必要的基础设施支持这项开发工作。高密度数据中心供应商ScaleMatrix 的联合创始人Chris Orlando 在接受采访时表示：“目前，以GPU 为核心的工作量显著增长，这绝对来自于企业业务。企业数据中心没有这样的设备。”

直线增长

直线增长是最近才出现的。Orland 说，他的公司业务去年年中出现了直线式增长。驱动增长的其他应用一直是生命科学和基因组学方面的计算（ScaleMatrix位于圣地亚哥外的旗舰数据中心是这类研究的中心。其最大的客户之一，是基因组学的重镇J. Craig Venter Institute），另外还有地缘研究和大数据分析。其第二个数据中心位于休斯顿，大部分需求来自石油和天然气行业，其勘探工作需要一些高辛烷值的计算能力。圣地亚哥另一个主要的ScaleMatrix 客户是Cirrascale，一家专注于深度学习基础设施的硬件制造商和云提供商。

通过用中央设备的冷却水冷却完全封闭的机柜中的空气，每个ScaleMatrix 机柜可以支持52kW的功率。定制系统的冷水循环位于机柜的顶部，其中从服务器排出的热空气上升、冷却并推回到主板上。随着企业对高密度计算的需求不断增长，该公司最近开始向有兴趣在室内部署的公司销售这项技术。

硅谷的数据中心供应商 Colovore 也专注于高密度托管业务。其正在使用更典型的后门热交换器，在当前第一阶段实现每机架20kW的功率，在即将到来的第二阶段达到35kW。至少有一家客户有兴趣超过35kW，因此该公司正在探索将冷却水直接送入主板的超级计算机系统的可能性。

今天，Colovore 数据中心的一大部分算力在支持 GPU 集群进行机器学习，该公司的联合创始人兼总裁 Sean Holzknecht 在接受采访时表示，和 ScaleMatrix 一样，Colovore 现在状况不错。硅谷是机器学习、无人驾驶汽车和生物信息学公司的温床，优秀的高密度数据中心空间供应商不愁没有客户。

应对AI硬件的猛增

对于Colovore 和ScaleMatrix 提供基础设施的需求可能会持续增长。机器学习还处在早期阶段，而大型云平台（Google、Facebook、微软和阿里巴巴等）之外，没有几家公司在生产过程中使用该技术。目前该领域的大部分活动是研发，但这项工作仍然需要大量的GPU功率。

Nvidia表示，对于AI硬件的需求正在激增，其中很多都是由像AmazonWeb Services，Google Cloud Platform 和MicrosoftAzure 这样的企业云巨头所驱动，他们提供机器学习增强的云服务和用于出租的原始的 GPU 功率。市场对可用的最强大的云GPU 实例有强烈需求。“目前拥有GPU 实例的云供应商看到了令人难以置信的消费和牵引力。”Nvidia的Ober 说，“人们确实正在转而寻找能够找到的最大实例。”

http://www.datacenterknowledge.com/archives/2017/03/27/deep-learning-driving-up-data-center-power-density/