专栏首页新智元深度 | 英特尔刚刚推出的深度学习处理器 Knights Mil 强在哪里

深度 | 英特尔刚刚推出的深度学习处理器 Knights Mil 强在哪里

【新智元导读】英特尔今天推出了深度学习处理器 Knights Mill,正式迈入了与英伟达GPU抗衡的战场。Knights Mill 能充当主处理器,可以直接接入RAM系统,这无疑会成为英特尔和英伟达接下来市场宣传和竞争的焦点。随着摩尔定律“失效”,GPU在深度学习市场走红,英特尔自己研发GPU,收购深度学习初创公司,传统芯片巨头正在快速推进AI战略。

在IDF会议上,Intel宣布了Xeon Phi家族的新成员,代号Knights Mil。它将于2017年问世,针对深度学习市场。

Xeon Phi是Intel针对高性能计算市场推出的加速卡,主要与NVIDIA的Tesla、AMD的FirePro S等产品竞争,不过后两者是基于GPU的,而Xeon Phi是X86众核架构的。

Xeon Phi目前已经发展了三代,第一代Knigts Corner,22nm工艺,最多61个核心,浮点性能1TFLOPS。第二代是Knights Landing,14nm工艺,最多72核心,浮点性能3+TFLOPS。

英特尔于2014年宣布第三代Knights Hill,制程工艺升级到10nm。然而这周,该公司没有提到Knights Hill,Knights Mill是否是换了名字的Knights Hill,或是Knights Mill的制作工艺如何都不得而知。考虑到Knights Mill将于2017年问世,它应该不是Knights Hill,因为英特尔不可能这么早就制作完成10nm的芯片。

Knight Mil,可以用作主处理器的深度学习加速器

英特尔为该处理器增加了他们称之为“可变精度”(variable precision)的支持。但是,Intel并没有公布太多细节,具体的性能等级也未知。但使用低精度模式一直是以机器学习为重点的处理器的性能发展的主要因素。所以这很可能意味着,英特尔将会把FP16和其他低精度模式加入其中,而目前的Knights Landing就没有。(机器学习一般不需要高精度,这些较低的精度模式可能会大幅增加处理器的吞吐量,而且,少量的操作可以被压缩成一个SIMD。)

英特尔最终的目标是让Xeon Phi处理器表现得更好,这能降低大型复杂数据集的训练时间。同时,Knights Mill的内存也有所改变,英特尔称其是“灵活、高容量的内存”。

有了Knights Mill,英特尔终于能与Nvidia的GPU在机器学习的地位抗衡了。谷歌也开发了自己的TPU,与GPU一起用于机器学习。但是,Knights Mill与其竞争者之间是不同的。而谷歌的TPU和Nvidia的GPU都是辅助处理器,必须和CPU一起工作。

英特尔介绍,Knights Mill像Knights Landing一样,能充当主处理器。因此,我们可以期待,英特尔肯定会夸赞Knights Mill不需要单独的主机处理器和辅助处理器,以及Knights Mill可以直接连接到RAM系统中。这一点,再加上GPU架构和Knights Mill之间的性能差异,无疑将成为两家公司之间的经常性冲突。

英特尔公司副总裁Jason Waxman在接受采访时说,Knights Mill的目的是能快速计算,并根据概率和联系(probabilities and associations)做决策。其设计也将为计算带来更多的浮点性能,这对机器学习很重要。Waxman表示,英特尔正在快速推进AI战略,Knights Mill就是一个飞跃。

许多机器学习模型都在数据中心使用。除了其自主研发的软件堆栈,英特尔还可以使Xeon Phi兼容不同的机器学习模型,比如Caffe和TensorFlow。

英特尔表示愿意与其他公司合作。Waxman说,英特尔和百度正在利用Xeon Phi平台研究 “Deep Speech”语音识别技术。

英特尔正在为快速增长的AI、VR和AR市场提供一大批芯片,但是唯独没有高性能的GPU。

失败的GPU研发

在2009年,英特尔放弃了Larrabee的开发——一款独立研制的独立GPU,定位是PC游戏系统。现在,一些分析者质疑,英特尔是否需要自己的高性能GPU——快速增长的游戏、VR和AR市场的驱动力。

GPU在正在进行的英特尔IDF大会上并没有得到多大的重视,大会的重点是英特尔的AI和VR战略。英特尔着重强调其CPU和FPGA(现场可编程门阵列),而缺少GPU的来追逐热门市场可能是该公司产品线上的一个缺口。英特尔从未在图形处理上充当过领导者,它也没有像Nvidia或AMD一样在该领域激烈地竞争。本周,英特尔在图形处理技术上取得了一些进展,称其即将推出的Kaby Lake PC芯片将集成支持4K的图形处理器。

对于AI,英特尔性能最高的芯片是Xeon Phi,这是从Larrabee的衍生而来。在IDF上,该公司宣布了一款用于AI的Xeon Phi 芯片,名为Knights Mill。其推出的新FPGA可以为特定的机器学习任务重新编程。鉴于其现在的芯片系列,英特尔并不认为它需要专门的GPU来实现自己的AI战略。

“真的,大多数高性能计算机并不需要一个GPU,它们需要的是并行应用的性能。有很多方法可以达到这个需求,” 英特尔副总裁Waxman说。

但是,在多媒体应用上,自主研发的GPU可能会有帮助。“如果英特尔像AMD和Nvidia公司一样有高性能GPU的话,它就能在VR和AR领域发挥更大的作用,”Moor Insights and Strategy的首席分析师Patrick Moorhead说。“有了现在的CPU,英特尔就能在VR和AR市场一路高歌猛进,从头戴式显示器到主流AI和VR……”但是,要使用像Oculus Rift或者HTC Vive这种VR头盔,使用英特尔CPU的PC将仍然需要来自Nvidia或AMD的高端GPU。

英特尔有自己的Xeon Phi和软件堆栈,可能不需要GPU来实现AI战略,但这还要时间来证明,Moorhead说。

“有高性能的GPU来打入AI、游戏、VR 和AR市场,可能会帮助英特尔一举多得,”Tirias Research的首席分析师Jim McGregor说,“但是英特尔已经在研制GPU上花费了大量的钱,却没有取得成功。”英特尔可能没有意愿再研制高性能GPU了,这对于它而言太有挑战性了。

“而且,英特尔也不支持用辅助处理器加快处理速度的想法,它认为应该打造能启动计算机并处理所有工作负载的全能主机芯片,”McGregor说,“同时,它还可以转向AMD、Nvidia,或者Imagination Technologies以满足其图形处理需求。”英特尔曾在其名为Sofia 的AtomX3低端芯片中使用ARM的技术。

迎接摩尔定律的终结

几十年来,芯片制造商在如期成倍提高芯片性能方面一直做得很出色。这些期限是由摩尔定律决定的,早在上世纪60年代就成型了。但是,随着我们对更小、更快、更高效的设备的需求激增,许多人都预测摩尔定律的时代可能要终结了。

就在上个月,国际半导体技术蓝图(ITRS)——包括芯片巨头英特尔和三星在内——发布了一份报告称,晶体管的尺寸将在2021年停止缩小。这些公司认为,到那时,继续缩小晶体管的尺寸在经济上将行不通。

虽然传统认为摩尔定律的终结是一个坏消息,但是它也会带来好处,即推动人工智能的崛起。可以说,摩尔定律的终结让硬件设计从人工机器智能(一种自上而下的人类工程学方法)跨越到自然机器智能(一种自下而上的自我改善方法)。

随着人工智能不再从明确的程序设计中产生,工程师们正在着力构建自主发展的系统,如深度学习——一种从生物系统建模的人工智能技术。各大公司正依赖于深度学习神经网络——模拟大脑神经元处理信息的算法。然而,AI工程师面临着一个挑战——深度学习所需的处理能力远远超出了现在消费级芯片的能力。

2012年,谷歌的神经网络教会自己识别出猫,而该系统需要的计算能力需要1000台不同机器上的16000个处理器才能满足。最近,AI研究人员已经转向GPU的处理能力。

GPU的好处是,它允许更多的并行计算。并行计算时,计算工作负载被同时划分到多个处理器。因为数据处理任务被分成多个小块,计算机可以将工作负载分配到各个处理单元。这种切分处理的方法对AI的发展至关重要。

“高端计算将会取决于一个芯片上能进行多大的并行计算,”深度学习芯片研发公司Nervana Systems的CEO NaveenRao说。Nervana Systems 最近刚被英特尔纳入麾下。

“我们的芯片就是摩尔定律终结的产物,”Rao说。

Rao的芯片设计将图形卡的并行计算融入到硬件中,舍弃了缓存这种不必要的功能。该芯片处理数据非常快,同时能利用更多的可用计算能力。据Rao介绍,该芯片能够运行深度学习算法,运行消耗的功率更少,而运行的量更大。

实际上,摩尔定律的终结早已不是新闻。早在2005年,工程师们就已经达到"登纳德缩放比例定律"(Dennard scaling)的极限了。也就是说,芯片继续在缩小,但是却开始漏电和过热。这就迫使芯片制造商制造多核CPU,而不是继续缩小芯片尺寸。这种芯片热积聚问题正是像Nervana System这样的芯片设计公司承诺要解决的问题。

收购 Nervana Systems,标志着英特尔豪赌人工智能将成为企业数据中心的关键。

英特尔副总裁 Jason Waxman 表示,“总会有下一个浪潮。我深信这不仅是下一个浪潮,而且还将是让上一波浪潮相形见绌的浪潮。”

用户的注意力已经开始捕捉下一波浪潮而变化,英特尔在人工智能和深度学习等业务方面仍表现不足,但这些业务正在改进。

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-08-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【超GPU 100倍】IBM新型AI芯片发Nature,英特尔、微软出大招

    新智元
  • 【年薪千万超级矿工】共享矿机训练神经网络,收益是挖矿4倍

    【新智元导读】共享单车有了,共享GPU还会远吗?最近有人发起了一个项目,从挖掘加密货币的矿工那里租借GPU,借给AI研究人训练神经网络。矿工能够得到双倍乃至三倍...

    新智元
  • 基准评测 TensorFlow、Caffe、CNTK、MXNet、Torch 在三类流行深度神经网络上的表现(论文)

    【新智元导读】新年伊始,新智元向你推荐香港浸会大学计算机学院褚晓文团队最新论文《基准评测当前最先进的深度学习软件工具》,评测了 Caffe、CNTK、MXNet...

    新智元
  • 1.2 GPU VS CPU

    从上节阐述了GPU的发展历史,那么为什么在CPU之外要发展GPU?GPU 的 vertex programmability 和 fragment program...

    代码咖啡
  • 26秒训练ResNet,用这些技巧一步步压缩时间,Jeff Dean都称赞:干得漂亮

    现在,谷歌AI掌门人Jeff Dean转发推荐了一个训练ResNet的奇技淫巧大礼包,跟着它一步一步实施,训练9层ResNet时,不仅不需要增加GPU的数量,甚...

    量子位
  • 超原版速度110倍,针对PyTorch的CPU到GPU张量迁移工具开源

    神经网络的训练中往往需要进行很多环节的加速,这就是为什么我们逐渐使用 GPU 替代 CPU、使用各种各样的算法来加速机器学习过程。但是,在很多情况下,GPU 并...

    机器之心
  • 做 API 监控有没有什么方法论?

    针对 API 的管理,非常重要的一点就是做 API 监控。前段时间看了 Nginx 社区发布的一本关于 API 流量管理的书,感觉书中的内容还不错,结合我在实际...

    黑光技术
  • 使用HTML5和Javascript设计绘图程序

    首先,我们来设计下这个绘图程序将会拥有什么功能。在这个简单的绘图程序中,首先要有的是一块能给用户涂鸦的画布区域,上面有一只可爱的小鸭,然后我们准备了4种不同颜色...

    用户5997198
  • Flutter实战 | 从 0 搭建「网易云音乐」APP(二、Splash Page、登录页、发现页)

    本系列可能会伴随大家很长时间,这里我会从0开始搭建一个「网易云音乐」的APP出来。

    Flutter笔记
  • 熬夜总结了 “HTML5画布” 的知识点(共10条)

    (xStart,yStart)是线段的起点,(xEnd,yEnd)是线段终点。起点到终点之间的颜色呈渐变。

    小灰

扫码关注云+社区

领取腾讯云代金券