专栏首页量子位未来FPGA能击败GPU么?这是英特尔的研究成果

未来FPGA能击败GPU么?这是英特尔的研究成果

问耕 编译整理 量子位·QbitAI 报道

在最近的FPGA国际研讨会(ISFPGA)上,英特尔加速器架构实验室(AAL)的Eriko Nurvitadhi博士,发表题为《Can FPGAs beat GPUs in Accelerating Next-Generation Deep Neural Networks》的报告,分享了英特尔的最新研究。

这一研究,主要评估在DNN(深度神经网络)算法领域,两代英特尔FPGA(Intel Arria10和Intel Stratix 10),与NVIDIA TITAN X Pascal GPU相比性能如何。

深度神经网络概述

英特尔表示在应用领域,FPGA在DNN研究中表现非常出色,可用于需要分析大量数据的AI、大数据或机器学习等领域。使用经修剪或紧凑的数据类型与全32位浮点数据(FP32)时,测试的Intel Stratix 10 FPGA的性能优于GPU。

除了性能外,FPGA还具有强大的功能,因为它们具有适应性,通过重用现有的芯片可以轻松实现更改,从而让团队在六个月内从一个想法进入原型。

而构建一个ASIC需要18个月。

FPGA重要性正在提升

FPGA非常适用于DNN

硬件:与高端GPU相比,FPGA具有卓越的能源效率(性能/瓦特),但还有不被熟知的高峰值浮点性能。FPGA技术正在迅速发展。即将推出的英特尔Stratix 10 FPGA提供超过5,000个硬件浮点单元(DSP),超过28MB的片上RAM(M20K),与高带宽内存等特性。

基于14nm工艺的英特尔Stratix 10在FP32吞吐量方面达到峰值9.2TFLOP/s。相比之下,最新的Titan X Pascal GPU的FP32吞吐量为11TFLOP/s。

新兴的DNN算法:更深的网络提高了精度,但是大大增加了参数和模型大小。这增加了对计算、带宽和存储的需求。因此,新兴趋势是采用紧凑型低精度数据类型,远低于32位。16位和8位数据类型正在成为新常态,也得到DNN软件框架(例如TensorFlow)的支持。

新兴的低精度和稀疏DNN算法比传统的密集FP32 DNN提供了数量级的算法效率改进,但是它们引入了难以处理的不规则并行度和定制数据类型。这时FPGA的优势就体现出来了。这种趋势使未来FPGA成为运行DNN,AI和ML应用的可行平台。

研究所用的硬件和方法

GPU:使用已知的库(cuBLAS)或框架(Torch with cuDNN)

FPGA:使用Quartus Early Beta版本和PowerPlay

研究一:矩阵乘法(GEMM)测试

矩阵乘法(GEMM)测试的结果。GEMM是DNN中的关键操作,上述四个不同类型的测试表明,除了在FP32 Dense GEMM测试中,Stratix 10与TITAN X仍有差距。另外三项测试中新一代英特尔FPGA的表现都优于GPU。

研究二:使用三元ResNet DNNs测试

三进制DNN最近提出约束神经网络权重为+1,0或-1。这允许稀疏的2位权重,并用符号位操作代替乘法。与许多其他低精度和稀疏的DNN不同,三元DNN可以提供与现有技术DNN(即ResNet)相当的精度。

上图右半部分,显示了英特尔Stratix 10 FPGA和TITAN X GPU的ResNet-50的性能和性能/功耗比。即使对于保守的性能估计,英特尔Stratix 10 FPGA已经比实现了TITAN X GPU性能提高了约60%。在性能/功耗比方面,英特尔Stratix 10比TITAN X要好2.3倍到4.3倍。

结论

当下一代DNN到来时,FPGA的表现能否击败GPU?英特尔对比两代FPGA以及最新的TITAN X GPU,结果显示目前DNN算法的趋势可能有利于FPGA。

再说一次,这个研究报告出自英特尔,这个研究团队还指出,除了DNN之外,FPGA在其他不规则应用程序以及延迟敏感程序(如ADAS)等领域也有机会。

本文分享自微信公众号 - 量子位(QbitAI)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-03-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 杯水车薪!英特尔自动驾驶单季贡献2亿美元,股价下跌9%市值蒸发240亿美元

    虽然自动驾驶业务增速明显,但其他主营业务并不给力,计算集团、数据中心等主营项目都增长乏力。

    量子位
  • 迫不及待,英特尔推特“官宣”GPU发布时间

    在AMD上周突然发布全球首款7纳米GPU后,英特尔在今天迫不及待地公布了自家独立GPU的发布时间。

    量子位
  • 老司机养成:教神经网络变身《马里奥赛车》高手 | 论文+代码

    问耕 编译整理 量子位 出品 | 公众号 QbitAI ? 神经网络持续在游戏界立功,这次拿下的是经典游戏:《马里奥赛车64》,而且只需要很小的计算力就能完成。...

    量子位
  • 深度学习:FPGA VS GPU

    阅读原文有学习资源分享。 导语:FPGA 在加速下一代深度学习方面能击败GPU吗? 许多图像、视频和语音来自社交媒体和物联网等数据源,这些内容的数字数据继续急...

    IT派
  • 业界 | 深度学习硬件对比评测:英特尔FPGA和英伟达GPU哪个更好?

    选自Nextplatform 作者:Linda Barney 参与:李泽南、晏奇、黄小天、吴攀 FPGA 会随着深度学习的发展占领 GPU 的市场吗?英特尔的研...

    机器之心
  • DAC 2019低功耗目标检测系统设计挑战赛:GPU、FPGA组双冠军方案解读

    本次比赛内容传承了上届精髓,包含极具挑战性的软硬件协同设计任务:参赛队伍需要设计高精度算法完成小物体检测、被遮蔽物体检测、相似目标区分等任务,也需要充分考虑算法...

    机器之心
  • FPGA程序加载方式

    Vivado 设计过程中生成的 bit 流文件需要通过特定的配置引脚导入到 FPGA 中。专用配置引脚上的不同电压级别决定了不同的配置模式。可选的配置模式有:

    瓜大三哥
  • EM算法学习(三)

    在前两篇文章中,我们已经大致的讲述了关于EM算法的一些基本理论和一些基本的性质,以及针对EM算法的缺点进行的优化改进的新型EM算法,研究之后大致就能够进行初步的...

    云时之间
  • EM算法学习(三)

    在前两篇文章中,我们已经大致的讲述了关于EM算法的一些基本理论和一些基本的性质,以及针对EM算法的缺点进行的优化改进的新型EM算法,研究之后大致就能够进行初步的...

    云时之间
  • 赛尔笔记 | 自然语言处理中的迁移学习(下)

    相关概念:灾难遗忘 (McCloskey&Cohen, 1989; French, 1999) :一个模型忘记了它最初受过训练的任务

    zenRRan

扫码关注云+社区

领取腾讯云代金券