专访 | UIUC陈德铭教授:「万能芯片」FPGA与深度学习

机器之心原创

作者:邱陆陆

人工智能的风潮从技术一路蔓延到硬件,让「芯片」成为今年行业里盛极一时的主题。人们关注通用芯片领域里 CPU 和 GPU 不断刷新的基准(benchmark),更对专用芯片(ASIC)领域不同场景下不断问世的解决方案表示出了空前的热情。

而众所周知,在专用芯片与通用芯片中间,还有一个更为灵活,也更为神秘的领域:FPGA。无论是英特尔天价的收购还是微软与 IBM 雄心勃勃的计划,都让人对其更加好奇。而「万能芯片」的名称,以及多样化的职责范围:它可以是智能手机里不起眼的一个小组件,也可以是数千美金一块的开发板,也让人对其真面目更加疑惑。

FPGA 与深度学习的关系究竟是什么?它适合加速何种类型的运算?适合应用于何种场景?6 月,机器之心采访了美国伊利诺伊大学香槟分校电气与计算机工程系(UIUC ECE)教授、深度学习算法硬件加速解决方案创业公司 Inspirit IoT 创始人陈德铭,与他聊了聊「万能芯片」FPGA 在深度学习领域的用法。陈教授于近期宣布兼任国内计算机视觉领域创业公司触景无限的首席科学家。

以下为采访实录。

机器之心:从算法的角度,FPGA 适合于加速哪些运算?

FPGA 的优势在于可定制化的并行。它可以为了特定算法专门定制逻辑单元。例如,算法中需要完成一个开三次方的运算,在通用芯片上需要一长串指令实现它,但是在 FPGA 上可以为这个特定运算设计一个单元。

定制化的一个「极限」的例子是,如果能够把神经网络中的参数全部二值化、特征图(feature map)也全部二值化,那么甚至可以不用乘法器,而是用异或门(XOR gate)完成计算,会有异常强大的表现。即使不全部二值化,因为全部二值化会让准确度明显下降,只要合理使用各种低位宽的运算,仍可以让 FPGA 大放异彩。比如在我们最近和 IBM 合作的 ELB-NN 项目中,我们可以在功耗低于 5 瓦的情形下,让神经网络在 FPGA 上的算力达到 10.3 TOPS,同时依然维持非常高的准确度。

另一个例子是微软的 Brainwave FPGA 项目,通过使用特殊的 8-bit 的浮点运算,可以在高容量的 FPGA 上达到 40 TOPS。

值得一提的是,LSTM 等神经网络每一步操作都很相似,这种整体运算过程是序列的算法也非常适用于用 FPGA 进行加速。FPGA 非常擅长处理流数据,可以设计流水线机制,使得在运算过程中不需要将中间数据存入内存而是直接送到下一步进行操作。

机器之心:相比于其他芯片,FPGA 在实现深度学习模型时有哪些结构带来的优势?

FPGA 的引脚比一般的芯片多,同时它的逻辑单元可以完全根据算法要求来重组从而产生定制化的数据通路(datapath),因此非常适合处理大批量流数据。它不像 GPU 一样需要反复调取片外存储中的数据,理想状态时,只要数据一次性流进去再流出来,算法就完成了,因此,FPGA 非常适合具有低延迟需求的任务。

另外 FPGA 的速度快、功率低的特点也让它在能耗方面相比于 CPU、GPU 也有很大优势。

比如我们在 FPGA 上实现了长期循环卷积网络(Long-term Recurrent Convolutional Network),它的速度 ( latency ) 比 GPU 快 3.1 倍,FPGA 的功率比 GPU 小 5.6 倍,最终整体能耗降低 17 倍左右。

机器之心:从行业的角度,FPGA 都能够用于哪些机器学习与深度学习任务的加速?

在终端,有些自动驾驶公司的车上系统中就采用了 FPGA 完成一些实时检测识别任务。例如,我曾经代表 UIUC 与小鹏汽车的副总裁、机器学习专家谷俊丽女士交流,她提到,FPGA 可以凭借信号处理和低能耗方面的优势,成为一个可靠的第二系统,在汽车的第一系统出现失误的时候,作为安全模式介入进来。IoT 方面的应用就更多了,无论是安防还是智能家居,FPGA 都会有机会进入市场。

在云端,也有结合 FPGA 的巨大空间。之前,微软的 Project Catapult 就搭建起了大规模的 FPGA 云服务器。现在 Catapult 正在运行搜索和数据存储方面的运算,同时,他们也在积极地思考如何把机器学习运算部署在上面,包括是否能将 FPGA 作为其 Azure 云的后端支持。亚马逊 AWS 的 FPGA 云计算已经很有规模了,并且一直在大力推动之中。最近,国内创业公司深鉴也开始结合华为的云端 FPGA 来进行深度学习算法的加速,特别在基于 LSTM 的语音识别上非常有优势。

机器之心:能否介绍一下使用高层次综合(HLS)自动生成寄存器级(RTL)实现与手工用硬件描述语言(HDL)进行实现的区别?

对于深度学习相关算法来说,HLS 是有优势的。

当你阅读用高层语言描述的深度学习模型时,你会发现模型是有规律的。比如,卷积操作在 C 语言里就是一个六层的嵌套循环。此时我就可以针对这个循环开发一个 IP 核,确定如何进行流水线设计(pipelining),如何分配存储等,然后再将 IP 核用在 FPGA 上,进而让神经网络中的所有卷积层来共享 IP 核即可。

此时设计的优化要点是 IP 核的大小、是否需要多个 IP 核并行运算等。这是一个非常适用 HLS 的场景,因为 HLS 可以自动化地、快速地探索不同的解决方案。如果采用 RTL,则需要很多工程师,组成多个团队,每个团队根据工程师过去的设计经验着重探索一个方向,这是一个成本非常高的过程。

RTL 是一种描述硬件的空间的关系和逻辑时序等逻辑关系的硬件描述语言。这是一门难学的语言,能够熟练掌握的从业者也不多,开发和测试都很慢。夸张点说,如果 HLS 开发周期以天和周来计算,那么 RTL 通常是以月和年。

从最终结果角度讲,RTL 完全手工调制的解决方案是很可能比 HLS 自动生成的方案效果好的。我们曾经做过比较,在深度学习的情境下,HLS 和 RTL 方法的差距在 10% 左右。

因此,问题在于是否愿意花 3-5 倍的时间获得额外 10% 的效果。

机器之心:在简化 FPGA 开发过程这一任务上,研究者做了哪些工作?

我们的团队开发了一个研究工具,是一个 C 语言的模板库,能够根据 Caffe 和 TensorFlow 的代码自动生成 C 语言的表达。然后研究者可以将 C 语言的代码再交给 HLS 工具生成 RTL 代码。

C 语言是软件工程师普遍掌握的语言,这样的工具让软件工程师也具有 FPGA 开发能力,而且让开发者更专注于算法,而不用过多考虑底层硬件。

而且,这个过程中的中间结果都可以导出,专业人员也可以在自动生成的基础上再进行优化,总而言之,整个开发的效率都得到了极大的提高。

这只是举一个例子。还有其它很多的研究人员在做相关的提升深度学习设计效率和质量的各类工具和平台。工业和学术届的都有。学术届比如 UCLA 的丛京生老师,以及 Cornell 的张志汝老师等。工业届比较领先的是赛灵思和英特尔自己设计的一些工具。

机器之心:各个大公司在 FPGA 的应用方面都进行了哪些工作?拓展市场的思路都有哪些?

IBM 和赛灵思正在 Power 系列上进行合作,致力于在 FPGA 上加更多的存储,在最新的原型机上,把存储加到了 64G,相比于市面上现在常见的最大 8 或 16G,极大扩展了数据带宽,来进行和大数据相关的处理。

英特尔收购了 Altera,并且致力于帮助 Altera 进行编译等工具的开发。这是一个 FPGA 商品化的思路,就像 GPU 一样,说不定未来的 PC 里就会有一个 FPGA 协处理器在 CPU 旁边完成工作。或者在芯片层面上,CPU 片上就有一块 FPGA。总而言之,一旦工具做好,整合的机会会有很多。英特尔在智能城市、智慧制造方面都有很多的构想,并且希望借由 FPGA 实现。

再就是微软。它的思路主要就是云计算,除了 Bing 之外,也希望在进行机器学习任务的 Azure 云中使用 FPGA。

机器之心:能否介绍一下 Inspirit IoT 通过哪些产品实现了深度学习算法在 FPGA 上的加速?

我们公司主要有三个产品,按照层次分别是 DNN 优化器、高层次综合加速编译器(HLS compiler),以及整体 FPGA 解决方案。

DNN 优化器的目标是定制一个 FPGA 友好的模型,把训练好的模型中对于推理来说冗余的部分去掉。例如,训练时使用的浮点数可以被替换为定点数,训练时每层有非常多的单元,但是在推理的时候可以进行剪枝(Pruning),等等。DNN 优化器就是以各种高层框架的模型为基础,根据硬件的特性和场景的特性进行自动的优化。

高层次综合编译器让开发者得以绕开写 Verilog 硬件描述语言,将 C、 C++、CUDA 等代码直接编成 FPGA,旨在降低硬件开发的门槛,提高软件工程师的生产力。我们的特色是这个编译器可以自然结合深度学习算法中的各种 IP 核,从而可以最好的优化各种深度学习算法在 FPGA 上的高速及高质量的实现。

除此之外,我们也有嵌入 FPGA 的开发板,用于声音相关的应用场景。其上嵌入了 FPGA 和 4 个麦克风,可以检测声音来源、提高声音质量,也可以和摄像头等其他设备连用。例如,捕捉到车辆撞击声、尖叫声等特定声音之后,能够调转摄像头,收录相关的视频等,希望获得一个「1+1>3」的效果。

特别鸣谢:北京大学高性能计算机研究中心博士生 王硕

本文为机器之心原创,转载请联系本公众号获得授权。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-06-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏黄成甲

AI不是魔法:人工智能的能与不能

如果把AI技术分为「前端的交互技术」和「后端的人工智能技术」。前端的交互技术包括语音识别、图像识别和自然语言处理;后端的人工智能技术就是人工智能的核心算法,包括...

18130
来自专栏人工智能

CCCF 微软沈向洋:理解自然语言:表述、对话和意境

来源:《中国计算机学会通讯》2017年第12期《CNCC2017特邀报告》 微软全球执行副总裁沈向洋博士在2017年10月25日在福州举行的中国计算机大会(CN...

32250
来自专栏机器之心

观点 | 机器学习确实还没商品化,也不必需博士学位

选自fast.ai 作者:Rachel Thomas 机器之心编译 参与:晏奇、微胖、吴攀 上周,我收到了两个前提截然相反的问题:其中一个是兴奋地认为机器学习...

28450
来自专栏AI科技评论

重磅 | 从SwiftScribe说起,回顾百度在语音技术的七年积累

人与机器的自然交互一直是人类孜孜不倦的奋斗目标。随着移动互联网时代的发展,声音与图片成为了人机交互更为自然的表达方式。作为最核心的入口,语音技术就成为了科技巨头...

409130
来自专栏新智元

谷歌大脑背后的大脑Jeff Dean:最快15年实现通用人工智能

【新智元导读】《福布斯》网站今日刊文,专访“谷歌大脑背后的大脑”Jeff Dean。Dean回顾了他自1999年加入至今在公司的不同角色,重点介绍了谷歌大脑的项...

38560
来自专栏量子位

我们离真正的量子霸权还有多远?不能只看硬件

? 在量子计算领域,存在一个流行的误区:认为量子计算的潜力和局限性一定来自于硬件。 在数字时代,我们已经习惯于用时钟频率和存储器来标记进步的幅度。因而,英特尔...

35980
来自专栏新智元

华为李航:NLP 有 5 个基本问题,深度学习有4个做得很好 (PPT)| 北大AI公开课

【新智元导读】 在北大 AI 公开课第8讲上,华为诺亚方舟实验室主任李航老师综述性地为大家介绍了 NLP 的任务、特点、最新技术以及发展趋势。李航老师精辟地总结...

81760
来自专栏新智元

【清华AI公开课】施尧耘:量子计算终将实现;段路明:大规模量子计算还任重道远

31340
来自专栏达观数据

干货分享 |企业如何用文本挖掘技术提升运营效果?

新媒体管家 在刚刚过去的由神策数据举办的年度数据分析行业盛会—— 2017 数据驱动大会上,达观数据创始人兼CEO陈运文,作为自然语言处理领域的专家受邀出席了本...

43180
来自专栏挖掘大数据

5个典型实例启发:什么是数据可视化

大数据时代,数据是非常重要的,怎样把它的重要之处展示出来成为我们需要掌握的既能,这也就是本文要讲的重点——数据可视化。

217100

扫码关注云+社区

领取腾讯云代金券