专访FPGA 2017最佳论文得主深鉴科技: 深度学习的最大瓶颈是带宽问题而非计算

AI科技评论按:近日,深鉴科技的 ESE 语音识别引擎的论文在 FPGA 2017 获得了唯一的最佳论文 ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA。该项工作聚焦于使用 LSTM 进行语音识别的场景,结合深度压缩以及专用处理器架构,使得经过压缩的网络在 FPGA 能够实现超越 Pascal Titan X GPU 一个数量级的能效比。论文中所描述的 ESE 语音识别引擎也是深鉴科技 RNN 处理器产品的原型。

深鉴科技是一家具备神经网络压缩编译工具链、深度学习处理器 DPU 设计、FPGA 开发与系统优化等技术能力的初创公司,团队一系列研究工作发表于 NIPS 2015,ICLR 2016,FPGA 2016,ISCA 2016,NIPS 2016 Workshop,FPGA 2017 等顶级会议,并与 DeepMind 共同获得 ICLR 2016 最佳论文、NIPS 2016 Workshop on EMDNN 最佳论文提名。

深鉴科技于 2016 年 1 月设计出一套基于 DPU 的一整套深度学习硬件解决方案,包括 DPU 的芯片架构、DPU 编译器、硬件模块(订制的 PCB 板)三部分。

针对 FPGA 2017 最佳论文以及深鉴科技,AI科技评论采访了深鉴科技 CEO 姚颂。

AI科技评论:绝大部分论文都是为了解决问题,深鉴科技的这篇论文的核心灵感来自于哪里?

一直以来,深度学习计算遇到的最大瓶颈其实是带宽问题,而非计算本身。为了实现高效的深度学习计算,我们必须在软硬件同时进行优化,不仅算法上压缩到更小,硬件上更要支持好压缩后的深度学习算法。

为了解决带宽问题,GPU 的 Memory 从 DDR3 ,DDR4,一直升级到了 HBM。同时,GPU 也从支持双精度与单精度,即 64 个比特或者 32 个比特表示一个参数,升级至支持 Int8 型变量,也即 8 比特表示一个变量。

我们一直在思考如何更优化和高效地解决带宽问题,韩松(该论文的第一作者,深鉴科技联合创始人)的研究方向是使用稀疏化方式让深度学习更快、更准、更轻量,该方式的优点是降低了带宽的需求。由于深度学习里的特征表示本身就是稀疏的,因此我们做一个直接的剪枝压缩来减少带宽的使用。韩松之前做过一项名为 EIE (Efficient Inference Engine)的研究并发表在 ISCA 2016 ,该项研究主要针对于卷积神经网络里的全连接层,但并不能适应语音识别这样的复杂场景。因此在结合实际应用后,我们设计出一套更为实用化的 ESE 架构,针对语音识别和 RNN 做了非常多的修改,并且将它实用化了。

这些就是该论文灵感的来源。

AI科技评论:这篇论文主要在哪些方面有着较大的突破?

在软件和硬件两个方面均有着一定的突破。

软件方面,我们提出了 Load-balance-aware pruning。除了在纯算法上追求压缩率,还会考虑到最终要多核运行并行加速的时候不同核心之间的负载均衡,这种加速差其实属于最优的方式。

在硬件方面,我刚才也提到韩松有一篇论文叫做 EIE 只能运行卷积神经网络的 FC 层。我们考虑到 RNN 的状态机会整体非常复杂,因为里面会有非常多个矩阵要运转,不仅要支持多路用户,还有里面的非线性函数都有非常大的区别。所以说在整个硬件架构过程做了一个重新设计,能够支持多路用户,也能够支持 RNN,如 LSTM 内部多个矩阵的运转。这样整个系统运转的(速度)都是高得多的一个架构。

AI科技评论:这个具体从几方面提高了它在语音识别中的效率?

现在 ESE 是我们语音识别方案的基础,我们在实际产品上做了不少改进。该方案的核心就是它能支持在大规模用户的情况下大幅降低延迟。我们知道,GPU 的最大问题是如果要具备非常好的性能,那就需要堆很多路的 batch。那么其实绝对的 latency 是变长的。那我们能够将 latency 部分相对于个高端的 GPU 压下来几倍。于用户而言,对方体验到的延迟也要短的多,体验就会更好。

其次,由于大规模的云计算对于成本、功耗是非常敏感的,这种情况下,我们的方案会明显使得功耗降低,对整个运行成本有着不错的影响。

另一方面,如果把延迟降低,其意味着这些实际使用的算法可以变得更加复杂。如 LSTM 原来是三层,现在我可以把它变为五层,甚至我的延迟会变得更低,使得语音识别的精确度得到更进一步提升。

AI科技评论:详细讲讲 Deep Compression 和 ESE 的原理与作用。

人类大脑其实是非常稀疏的,每个神经元能连接其他神经元的数量有限,而 Deep Compression 也正是受到了人类大脑的启发。做这项工作时我们发现了一些人工神经网络里对结果影响不重要的权重,针对这该问题的最简单做法就是如果这个权重的绝对值小于某个阈值,我就把它去掉,只保留绝对值较大权重对应的这些连接。

而 ESE 的原理则更多是我们设计了一个非常高效的稀疏矩阵乘的 Kernel 。在此之上,我们又设计了一套完整的调度机制,能够将 RNN 中 LSTM 的多个矩阵进行各高效调度。并且能够支持在不同矩阵高速调度时形成一个流水线。在运算当前矩阵的时候调用下一个矩阵来片上运行,并且能保持每个权重就每个矩阵的权重在片上存储待的时间足够长。这样做既可节省整个带宽的需求,也可加快运算速度。

AI科技评论:刚也提到大脑的激活是非常稀疏的,当深度学习的模型越来越大,那对模型参数有什么其他的压缩办法吗?

韩松提出的 Deep Compression 其实就属于模型压缩很核心的方法。通常大家会用一些启发式的算法去发现里面不重要的权重,并将它去除,然后再使用数据来进行 re-train 时能够把它的精确度恢复起来。其中绝对的阈值,做 re-train 时权重增长的幅度均可用来作为启发式算法的判别准则。

由于神经网络中的特征表示比较稀疏,所以这样一种非规则稀疏模型压缩效果往往比大家设计一个小一些的模型效果更好:直接砍 channel 数量,或者一些数学上的分解方式。

其他模型压缩的方法有 SVD、Winograd 分解、binary network 等,但相比而言 Deep Compression 整体的性价比会更高。

AI科技评论:如何有效结合 Compressing CNN 和 Intepretating CNN 发挥它们的势能?

对于可解释性 CNN 我们暂时还没有研究。对于压缩后的 CNN 最大好处是性能会明显变高,可把模型尺寸直接压缩十倍,权重数量可直接砍掉三倍,这也意味着性能直接以三倍的单位往上乘。与此同时,我们用于存储带宽读取的延迟会降低 10 倍,所以整体性能都有着非常大的提升。这也是我们一直提倡要在软件和硬件上协同来进行加速的原因。

AI科技评论:英伟达提供的是芯片+解决方案,地平线机器人的产品定位是芯片+算法+解决方案+设备。深鉴科技的产品定位是什么?与地平线、寒武纪有哪些不同?

地平线余老师、杨铭师兄、黄畅师兄算法与软件背景比较深厚,软硬件团队整体实力非常强,因此他们可能会从系统的角度来提供一个完整的功能级产品,包括算法上的优化。

寒武纪的两位陈老师在 CPU等芯片领域有很多的积累,更多会强调在芯片层面的优化。而深鉴科技则是做软硬协同加速,侧重于 FPGA,我们希望用一些取巧的手段,比如在算法上用 Deep Compression 来做压缩,然后在硬件上针对于压缩后的神经网络做一些专用的处理架构。

我们最核心的服务其实是一个平台:平台的底层是我们的 DPU 架构,往上是由编译器以及我们整个 Deep Compression 构成的开发环境,这样用户可以用我们的环境来开发自己的算法与应用,在深鉴科技的 DPU 平台上运行,从这一点来说有些类似于英伟达。

AI科技评论:最近阿里、腾讯均推出的高性能异构计算基础设施 FPGA 云服务器,这对行业的影响有哪些?

其实这方面业界最领先的是 AWS。在 2016 年 12 月的 AWS 发布会上,亚马逊公开了AWS上新的 F1 instance :他们将 Xilinx 的 FPGA 放在了云服务中,大家可通过这样的开发环境在云中使用 FPGA。而腾讯和阿里那也是受到亚马逊这个项目的影响才开始把 FPGA 部署到他的云服务中。

我们知道 FPGA 的优点在于,进行 Inference 计算能相比于 GPU 更加高效,因此云端的业务大家可用 GPU 训练,而 FPGA 做 Inference 。AWS、腾讯、阿里都为业界带了一个好头,其影响类似于当时 TPU 问世后极大地促进 FPGA 在深度学习领域的相关研究,同时也渗透到了产品开发和整个行业的方方面面。我们也已经显著地看到各大公司受到启发,开始越来越关注在能效、效率问题,而不是简简单单地满足我有这样的一个 AI 服务。

AI科技评论:你们与客户的具体合作形式是什么样的?分别讲讲你们为零度智控、川大智能以及搜狗提供了哪些服务?

前面的话,其实我已经提到我们公司的定位:我们是一个平台的提供者。所以对于一系列具有自己深度学习算法研发能力的公司,我们会提供我们的 DPU平台,以及编译器与压缩这样一套开发环境,供大家能够在此基础上搭建自己的算法以及解决方案。而对于像无人机行业的客户,我们会提供针对于这个行业的算法、软件、硬件一体的解决方案,能够让大家直接集成来打造自己的应用。

AI科技评论:就您所知,近一两年海内外有哪些与深鉴相似的公司和产品?在玩家逐渐变多的大环境下,如何保证自己处于有利地位?

AI 是整个半导体行业大家看到非常大的一个新增长点,所以从传统半导体行业出来,不管是做创业公司也好,还是要做往这个方向业务转型的大公司,确实非常多。

深鉴科技之前提到,传统并行计算的老工业经验并不一定能够很好的覆盖掉 AI 上面计算的事情,我们始终坚持一个观点认为带宽一定是一个最核心的问题需要解决。而传统堆带宽的方式一定会在造价和将来实际物理带宽层面遇到一些瓶颈,所以深鉴科技把软和硬结合在一起来做。先在软件上做压缩,然后在硬件上针对压缩的神经网络做一个专用体系结构的优化。

目前在这条技术路线上的公司还非常之少,但陆续开始有公司注入跟进这个领域。而我们进入很早,积累了非常多的 insight,如 FPGA2016 会议上提出来的基于嵌入式 FPGA 的 CNN 处理器方案、量化方案,已经被诸多公司f ollow,今年 FPGA2017 会议大家都在 CNN 处理方案上进行小幅优化之时,我们已经走向了 LSTM。我们希望借由这样的先发优势,能够围绕稀疏化的处理思路,从算法、软件、硬件协同设计多个方面逐渐建立起隐形的行业标准。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-03-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【机器学习】机器学习商业应用入门及七个实例

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或...

2915
来自专栏新智元

【CNN超越RNN】DeepL机器翻译碾压谷歌、Facebook和微软

【新智元导读】一家名叫DeepL的公司声称他们的翻译工具已经超过谷歌、微软、Facebook等大公司的翻译工具,本文提供了作者亲测的评价。 谷歌、微软、Face...

3285
来自专栏新智元

《主算法》作者 Pedro Domingos 谈机器学习十大误解

【新智元导读】机器学习热潮掀起,关于机器学习的误读也随之盛行。为此,机器学习专家、《主算法》作者、华盛顿大学计算机科学教授 Pedro Domingos 日前撰...

3425
来自专栏企鹅号快讯

童欣:从互动图像到智能图像

导语 本文是由未来影像高精尖创新中心举办的ICEVE2017(北京国际先进影像大会暨展览会)的精华演讲等整理而成的系列专题文章,本系列内容涵盖专家专访、大会报道...

1995
来自专栏量子位

年薪百万的机器学习专家,为什么不产生价值?

本文转载自第四范式知乎专栏,量子位已获得授权。 ? 「范式大学系列课程」第 3 篇文章: 年薪百万的机器学习专家,为什么不产生价值? Part 1 一个朋友的企...

3436
来自专栏Python中文社区

数据挖掘入门与提升,从点数据到网络数据

提到社交网络分析,推荐系统、风控模型这些名词,相信你并不陌生,社交网络分析无非是 Pandas+Matplotlib,推荐系统大概率是余弦相似性、协同过滤,风控...

802
来自专栏大数据挖掘DT机器学习

微博推荐算法如何设计

在介绍微博推荐算法之前,我们先聊一聊推荐系统和推荐算法。有这样一些问题:推荐系统适用哪些场景?用来解决什么问题、具有怎样的价值?效果如何衡量? 推荐系统诞生很早...

44312
来自专栏云市场·精选汇

如何细致地为用户提供业务知识服务?

近年随着深度学习及强化学习技术的进一步深入,智能问答机器人所依赖的知识库构建与维护成本也随之减少。大数据分析和智能语音技术在客服场景深入应用,AI正在变革客服行...

982
来自专栏ATYUN订阅号

20世纪福克斯开发AI模型,通过电影预告片预测观众偏好

为了帮助确定展示出电影的最佳预告片,20世纪福克斯电影制片厂的研究人员开发了一种深度学习模型,可以根据电影的电影预告片预测观众偏好。

743
来自专栏大数据挖掘DT机器学习

阿里深度学习实践

近年来,随着大数据在互联网的蓬勃发展,很多人工智能的技术、应用像雨后春笋般涌现出来,如谷歌、Facebook、阿里、腾讯、百度等用得非常广泛,且各种应用都通过...

2876

扫码关注云+社区