前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ISCA2016:体系结构顶级会议CNN走红,神经网络论文夺桂冠

ISCA2016:体系结构顶级会议CNN走红,神经网络论文夺桂冠

作者头像
新智元
发布2018-03-28 15:14:50
1.7K0
发布2018-03-28 15:14:50
举报
文章被收录于专栏:新智元新智元

【新智元导读】计算机体系结构顶级会议 ISCA2016日前召开,神经网络和深度学习成为热点。新智元整理了 ISCA 2016 神经网络相关论文(包括本届会议最高得分论文),并邀美国加州大学圣塔芭芭拉分校谢源教授课题组神经网络架构研究团队的博士王超,以及博士生朱茂华、李双辰、刘浏进行点评。

ISCA(The International Symposium on Computer Architecture)是计算机体系结构领域的顶级会议。自1973年创办以来,迄今已经举办了 43 届(1974 年空缺)。

今年的 ISCA 于 6 月 18 日至 22 日在韩国首尔召开,这次会议有近 800 名来自世界各地的工业界和学术界的专家学者参加,在参会人数上创下历史新高。本届会议共收到了 291 篇投稿论文,最终录用了 57 篇,接收率为19.6%。

ISCA的“C”成了CNN的“C”

值得一提的是,在最终录用的 57 篇论文中,有 9 篇论文(3个Session)与神经网络密切相关,以至于有不少参会者开玩笑说,今年 ISCA 是 International Symposium on CNN Architecture,而不是传统意义上的 International Symposium on Computer Architecture。

总体来看,神经网络和深度学习已经成为近年来体系结构领域的研究热点,在体系结构相关的顶级会议(如ISCA、MICRO、HPCA、ASPLOS)中,涌现了一批以深度学习为代表的应用驱动研究成果。

下图简单汇总了近年来发表在这四个顶级会议上的神经网络相关的论文(不含MICRO2016),可见神经网络加速器和处理器研究方向的迅猛发展。基于上述结果和分析,我们有理由相信,神经网络相关的处理器和硬件系统将很快应用于目前主流的机器学习框架中。

根据UCSB谢源教授课题组神经网络架构研究团队王超博士统计,近年来在四大顶级体系结构会议上,与深度学习有关的文章数量增长迅速。

Architecture2030:未来计算机架构设计的趋势

大会的前一天,举办了一个 Architecture 2030 Workshop , 其主要目的是探讨在未来15年计算机架构研究的机会和挑战。上午的 Keynote 斯坦福的 Philip Wong 谈了新技术对硬件架构研究的影响,而下午的 Keynote 则是由 CMU 的 Kayvon Fatahalian 谈新的应用对硬件架构研究的需求和影响。

UCSB的谢源教授在这个workshop中,总结了过去 25 年 ISCA 会议研究趋势,并指出未来架构研究将从传统的CPU设计转向更多的 Top-down Application-driven ,比如针对机器学习、大数据应用的硬件加速架构研究,以及 Bottom-up Technology-driven,比如研究新型存储器件和3D堆叠技术对架构设计的影响。

正式大会的第一个特邀主题报告,是由微软研究院的 Doug Carmean 做的关于量子计算的演讲。Doug 本人曾经是 Intel Fellow,主持设计了 Intel Xeon Phi 系列的 CPU。最近,谷歌发布的 TPU,设计者 Norm Jouppi 也是在惠普实验室做了20多年的硬件架构设计,于2013年9月加入谷歌团队,秘密进行TPU的研发。传统的软件公司比如微软和谷歌,从传统的硬件公司挖人,进行非传统的硬件架构设计(比如量子计算和TPU设计),也许是最近的一个有意思的趋势。

另外,法国的Olivier Temam在2010年的ISCA会议上做了题为 The rebirth of neural networks 的 Keynote Speech 后,针对神经网络的处理器设计迅速成为 ISCA 最关注的研究方向之一。而 Olivier 之后也被谷歌高薪聘请,帮助在这方面的研究。不知道这次关于量子计算的特邀报告是否能起到类似的作用,促进在这个方向上的研究投入。

大会的第二个主题报告是 SK Hynix 的执行副总裁 Seok-Hee Lee 关于存储技术的报告。由于CPU/GPU计算能力的迅速增长,未来系统性能的提高遇到了“存储墙”(Memory Wall)的瓶颈,使存储技术在计算机体系架构的重要性越来越高。除了继续研究基于传统的SRAM和DRAM的存储架构,新型存储技术,比如非易失性存储(Non-volatile Memory)的研究越来越受学术界和工业界的重视。这次大会57篇论文中,大约20篇都与Memory相关。

华人研究员崛起

ISCA作为计算机系统结构领域的顶级学术会议,截至2007年,中国大陆科研机构在历届ISCA上只发表过三篇第一作者文章(1981年两篇和1993年一篇),其中两篇文章的作者是中科院院士(高庆狮、夏培肃),从这一侧面也可见其难度与声誉。

从2007年开始,中国大陆学者在ISCA这个会议上取得了不少突破。首先是国防科大在2007年的突破,然后复旦陈海波研究组在2008年更进一步(他到交大后又于2015发表文章),而中科院计算所的几个研究小组在2010年后表现尤为突出,包括陈云霁、陈天石研究组(2010,2014,2015,2016),韩银河研究组(2010,2011),包云岗研究组(2014)。最近几年,几名海归青年学者也带来了突破:从哈佛大学博士毕业回到上海交大的梁晓峣研究组(2013),从佛罗里达大学博士毕业回到上海交大的李超研究组(2015,2016),以及从宾夕法尼亚州立大学博士毕业回到北京大学的孙广宇研究组(2015)。

ISCA2016中科院陈云霁团队相关报告

而且,本次ISCA大会的57篇文章中,除了中科院陈云霁、陈天石研究组和上海交大李超研究组的两篇大陆科研机构的文章,有21篇的第一作者是华裔学生,显示出华人研究人员在未来体系结构研究领域的实力。ISCA会议还有一个名人堂(ISCA Hall of Fame), 列出了1973年以来在ISCA上发表超过8篇论文的作者名单,包括近80名研究人员,目前华裔研究人员极少。但根据近10年的趋势,可以预计不远的将来会有更多华人上榜。

华为派出了近40名研究人员参加这次大会,包括华为香农实验室和华为中央硬件院的高层领导,表现出华为对跟踪业界趋势和提升创新能力的决心。

神经网络相关论文获 ISCA2016 最高得分

刚才也说过,神经网络和深度学习已经成为近年来体系结构领域的研究热点,本届大会最终录用的 57 篇论文中,有 9 篇与神经网络密切相关。其中,由中科院计算所陈云霁、陈天石研究员课题组的《一种神经网络指令集》,更是ISCA2016最高得分论文。

新智元整理了 ISCA 2016 神经网络相关论文,并邀美国加州大学圣塔芭芭拉分校(UCSB)谢源教授课题组的神经网络架构研究团队的王超博士,以及博士生朱茂华、李双辰、刘浏,对相关论文进行点评。

请在新智元后台回复“070400”下载全部9篇论文(进入公众号,在对话框直接输入数字),下载单篇论文请回复文后数字。

ISCA 2016和神经网络相关的论文列表:

  1. A Novel Processing-in-memory Architecture for Neural Network Computation in ReRAM-based Main Memory 070401
  2. 【ISCA2016 最高得分论文】An Instruction Set Architecture for Neural Networks 070402
  3. Cnvlutin: Ineffectual-Neuron-Free Deep Convolutional Neural Network Computing 070403
  4. EIE: Efficient Inference Engine on Compressed Deep Neural Network 070404
  5. Eyeriss: A Spatial Architecture for Energy-Efficient Dataflow for Convolutional Neural Networks 070405
  6. ISAAC: A Convolutional Neural Network Accelerator with In-Situ Analog Arithmetic in Crossbars 070406
  7. Neurocube: A Programmable Digital Neuromorphic Architecture with High-Density 3D Memory 070407
  8. RedEye: Analog ConvNet Image Sensor Architecture for Continuous Mobile Vision 070408
  9. Minerva: Enabling Low-Power, High-Accuracy Deep Neural Network Accelerators 070409

1


A Novel Processing-in-memory Architecture for Neural Network Computation in ReRAM-based Main Memory

摘要

《PRIME:一种针对神经网络的基于ReRAM的计算存储一体化结构》的作者是加州大学圣塔芭芭拉分校谢源教授课题组。基于新型材料的ReRAM被认为是今后替代当前DRAM,作为密度更大、功耗更小的下一代存储的技术之一。这种ReRAM除了作为存储单元之外,其独特的交叉网络结构(crossbar)和多比特存储(multi-level cell)性质,能以很高的能量效率加速神经网络计算中的主要计算模块,点积。这篇论文结合了ReRAM的这种特性,设计了一种可变的内存计算架构:在正常的ReRAM存储中,修改一部分存储的外围电路,使得这部分存储可以在“存储”状态和“神经网络加速器”状态之间灵活切换。其具体贡献包括:(1)存储外围电路设计,通过最大化复用存储和加速器的外围电路,最小化了需要在内存基础上添加的额外面积;(2)提出了一种客服ReRAM及其模拟计算精度偏低的方法;(3)提出了一整套的内存计算系统支持方案,并对大规模网络进行了仿真验证。

【点评】这篇论文巧妙结合了ReRAM超高效加速神经网络的特点与内存计算的高效体系结构,充分利用了ReRAM技能作为存储器件,又能进行模拟计算的特性。比起一般的加速器结构或者单纯的内存计算结构,PRIME更灵活的可变结构能更有效利用资源:在需要神经网络计算的时候提供加速支持,而在其他时间提供更大的存储空间。同时,针对ReRAM计算精度受限的问题,PRIME提出了一套提升精度以达到神经网络计算要求的方法。

PRIME第一作者、UCSB谢源教授学生迟萍发表演讲

2


An Instruction Set Architecture for Neural Networks

摘要

《一种神经网络指令集》由中科院计算所陈云霁、陈天石研究员课题组与加州大学圣塔芭芭拉分校谢源教授合作完成。这篇论文提供了一种神经网络指令集——寒武纪,该指令直接面对大规模神经元和突触的处理,一条指令即可完成一组神经元的处理,并对神经元和突触数据在芯片上的传输提供了一系列专门的支持。寒武纪支持向量、标量、矩阵、逻辑运算、数据传输和控制指令,可以广泛用于不同的神经网络模型和应用,具有普适性。

【点评】这篇论文是ISCA2016得分最高的论文,寒武纪是DianNao处理器的指令集。DianNao作为第一个神经网络的加速器,开创并引领了深度学习处理器方向的研究,在国际上有很高的影响力。该系列工作包括DianNao、DaDianNao、PuDianNao、ShiDianNao等,分别针对不同的神经网络领域进行加速。本论文提出的指令集,将不同的加速器统一到处理器的设计框架中,可以积极推动从机器学习加速器到处理器方向的深入研究和产业化。

3

Cnvlutin: Ineffectual-Neuron-Free Deep Convolutional Neural Network Computing

摘要

《Cnvlutin:去除无效神经元的深度卷积神经网络》是多伦多大学Andreas Moshovos教授团队和英属哥伦比亚大学Tor Aamodt教授团队合作成果。 该文提出了一个根据操作数(operand)数值消除无效乘法的深度神经网络加速器设计方案 Cnvlutin(CNV)。CNV的原理类似于许多控制密集型GPU应用程序的优化方案,即将同组中造成控制分歧(divergence)的线程重组,使包含有分歧的线程组数量最小化。CNV并不针对控制流优化,而是将乘数中含有0的乘法指令与其他指令分开重组,由于含有0的乘法不需要计算即可以得到结果为0,因此该方法既可以减少计算资源使用,也可以加速存储器访问,从而优化性能和能耗。本文实验对比的是中科院计算所的DaDianNao,CNV在其基础上可以得到1.52倍的性能提升和1.47倍的EDP改善,并且不损失预测精度。

【点评】由于神经网络的参数对于其所表达的函数是过剩的,因此神经网络有相当大的稀疏性。本文与今年ISCA的另两篇文章(EIE和Minerva)都是利用神经网络的这一特性,优化神经网络进行功(能)耗和性能,大幅度减小了神经网络信息冗余度,属于无损压缩(不损失精度)。本文与EIE所不同的是,EIE采用了删减参数和再训练的手段,最终得到一个可以把参数完全存储在SRAM上的训练好的神经网络,可以称为是利用了静态稀疏性;本文则解决了动态稀疏性,即针对运算指令中出现的含0值乘法进行优化,角度非常新颖。

4

EIE: Efficient Inference Engine on Compressed Deep Neural Network

摘要

《EIE:一种针对压缩深度神经网络的高效推理引擎》是斯坦福大学博士生韩松的卷积神经网络(CNN)压缩系列文章的延续。本文给出了通过前两篇文章(分别发表在NIPS和ICLR)中的算法压缩过的CNN的硬件实现(EIE),由于CNN的信息冗余度比较高,压缩后得到的神经网络参数可以完全分配到SRAM上,从而极大地减少了DRAM的访问次数,而DRAM访问又是传统CNN加速器中能耗最大的操作,因此本文提出的加速器可以取得很好的性能和性能功耗比。与没有压缩的神经网络加速器DaDianNao相比,EIE的吞吐率提高了2.9倍,性能能耗比提高了19倍,而面积只有DaDianNao的1/3。

【点评】本文中的硬件加速器EIE之所以取得较好的吞吐率和能量效率(energy efficiency),是源于作者之前的DeepCompression文章中提出的神经网络剪枝(pruning)和再训练(retraining)方法。本文提出的加速器对于性能和功耗的提升都是非常显著的,但对于神经网络的内存使用改善则相对较弱,这是因为CNN中大量的内存占用是各层的输入输出数据,网络参数被多个神经元所复用,因此并不占据主要空间。

EIE论文作者、斯坦福大学的韩松发表演讲

5

Eyeriss: A Spatial Architecture for Energy-Efficient Dataflow for Convolutional Neural Networks

摘要

《Eyeriss:一种针对卷积神经网络低功耗数据流结构》来自麻省理工大学Vivienne Sze教授的团队。文章作者认为当前最流行的卷积神经网络(CNN)训练平台GPU并不是CNN的最佳硬件解决方案,其原因是虽然GPU的SIMD架构能够满足CNN的大量运算需求,但该架构引入的数据搬移代价也是非常大的,尤其是数据搬移的能耗已经超过了计算带来的能耗。因此本文提出了一种使用了新的数据搬移模式(文中称作RS)的CNN硬件加速器,以替代GPU等SIMD/SIMT架构的加速器。RS与传统的SIMD相比的优势在于它利用了卷积运算中含有的数据复用,从而较少地搬移数据。该加速器已经流片,与已有的加速器相比,AlexNet的计算取得了1.5到3倍能耗效率提升。

【点评】与其他CNN硬件加速器类似,本文的目标同样是降低CNN运算的能量消耗。但本文的角度又与其他文章不同,文章作者着重关注了卷积运算中同一个滤波器对于输入特征(feature map)不同位置的内积中的数据复用。传统的SIMD/SIMT卷积实现不得不将相邻窗口重叠的部分多次取出,这带来了极大的能量浪费,本文作者正是针对这一发现提出了新的运算模式。本文的优化手段可以和Cnvlutin同时使用,以取得更高的性能能耗比。

6

ISAAC: A Convolutional Neural Network Accelerator with In-Situ Analog Arithmetic in Crossbars

摘要

《ISAAC:一种针对卷积神经网络交叉开关模拟运算加速器》来自于犹他大学Rajeev Balasubramonian教授课题组以及HP实验室的合作工作。论文提出了一种基于忆阻器交叉开关的卷积神经网络加速器,贡献主要体现在以下两个方面:第一,论文提出了一种基于流水线的组织方式来加速神经网络的不同计算层,并采用eDRAM来实现流水线段间数据寄存。第二,论文提出了一种模拟数据编码方式,从而能够避免模数转换的开销。

【点评】HP实验室在忆阻器领域处在较为领先的地位。这篇论文采用基于交叉开关的忆阻器来加速神经网络,使得加速器能够进行模拟计算,从而能够有效降低模糊转换的开销。同时,论文提出了设计空间搜索的方法,用来进行忆阻器的存储/计算, ADC,以及eDRAM的片上存储的平衡。

7

Neurocube: A Programmable Digital Neuromorphic Architecture with High-Density 3D Memory

摘要

《Neurocube:基于3D堆叠存储的可编程神经网络加速计算结构》的作者是佐治亚理工的Saibal Mukhopadhyay教授课题组。该论文采用现在流行的以3D堆叠存储为基础的内存计算架构,在3D堆叠内存的最下层(逻辑层)中添加计算单元,在享用存储内部的巨大带宽并且消除不必要的昂贵数据搬移的同时,使用特制逻辑模块设置,加速神经网络的计算(包括训练部分)。这项工作的主要贡献在于:1)提出了之中高效的加速神经网络结构;2)提出了一种基于该结构的编程模型,优化神经网络算法向该结构的移植,存储划分等。

【点评】神经网络计算,图算法,与数据库应用是当公认的三大驱动内存计算架构的应用。该论文针对神经网络计算的应用,进行了细致的设计和量化分析。在大多数神经网络加速工作都局限于向前识别网络的计算和CNN/MLP两种网络模型的情况下,该工作不仅设计并且评估了挑战更大且应用价值更大的神经网络训练计算,而且考虑了其他网络模型如RNN等。同时,针对于存储计算架构的软件设计困难的挑战,这项工作给出了详细有效的编程模型及优化方法。

RedEye作者发表演讲

8

RedEye: Analog ConvNet Image Sensor Architecture for Continuous Mobile Vision

摘要

《RedEye:针对移动视觉的模拟卷积网络图像传感器结构》这篇文章来自美国莱斯大学钟林教授课题组。在移动视觉应用中,系统需要有效地捕捉连续的图像帧并针对图像的特征进行处理。为了提高处理的效率,本论文在早期的视觉处理阶段引入模拟计算域的方式。RedEye是一个针对移动视觉的模拟卷积网络图像传感器结构,它采用了模块化的列并行设计思路,能够降低模拟设计的复杂性,以促进物理设计复用和算法重用。综合上述几点,RedEye能够大幅降低传感器端和系统级的能耗。

【点评】本文是将卷积神经网络应用到移动视觉领域的具体例子。由于视觉处理算法需要快速捕捉图像帧数据并进行特征的实时处理,在实时性方面对系统设计有很强的需求。该论文提供的RedEye系统,能够在传感器端进行预处理,从而有效降低传输的带宽和数据量,进而降低系统的能耗。该论文在面向移动端的机器视觉乃至虚拟现实等领域都有一定的应用前景。

9


Minerva: Enabling Low-Power, High-Accuracy Deep Neural Network Accelerators

摘要

论文《Minerva:一种低功耗、高精度的深度神经网络加速器》由哈佛大学的David Brooks 教授课题组完成。这篇论文的设计目标在于采用不同的优化手段使得神经网络加速器达到低功耗、高精度的需求。作者提出了一种基于设计空间搜索的加速器设计和优化流程,分成五个阶段:1)训练空间搜索;2)微体系结构设计空间搜索;3)数据量化;4)神经网络剪枝;5)容错分析及精确度优化。通过这一系列技术,Minerva能够在不损失精度的前提下大幅降低系统功耗。

【点评】设计神经网络加速器时,应用在数据量、复杂度和带宽的需求,给加速器的设计带来了很大难度。与此同时,神经网络的数据表述一般以稀疏矩阵为主,同时有相当一部分的数据是可以近似为零的数据。这篇论文采用了神经网络剪枝(Pruning)技术,能够有效降低数据的复杂度和带宽,进一步为降低系统功耗奠定了基础。该算法和模型可以被引用到其他的网络拓扑和模型中,有助于加速器设计人员实现更加高效的神经网络处理器和加速器。

(本文图片由谢源教授提供)

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-07-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档