从“Future Chips 2017”看下一代AI芯片的发展趋势

“Future Chips”国际研讨会是由“北京市未来芯片技术高精尖创新中心”和清华大学微电子学研究所主办的系列年度学术交流活动。2017年12月19日至20日,第二届“Future Chips”研讨会在清华大学举行。本届会议大咔云集,来自集成电路和智能芯片架构、算法、应用等领域的80多位国际知名专家学者、20多位IEEE Fellows和400多位与会者齐聚清华,共同探讨智能芯片在未来发展的前景。

本届“Future Chips 2017”的主题是“智慧芯片·智慧世界”(Smart Chips, Smart World)。不出意外的,“AI芯片”几乎成为本届会议的唯一话题。本文尝试从几个关键词,来一窥下一代AI芯片的几个可能的发展方向。

在讨论“下一代AI芯片”之前,我们先看一下“这一代AI芯片”的情况。即将过去的2017年可以看作AI芯片元年,不仅有越来越多的国内外公司加入了开发AI芯片的行列,而且有很多公司已经发布了自己的产品,这里面不仅有国际巨头如NVidia、Google、Intel等,还有国内的创业公司如寒武纪、深鉴、地平线等等。下面这篇文章比较完整的盘点了2017年国内外的人工智能芯片:http://mp.weixin.qq.com/s/PMrjG37K8L7sfu7kFDqBAA

目前主流AI芯片的核心主要是利用MAC加速阵列来实现对CNN(卷积神经网络)中最主要的卷积运算的加速。这一代AI芯片有几个主要的问题:1)深度学习卷积神经网络计算所需数据量巨大,造成DDR带宽成为整个系统的瓶颈,即所谓“memory wall”问题;2)与第一个问题相关,DDR的大量访问和MAC阵列的大量运算,造成AI芯片整体功耗的增加;3)深度学习对算力要求很高,要提升算力,最好的方法是做硬件加速,但是同时深度学习算法的发展也是日新月异,新的算法可能在已经固化的硬件加速器上无法很好的支持,即性能和灵活度之间的平衡问题。下面我们从几个关键词来看下一代AI芯片如何解决这些问题。

关键词一:Reconfigurable

“Reconfigurable”,即“可重构”的,指的是芯片的硬件结构可以在运行过程中实时重构,以解决上面提到的性能和灵活性之间的平衡问题。

魏少军教授在本次会议的开幕式主题演讲上详细介绍了他的团队所做的“Software Defined Chips”的工作。简单说就是利用一个可重构的计算处理单元阵列,实现芯片内部数据流和计算根据软件流程而实时变化。魏教授介绍说他们的设计可以实现cycle级别的实时重构。

说到可重构硬件,大家可能第一个想到的就是FPGA,魏教授也讲到了可重构芯片与FPGA的差异:

基于该架构的“Thinker”系列芯片已经成功流片,并且现场有实际的应用演示。从数据和现场演示上看,这个芯片的性能和功耗还是非常有竞争力的。

除了魏少军教授的团队,与会的新加坡国立大学的Tulika Mitra教授在她的报告“Accelerators for Smart IoT Devices”中也介绍了类似的可重构架构设计。并且她提到其实三星已经在Exynos 7 SOC芯片中用到了可重构的设计,叫“Samsung Reconfigurable Processor”。

笔者认为,基于“可重构”概念的芯片是否可以成功,主要还取决于为了达到“可重构”的灵活性,所牺牲的面积和性能的overhead,是否在可接受的范围内。从这点上说,魏教授团队的Thinker系列芯片的表现非常出色。

关键词二:NeuromorphicProcessor

Neuromorphicprocessor,即“神经形态处理器”,也称“Brain inspired computing”,即“类脑计算”。与目前的主流深度学习处理器不同,神经形态处理器的设计(或称“类脑处理器”)从模仿人脑的处理机制出发。目前最著名的神经形态处理器是IBM在2014年推出的TrueNorth芯片:http://www.research.ibm.com/articles/brain-chip.shtml

TrueNorth芯片包括4096个核心和540万个晶体管,功耗70毫瓦,模拟了一百万个神经元和2.56亿个突触。

在本次“Future Chips2017”上,来自Intel的Dr. Jiqiang Song介绍了Intel即将推出的神经形态处理器Loihi:

Loihi由128个计算核心组成,每个核心有1024个“神经元”,总计超过13万个神经元和1.3亿个突触链接。Loihi采用Intel 14nm工艺,芯片计划于2017年底silicon out。

除了Intel,清华大学类脑计算研究中心的施路平教授也介绍了他们的研究成果:

施教授团队所研发的“天机2”芯片,采用28nm工艺,其性能已经超过IBMTrueNorth。

类脑芯片相比目前的主流深度学习芯片的一个重要优势在于,类脑芯片采用异步脉冲“事件触发”机制,整个芯片的功耗在神经元未打开前为零,而神经元只是在与其他神经元通信时才会打开。所以类脑芯片普遍功耗极低,如TrueNorth的功耗只有70mw,Loihi也声称相比于传统芯片有超过100倍的能效比提升。我们可以看一下目前的深度学习“人工智能”与人脑的功耗对比:

类脑芯片所面临的一个重要的挑战在于其编程逻辑完全不同于传统计算机的编程逻辑。是否能提供一套完整的软件开发工具,甚至包括从传统深度学习网络到脉冲神经网络(Spiking Neuron Networks)的转换工具,搭建一套完整的生态链体系,或许是决定类脑芯片是否可以成功的最重要因素之一。

虽然现在有不少AI专家对类脑芯片心存疑虑。IBM在2014年发表TrueNorth的第一篇论文时,Yann LeCun就曾指出,这类芯片很难运行卷积神经网络进行图像识别计算。但是正如有包括张钹院士在内的多位专家在这次会议上所提到的,随着人工智能计算任务越来越多样化,越来越复杂,用一种架构来应对所有场景的模式或许已经不再适用。传统架构的计算机适合于应对人脑无法处理的需要大量计算和存储的应用,而类脑芯片可能适合于传统计算机无法处理而人脑可以简单处理的任务,例如自学习。下一代人工智能芯片应该是二者相结合,各自负责最擅长的部分。

关键词三:Compute-in-memory(又称In-memory-computing)

针对前面提到的内存带宽问题(memorywall),目前很多团队从芯片架构设计角度来考虑解决方案。例如张钹院士在他的演讲中提到的“Distributed”方式,即把集中的计算和存储打散,使得计算单元和存储单元离得尽量近,用分布式的本地内存方位来解决大量访问外部存储器所造成的带宽瓶颈问题和功耗问题。寒武纪团队在他们的论文中也提到了这样的设计思路(摘自“DaDianNao: A Machine-Learning Supercomputer”)。

在本次会议中,韩国科学技术院的Hoi-Jun Yoo教授在他的演讲“Mobile/Embedded DNN and AI SoCs”中也提到了“Distributed memory”的应用:

但是这些尝试还是属于基于传统CMOS芯片工艺在芯片架构上的优化。在本次会议上,有一个非常有意思的圆桌讨论:”Will Emerging Technologies Overtake CMOSin the Era of AI?”这里所说的“EmergingTechnologies”指的主要就是新型忆阻器内存所带来的“In-memory-computing”概念。忆阻器,英文名“Memristor”是英文Memory(记忆)和Resistor(电阻)两个词的混成词。忆阻器的两个主要特性:第一是其电阻会随着通过的电流量而改变,第二是其具有记忆功能,就算电路断电,它的电阻值仍然会被保留,直到有反向电流通过才会返回原状。忆阻器的这两个特性使得打破传统的计算和存储单元分开的冯诺依曼架构成为可能,即所谓“In-memory-computing”(内存内计算)。

在这次会上,有多位专家学者提到了“In-memory-computing”:

与会专家普遍认为,将计算和存储结合为一体的“In-memory-computing”可能会成为人工智能芯片最终的发展方向。当然因为这涉及到半导体工艺的创新,或许还需假以时日。

本文尝试用”Reconfigurable”, “Neuromorphicprocessor”, “In-memory computing”三个关键词来总结在”FutureChips 2017”上看到的下一代AI芯片的几个可能的发展趋势。下表尝试从几个方面对比目前的几类第一代深度学习AI芯片与三个方案的比较。如有任何不妥,欢迎指出。

即将到来的2018年将会是第一代深度学习AI芯片产业化开花结果的一年,而本文提到的这些学术界的新的研究方向,是否可以在不久的将来落地,除了技术本身之外,还取决于算法、软件、生态系统、生产良率等等多方面因素。让我们拭目以待吧!

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171225G0BQ0100?refer=cp_1026

相关快讯

扫码关注云+社区