以下文章来源于悦智网,作者SamuelK.Moore
长期以来,人们一直认为机器学习芯片使用模拟电路替代数字电路可节省大量能源。但在实践中,这种芯片大多只能节省有限的能源,而且仅适用于中等规模的神经网络。
硅谷初创公司Sagence AI表示,其拥有的技术能够使大规模生成式人工智能模型任务实现大幅节能。这家初创公司声称,其系统能够运行Meta的大语言模型Llama 2 70B,与英伟达H100 GPU系统相比,其功率仅为前者的1/10,成本和占用空间仅为前者的1/20。
“我的愿景是打造一种与现有人工智能截然不同的技术。”Sagence AI的首席执行官兼创始人夏尔马•萨林(Vishal Sarin)说。2018年创办该公司时,他就认识到,电力消耗将阻碍人工智能的大规模应用,尤其是在人工智能模型越来越大的情况下。
模拟人工智能节能能力的核心来源于两个基本优势:使用一些基本物理量来完成机器学习最重要的数学运算,以及不需要移动数据。
这种被称为乘法累加运算的数学函数,就是将向量相乘,然后将结果累加。十年前,工程师们就认识到,电气工程的两条基本定律几乎可瞬时完成同样的任务。例如欧姆定律,电压乘以电导(电阻的倒数)等于电流,如果将神经网络的“权重”参数作为电导,这就是乘法运算。根据基尔霍夫电流定律,进入和离开一个点的电流之和为零,这意味着,只需把它们连接到同一条线路,就可以把这些乘法的结果累加起来。
在模拟人工智能中,不需要将神经网络参数从内存移动到计算电路(数据移动往往比数据计算消耗的能量更多),因为它们已经嵌入到了计算电路中。
Sagence AI将闪存单元作为电导值。通常用于数据存储的闪存单元是一个晶体管,可存储3或4比特。而Sagence AI开发的算法可以让嵌入芯片的单元容纳8比特,这一水平是大语言模型和其他转换模型精度的关键。萨林说,在单个晶体管中存储8比特数字可以节省成本、空间和能源。在数字存储技术中,每比特需要多个晶体管,存储8比特数字需要48个晶体管。
除了省电之外,闪存单元在“深亚阈值”状态下工作,产生的电流很少。这在数字电路中是不可行的,因为这会使计算机的速度非常慢。但是,由于模拟计算是一次完成的,因此它不会影响速度。
早在2017年和2018年,就有3家初创公司在研究基于闪存的模拟人工智能。Syntiant公司最终放弃了数字方案的模拟方法,到目前为止,该数字方案已将6种芯片投入批量生产。Anaflash和Mythic还在挣扎,但也坚持了下来。其他公司(特别是IBM研究院)则开发出采用非易失性存储器而非闪存的芯片。
模拟人工智能一直在努力发挥其潜能,尤其是扩大到实用规模时。闪存单元的电导有自然的变化,这可能意味着,相同的数字存储在不同的单元会导致两种不同的电导。更糟糕的是,这些电导会随时间和温度产生偏移。这种噪声可能会淹没表示结果的信号,而且噪声能够通过多层深度神经网络进行叠加。
萨林解释说,Sagence AI的解决方案是在芯片上设置一组参考单元,采用一种专有算法,使用参考单元来校准其他单元,并跟踪与温度相关的变化。
模拟人工智能还需要将乘法累加运算的结果数字化,以便将其传递给神经网络的下一层,然后,还必须将其转换回模拟电压信号。这些步骤需要模数转换器和数模转换器,而这些会占用芯片面积并增加耗电。萨林表示,Sagence AI已经开发了这两种电路的低功耗版本。
Sagence AI计划在2025年推出的第一款产品将面向视觉系统,它会比基于服务器的语言模型轻很多。“这是一个跨越式的产品,生成式人工智能会紧随其后。”萨林说。
生成式人工智能产品通过视觉芯片扩展,主要是在通信晶粒上垂直堆叠模拟人工智能芯粒。这些堆栈将连接到一个CPU芯片,并与一个名为Delphi的单个封装中的高带宽内存动态随机存取存储器(DRAM)连接。
Sagence AI表示,在仿真实验中,由Delphis组成的系统能够以每秒66.6万个token的速度运行Llama 2 70B,功耗为59千瓦,而基于英伟达H100的系统功耗为624千瓦。
文章来源于悦智网,作者Samuel K. Moore
EETOP
百万芯片工程师专业技术论坛
官方微信号
不记名!有奖问卷调查
领取专属 10元无门槛券
私享最新 技术干货