首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >NUS & Marvell:基于FeFET+铌酸锂调制器的大规模光电混合存算架构

NUS & Marvell:基于FeFET+铌酸锂调制器的大规模光电混合存算架构

作者头像
光芯
发布2025-06-20 09:53:27
发布2025-06-20 09:53:27
4200
举报
文章被收录于专栏:光芯前沿光芯前沿

      在2025 Symposium on VLSI Technology and Circuits会议上,新加坡国立大学NUS、新加坡下一代混合微电子中心与Marvell发表了一项光电混合存内计算的研究。该研究提出一种双晶体管单调制器(2T1M)光电混合存算阵列,通过光学位元线(bitline)规避传统电位元线的IR损耗与电容负载问题:利用工作在亚阈值区域的铁电场效应晶体管(FeFET)存储器执行点积运算,经光信号相位调制实现结果求和,并采用低损耗铌酸锂(LNOI)调制器实现高效电光转换,通过共享MZI对光子波导BL进行读取以最大化列布局效率。该架构通过消除电BL的IR损耗,可支持高达3750kb的阵列规模,在大规模ALBERT Transformer模型上,该架构仿真上可实现93.3%的推理精度,与全GPU实现相当,显著超越传统CIM设计的48.3%。此外,通过消除大规模矩阵分解和重复外围电路的需求,能效提升超过3倍,达167 TOPS/W。

      在深度学习与人工智能技术迅猛发展的今天,大规模神经网络模型如Transformer的应用日益广泛,对计算硬件的性能提出了前所未有的挑战。传统的基于忆阻器RRAM的电存算一体(CIM)架构在应对这些挑战时,面临着一个严峻的问题——随着阵列规模的扩大,IR压降效应愈发显著,严重限制了CIM技术的进一步发展。

◆ 传统CIM架构的IR压降困境

      存算一体架构旨在解决数据密集型计算中的数据移动效率问题,尤其适用于深度神经网络。然而,当CIM阵列规模增大时,一个关键问题凸显出来:随着阵列尺寸的增加,导线电阻也随之增大,导致IR压降问题日益严重。

      从电路原理来看,在传统的电阻式随机存取存储器(RRAM)构成的CIM阵列中,行线(WL)和列线(BL)构成了计算的基本框架。当进行模拟向量矩阵乘法时,电流会流经RRAM单元,而导线本身的电阻会导致电压降。IR压降与阵列的行数(N_row)以及导线电阻(R_wire)和RRAM电阻(R_RRAM)的比值成正比。

图片
图片

      IR压降问题对CIM阵列的影响很大。随着技术节点的缩小,虽然晶体管尺寸在减小,但导线电阻却在增加,这使得IR压降问题更加严重。从实际数据来看,当阵列尺寸从64增大到384时,电压降呈现出明显的上升趋势。在理想情况下,读取电压为1V,但在实际大规模阵列中,电压降可能导致读取电压下降50%以上,这直接影响了计算的准确性和可靠性。

      IR压降问题严重限制了CIM阵列的规模扩展。传统CIM阵列的规模很难超过256kb,这成为了制约大规模神经网络应用的瓶颈。而学术界目前研究的另外一条基于MZI阵列的并行计算架构尽管不存在类似的局限,但密度却难以提高。为了克服这一挑战,研究人员一直在寻找新的技术路径,而光电混合架构成为了一个极具潜力的解决方案。

◆2T1M光电混合架构的技术突破

图片
图片

①架构设计与工作原理

      2T1M(2-Transistor-1-Modulator)光电混合架构是一种创新的存算一体设计,它巧妙地结合了电子和光子技术的优势,旨在解决传统CIM架构的IR压降问题。该架构的核心在于每个存储单元由两个晶体管和一个调制器组成,通过光电转换实现了无损的列线求和。

      在2T1M架构中,FeFET(铁电场效应晶体管)被用于执行乘法运算,这是因为FeFET在亚阈值区域具有良好的线性特性,能够实现高效的模拟计算。与传统的RRAM相比,FeFET具有更低的截止电流,这对于降低静态功耗至关重要。在室温下,FeFET在±3V、100μs条件下表现出亚pA级截止电流以及预期10年的保持特性和超过1e7次循环的耐久性。

图片
图片

      具体来说,FeFET的漏极电流遵循以下关系:Id ∝ e^Vgs × e^(-Vth)= X × W,其中Vgs表示栅源电压,对应输入信号X;Vth表示阈值电压,对应权重W。这种指数关系使得FeFET在亚阈值区域能够实现线性乘法运算,为高效的存算一体计算奠定了基础。

②光电转换与无损求和

      2T1M架构的另一个关键组成部分是基于铌酸锂(LN)的调制器实现电信号到光信号的转换。铌酸锂材料的Pockels效应表明,当对铌酸锂材料施加电场时,其折射率会发生变化。这种折射率的变化会导致光信号的相位发生偏移。通过将多个2T1M单元集成在一个马赫-曾德尔干涉仪(MZI)的单臂上,各个单元产生的相位偏移可以被有效地累加,从而实现了向量矩阵乘法结果的无损求和。

      这种光电转换和相位求和的方式具有显著的优势。首先,光信号在波导中的传播损耗极低,本研究中实现的铌酸锂波导传播损耗仅为0.28dB/cm,这使得大规模阵列中的信号传输成为可能。其次,相位求和是一种无损的求和方式,避免了传统电信号求和中因IR压降导致的误差积累问题。

③单元设计与工作流程

      2T1M单元的设计充分考虑了计算效率和功耗优化。每个单元包含一个FeFET、一个用于预充电的NFET以及一个光电调制器。其工作流程可以分为以下几个阶段:

图片
图片

      在预充电阶段,NFET首先将光电调制器充电至2V,此时FeFET的极化状态不会被改变。随后,FeFET通过亚阈值电流对电容器进行放电,放电过程遵循

图片
图片

      经过一段时间T后,FeFET被关闭,此时电容器两端的电压稳定下来,该电压对应于输入信号X和权重W的乘积。

图片
图片

      接下来,利用铌酸锂调制器的高带宽和强大的电光效应,将电容器两端的电压信息转换为光信号的相位偏移。通过测量MZI输出的光功率,可以精确地获取总相位偏移,从而得到向量矩阵乘法的结果。

图片
图片

      这种设计不仅实现了高效的乘法运算,还通过光电转换和相位求和避免了传统电信号求和中的IR压降问题,为大规模阵列的实现提供了可能。

◆ 2T1M架构的工艺流程

图片
图片

      2T1M架构的fabrication flow 可分为电子器件制备和光子器件集成两大模块,每个模块包含多个关键工艺步骤。 ① 电子器件制备工艺 1. FeFET核心层制备:首先通过溅射W作为背栅电极,然后在280℃下通过原子层沉积(ALD)生长8nm HZO铁电层,这一步骤对温度控制要求极高,以确保HZO的铁电结晶质量。接着溅射2nm ITO/5nm IGZO作为沟道层,最后通过电子束蒸发制备Pd/Ni源漏电极,经380℃氧气退火形成欧姆接触。 2. 预充电NFET集成:NFET采用与FeFET兼容的工艺,沟道材料同样为ITO-IGZO,通过调整栅极电压实现预充电功能。关键在于确保NFET与FeFET的阈值电压匹配,以实现精准的2V预充电。 ② 光子器件集成工艺 1. LNOI波导制备:采用标准的LNOI衬底,通过光刻和刻蚀形成MZI结构。 2. ITO调制电极制备:在波导上方溅射3nm超薄ITO作为顶电极,利用其透明导电特性实现电场注入。 3. 混合集成工艺:电子器件与光子器件的集成顺序是先制备光子结构,再进行电子器件工艺。 ③ 工艺验证与表征       制备完成的2T1M单元通过扫描电子显微镜(SEM)和高分辨透射电子显微镜(HR-TEM)进行结构验证。

◆  性能验证

图片
图片

      为了验证2T1M架构的性能,研究人员进行了详细的仿真实验。结果表明,该架构在多个关键指标上表现出色,显著优于传统的CIM架构。

图片
图片

      在准确性方面,当运行ALBERT模型的最大词嵌入层(30000×128)时,2T1M架构实现了93.3%的推理准确率,这一结果与完整的GPU实现相当,而传统的CIM架构在相同条件下仅能达到48.3%的准确率。这一巨大的差距充分说明了2T1M架构在克服IR压降问题后,能够更好地保持计算的准确性,尤其是在大规模阵列中。

图片
图片

      在可扩展性方面,2T1M架构表现出了显著的优势。传统CIM架构由于IR压降的限制,阵列规模很难超过256kb,而2T1M架构通过光电混合设计,成功实现了3750kb的超大阵列规模,这是传统架构的150倍以上。这种出色的可扩展性使得2T1M架构能够满足大规模神经网络模型的计算需求。

      在功耗方面,2T1M架构同样表现优异。由于消除了IR压降,避免了大规模矩阵分解和重复的外围电路,该架构的功耗效率比最先进的传统CIM架构提高了37倍,达到了164TOPS/W的峰值性能。这一结果对于推动边缘计算和数据中心的能效提升具有重要意义。

图片
图片

PIC Worker

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光芯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档