首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

报告连载 | 算力互连:由内及外,由小渐大

最近,业界首个以算网融合为核心的多元算力研究报告《算力经济时代·2023新型算力中心调研报告》出版,我们将对报告内容开启连载模式。

结合算力经济时代的算力基础设施发展,第四章主要探讨了以下话题:

 报告连载 | 算力互连:由内及外,由小渐大

 报告连载 | NVLink 之GPU 互连

报告连载 | NVLink 组网超级集群

 报告连载 | InfiniBand 扩大规模

随着“东数西算”工程的推进,诸如“东数西渲”、“东数西训”等细分场景也逐渐被提起。

视频渲染和人工智能(Artificial Intelligence,AI)/机器学习(Machine Learning,ML)的训练任务,本质上都属于离线计算或批处理性质,完全可以在“东数西存”的基础上,即原始素材或历史数据传输到位于西部地区的数据中心之后,就地独立完成计算过程,中间极少与东部地区的数据中心交互,因此可以不受跨地域的时延影响。

换言之,“东数西渲”、“东数西训”的业务逻辑能够成立,是因为计算与存储仍是就近耦合的,不需要面对跨地域的“存算分离”挑战。

在服务器内部,CPU与GPU存在着类似而又不同的关系。以目前火热的大模型为例,对计算性能和内存容量都有很高的要求,而CPU与GPU 在这方面偏偏存在“错配”的现象:GPU的(AI)算力明显高于CPU,但是直属的内存(显存)容量基本不超过100GB,与CPU动辄TB级的内存容量相比,相差一个数量级。

好在,CPU与GPU之间的距离可以缩短,带宽可以提升。消除互连瓶颈之后,可以大量减少不必要的数据移动,提高GPU的利用率。

为GPU而生的CPU

NVIDIA Grace CPU的核心基于Arm Neoverse V2,互连架构SCF(Scalable Coherency Fabric,可扩展一致性结构)也可以看作是Arm CMN-700网格的定制版。但是在对外I/O的部分,NVIDIA Grace CPU与其他Arm和x86服务器都有很大的不同,体现出英伟达做这款CPU的主要意图——为需要高速访问大内存的GPU服务。

内存方面,Grace CPU有16个LPDDR5X内存控制器,这些内存控制器对应着CPU外面封装在一起的8个LPDD5X 芯片,裸容量512GB,扣除ECC开销后,可用容量为480GB。这样看来,有1个内存控制器及其对应的LPDDR5X内存die被用于ECC。

在英伟达的官方资料里,与512GB内存容量同时出现的内存带宽参数是546GB/s,而与480GB(w/ECC)一同出现的是(约)500GB/s,实际的内存带宽应该是512GB/s左右。

△ NVIDIA Grace的处理器、内存互联带宽非常可观

NVLink-C2C的带宽为900GB/s,这是一个相当惊人的数据。作为参考:

Intel代号Sapphire Rapids的第四代至强可扩展处理器包含3或4组x24 UPI 2.0(@16GT/s),多路处理器间互联的总带宽接近200GB/s;

AMD 第四代EPYC用于处理器内CCD与IOD互联的GMI3接口带宽为36GB/s,CPU间互联的Infinity Fabric相当于16通道PCIe 5.0,带宽为32GB/s。双路EPYC 9004之间可以选择使用3 或4 组Infinity Fabric互联,4组的总带宽为128GB/s。

△ AMD Infinity Fabric

通过巨大的带宽,两颗Grace CPU被紧密联系在一起,其“紧密”程度远超传统的多路处理器系统,已足以匹敌现有的基于有机载板的多数Chiplet封装方案(2D封装)。要超越这个带宽,需要硅中介层(2.5D封装)的出马,例如Apple M1 Ultra 的Ultra Fusion架构是利用硅中介层来连接两颗M1 Max芯粒。苹果宣称UltraFusion可同时传输超过10,000个信号,从而实现高达 2.5TB/s低延迟处理器互联带宽。Intel的EMIB也是2.5D封装的一种,其芯粒间的互联带宽也应当是TB 级。

NVLink-C2C另一个重要应用案例是GH200 Grace Hopper超级芯片,将一颗Grace CPU与一颗Hopper GPU互联。格蕾丝·霍波(Grace Hopper)是世界上第一位著名女程序员,“bug”术语的发明者。因此,NVIDIA 将这一代CPU和GPU分别命名为Grace和Hopper,其实是有深意的,充分说明在前期规划中,二者便是强绑定的关系。

△ NVIDIA Grace Hopper 超级芯片

△ NVIDIA Grace Hopper 超级芯片主要规格

简而言之,CPU拥有的内存容量是GPU不能比的,带宽也还可以,但GPU到CPU之间的互连(PCIe)才是瓶颈所在。要改变这一点,亲自下场做CPU是最直接的。

NVLink-C2C的带宽足以匹配(CPU的)内存,访问内存的友好度也超过PCIe,都是GH200 Grace Hopper超级芯片相对x86+GPU方案的核心优势。NVLink-C2C的另一个亮点是能效比,英伟达宣称NVLink-C2C每传输1比特数据仅消耗1.3皮焦耳能量,大约是PCIe 5.0的五分之一,再考虑速率,那就有25倍的能效差异了。这种比较当然不够公平,毕竟PCIe是板间的通讯,传输距离有本质的区别。但这个数据也有助于理解NVLink-C2C相对NVLink的能效差异,后者大概参考PCIe的量级来看即可。在能效方面,传输距离和封装方式NVLink-C2C类似的接口总线是AMD用于EPYC的Infinity Fabric,大概是1.5pJ/b。至于2.5D、3D Chiplet 使用的接口,如UCIe、EMIB等的能耗还要再低一个数量级,大致的情况可以参考下面的表格。

NVLink最初是为满足GPU之间高速交换数据而生的,在NVSwitch的帮助下,可以把服务器内部的多个GPU 连为一体,获得容量成倍增加的显存池。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OyMYu_p0iMKcb8TYO73YbL_Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券