
核心答案:两大英伟达自研黑科技——NVLink高速互联总线 + NVSwitch交换芯片
很多人都会好奇:DGX H100服务器明明内置了8张独立的H100 GPU显卡,可在软件层面调用、运行大模型训练时,我们完全感知不到8张显卡的边界,整机就如同一张超大容量、超高算力的单块巨型GPU。实现这一效果,不靠复杂的软件适配,全靠英伟达两套专属硬件互联方案。

GPU的核心优势是并行计算能力极强,跑AI模型算力拉满,但它有一个致命短板:算力再强,也需要充足的数据实时供给,一旦数据传输跟不上计算速度,显卡就会闲置空转,整体训练效率大幅暴跌。
我们用真实大模型数据直观举例:
不难看出,单张H100远远放不下超大参数的大模型,必须把8张显卡的显存、算力合并共用。想要合并硬件资源,前提就是显卡之间能够无延迟、超高带宽地互相传输数据。
普通家用电脑、常规服务器中,显卡和CPU、显卡和显卡之间,统一依靠PCIe总线传输数据,这是行业通用标准,但面对AI大模型完全力不从心。
目前最新的PCIe 5.0总线,显卡与服务器其他硬件之间的传输带宽仅有64GB/s。这个速度放在日常办公、游戏场景绰绰有余,可在千亿级大模型训练面前,数据传输瓶颈会直接卡死整张服务器的算力,多卡协同几乎没有实用价值。
为了解决通用总线带宽不足的问题,英伟达自研了NVLink显卡直连总线,抛弃PCIe中转,实现显卡和显卡之间芯片对芯片的直接通信。
H100平台单卡NVLink带宽:900GB/s,是PCIe 5.0的7倍左右
新一代Blackwell B200平台:带宽进一步翻倍,达到1.8TB/s
NVLink相当于给每块显卡拉了一根专属超高速网线,彻底解决了单对单显卡之间的数据传输卡顿问题。但仅仅有高速网线,依旧无法实现8张显卡完全互联互通。
NVLink存在硬件物理限制:每一张GPU芯片能引出的NVLink接口引脚数量是固定且有限的。
一台DGX H100内置8张显卡,如果只用NVLink直连,硬件引脚根本不够支撑「任意两张显卡之间全速点对点通信」,必然会出现部分显卡传输拥堵、带宽降级的问题。
这时NVSwitch交换芯片就起到了关键作用,我们可以用通俗的网络设备类比理解:
NVLink是高速网线,NVSwitch就是网络交换机。 就像多台电脑接交换机就能全网互通一样,NVSwitch可以无损转发所有NVLink数据流,保证所有显卡通信均能跑满原生带宽。
标准DGX H100服务器内置4颗NVSwitch芯片,完整打通8张H100显卡的互联链路:服务器内任意两张显卡传输数据,都能保持满速运行,全程无瓶颈、无降速。
到了最新的Blackwell架构时代,英伟达再次升级硬件互联架构:把原本集成在服务器内部的NVSwitch芯片,移出单机、部署到整机柜当中。
这意味着不止一台服务器内的显卡可以融为一体,一整个机柜的所有GPU,在软件层面都会被识别为一张统一的巨型显卡,AI集群的横向扩展能力实现跨越式提升。