尽管存在市场炒作周期,人工智能已进入实质性技术拐点,其引发的范式变革正在突破传统效率边界。类比蒸汽机开启工业革命、电力重塑生产模式、互联网重构信息生态,AI 作为新一代通用目的技术(General-Purpose Technology)正在催生独特的网络架构挑战与创新机遇。
人工智能 (AI),一个新的技术拐点
AI基础设施面临三维扩展困境:在存储、计算、网络资源的规模化扩展过程中,需同步应对指数级增长的能源消耗(年复合增长率>65%)与可持续发展需求。为深入解析这一命题,我们首先剖析数据中心内部网络架构变革,继而延展至跨数据中心互联的技术演进路径。
数据中心内部AI网络重构
传统云服务架构虽支撑了初期AI发展,但面对大型语言模型(LLM)训练、生成式AI(GenAI)等新型负载,其网络性能瓶颈日益凸显。以ChatGPT为代表的GenAI应用揭示出传统架构的局限性——尽管成本效益与弹性扩展仍是核心诉求,但AI工作负载对网络提出了颠覆性要求,如下图所示。
传统云和 AI 基础设施要求的比较
深度学习驱动的LLM训练场景中,数据中心内部网络需满足:
AI 由数据中心内部和之间的高性能网络提供支持
产业界通过双重路径应对挑战:
AI园区网络
单个现代 GPU 是 AI 计算集群的基本元素,其功耗可能高达 1,000 瓦,因此,当数万到数十万(甚至更多)互连用于 LLM 训练等目的时,相关能耗将成为数据中心运营商面临的巨大挑战。新的 AI 基础设施将迅速消耗现有数据中心内的能源和空间。这将导致在数据中心相距不到 10 km 的“园区”中建造新的数据中心,以最大限度地减少延迟,从而提高 AI 应用程序的性能。
而校园则需要位于可靠、可持续且具有成本效益的可用能源附近。园区数据中心将使用针对特定成本、功率、带宽、延迟和距离优化的光学器件相互连接,并与远程数据中心相连。
年份 | 月均AI流量(EB) | 年增长率 |
---|---|---|
2023 | 45 | - |
2025 | 230 | 156% |
2030 | 1,850 | 132% |
边缘推理网络
AI基础设施面临严峻能效挑战:
技术代际 | 频谱效率(b/s/Hz) | 能效比(pJ/bit) |
---|---|---|
5nm | 8.4 | 0.18 |
3nm | 11.2 | 0.12 |
硅光集成 | 15.6 | 0.08 |
构建AI原生网络生态
AI价值实现依赖于数据流动效率,这要求:
尽管 AI 基础设施计算和存储消耗的电能远高于将它们互连的网络,但网络带宽的增长无法与相关的功耗线性扩展——这既不可持续也不具有成本效益。这意味着网络技术还必须始终减少每比特的电力(和空间),以便在对实现 AI 功能至关重要的行业中“尽其所能”。
撇开炒作不谈,人工智能将为不同行业提供前所未有的好处,对我们的商业和个人生活产生积极影响。然而,AI 的快速和广泛采用带来了一系列与其基础设施(包括计算、存储和网络构建块)相关的新挑战。成功应对这些挑战需要广泛的跨行业创新和协作,因为只有当数据能够安全、可持续且经济高效地从托管 AI LLM 培训的核心数据中心内部移动到托管 AI 推理的边缘数据中心时,AI 才能成功扩展。