
互联网的雏形ARPANET诞生时,网络规模极小,节点间路径固定。工程师手动配置每一条路由表,如同在纸质地图上标注每条街道的通行规则。这种“静态路由”虽简单可靠,却完全依赖人工维护——任何链路中断或新增节点都需要重新配置,无法适应动态变化的网络环境。这种模式在小规模网络中勉强可用,但随着节点数量增加,其脆弱性暴露无遗。
局限的本质:网络被视为静态拓扑,缺乏对动态变化的感知与响应能力。
1989年,OSPF(开放最短路径优先)和BGP(边界网关协议)的发布,标志着网络进入动态自治时代。动态路由协议通过两种核心能力彻底改变了网络:
技术突破:网络从“静态地图”升级为“实时导航系统”,但流量调度仍依赖固定策略(如ECMP均分流量),无法应对复杂场景。
为追求更灵活的流量控制,软件定义网络(SDN)横空出世。其核心理念是将控制平面集中化,由中央控制器全局调度流量。理论上,SDN能实现精细化的流量工程,例如为关键业务预留带宽、动态规避拥塞链路。
但在实现过程中遇到瓶颈。感知延迟:控制器依赖秒级更新的网络状态,面对AI流量的毫秒级波动,决策严重滞后。协调成本:集中式架构难以应对大规模分布式网络的复杂性,控制器成为性能瓶颈。
SDN未能取代动态路由协议,但启发了后续技术对“集中与分布”平衡的探索。
为弥补传统路由的灵活性不足,技术社区提出“协议与控制协同”方案:
进步与局限:这些技术提升了流量调度的灵活性,但仍依赖预定义策略,无法实时响应突发流量。例如,ECMP均分流量时,一条“大象流”仍可能压垮某条路径,而控制器无法即时干预。
当AI驱动的流量彻底颠覆传统网络模型时,路由技术迎来质变——INT-based Routing通过三项革新,让网络具备“自主神经系统”:
传统网络中,链路故障需数秒至分钟才能恢复;而INT-based Routing通过实时感知与分布式决策,可在10ms内切换备用路径,业务完全无感。
以一个典型的Spine-Leaf拓扑的数据中心网络为例。

如上图所示,Server0和Server1分别连接到两个Leaf交换机,这一对Leaf交换机间存在4个路径。
在Server侧看不到这4个路径,因此智能网卡无法实现流量调度。
在Leaf交换机上,如果仅依赖OSPF,能看到4条静态的等价路径,但它们的负载实际上是不同的。
如果借助INT的感知能力,Leaf1交换机上现在就能够知道去往Server0有4条时延不相等的路径。这样Leaf1交换将能够选择更优的策略将流量分配到这4条路径上,如最小时延路径或者WCMP(Weighted Cost Multiple Path),从而实现完全自适应的路由,让网络流量和网络负载完全匹配,最大化网络的吞吐量、最小化尾部延迟,最大化网络利用率。
INT-Based Routing可以与Packet Spray和flowlet结合,实现逐包级别或逐flowlet级别的流量调度。借助OSPF和BGP的拓扑发现能力,它能够在任意拓扑的网络上应用。
相比传统的ECMP技术,INT-Based Routing可将网络利用率提升到90%以上,网络吞吐量提升20~45%, P99 tail latency 降低50%以上,从而显著提高AI训练的作业完成时间(JCT)。
OSPF擅长在链路级别感知网络拓扑,BGP则擅长在AS级别感知网络拓扑,INT通过逐跳嵌入元数据,彻底解决了原来单个交换机无法动态感知整个路径上流量和负载的问题。它们的结合释放出强大的流量调度能力。
AI的发展告诉我们,当我们做更多更有效率的分布式计算,就可以改变世界。网络本身又何尝不是如此。当我们在交换机中对网络拓扑、网络流量和设备负载进行实时分布式计算后,我们就能大幅改善网络的性能。
Smart Switch的基本构成是“可编程的ASIC数据平面 + DPU化的控制平面 + 控制平面到控制平面的高速数据通道”。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。