首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AI驱动网络范式革新:Smart Switch与智能路由的协同进化

AI驱动网络范式革新:Smart Switch与智能路由的协同进化

原创
作者头像
星融元Asterfusion
修改2025-05-12 17:07:39
修改2025-05-12 17:07:39
3000
举报
文章被收录于专栏:星融元星融元

路由协议的演进史:从静态配置到AI时代的神经网

一、路由协议的诞生:静态路由时代(1960s—1970s)

互联网的雏形ARPANET诞生时,网络规模极小,节点间路径固定。工程师手动配置每一条路由表,如同在纸质地图上标注每条街道的通行规则。这种“静态路由”虽简单可靠,却完全依赖人工维护——任何链路中断或新增节点都需要重新配置,无法适应动态变化的网络环境。这种模式在小规模网络中勉强可用,但随着节点数量增加,其脆弱性暴露无遗。

局限的本质:网络被视为静态拓扑,缺乏对动态变化的感知与响应能力。

二、动态路由协议:网络学会“自我修复”(1980s—2000s)

1989年,OSPF(开放最短路径优先)和BGP(边界网关协议)的发布,标志着网络进入动态自治时代。动态路由协议通过两种核心能力彻底改变了网络:

  1. 拓扑感知:OSPF基于链路状态数据库(LSDB),实时计算最短路径;BGP通过AS-PATH属性在自治系统间传递路由信息。
  2. 故障自愈:当某条链路中断,协议自动重新计算路径,保障连通性。

技术突破:网络从“静态地图”升级为“实时导航系统”,但流量调度仍依赖固定策略(如ECMP均分流量),无法应对复杂场景。

三、SDN革命:集中控制的理想与困境(2008年—2010s)

为追求更灵活的流量控制,软件定义网络(SDN)横空出世。其核心理念是将控制平面集中化,由中央控制器全局调度流量。理论上,SDN能实现精细化的流量工程,例如为关键业务预留带宽、动态规避拥塞链路。

但在实现过程中遇到瓶颈。感知延迟:控制器依赖秒级更新的网络状态,面对AI流量的毫秒级波动,决策严重滞后。协调成本:集中式架构难以应对大规模分布式网络的复杂性,控制器成为性能瓶颈。

SDN未能取代动态路由协议,但启发了后续技术对“集中与分布”平衡的探索。

四、协同进化:动态路由与控制器联姻(2010s—2020s)

为弥补传统路由的灵活性不足,技术社区提出“协议与控制协同”方案:

  1. Segment Routing(SR):通过源路由标记路径,结合控制器实现流量工程。
  2. BGP EVPN:在数据中心多租户场景中,动态管理虚拟网络拓扑。

进步与局限:这些技术提升了流量调度的灵活性,但仍依赖预定义策略,无法实时响应突发流量。例如,ECMP均分流量时,一条“大象流”仍可能压垮某条路径,而控制器无法即时干预。

五、INT-based Routing:AI时代的“神经感知路由”(2020s—)

当AI驱动的流量彻底颠覆传统网络模型时,路由技术迎来质变——INT-based Routing通过三项革新,让网络具备“自主神经系统”:

1. 微秒级感知:数据包成为“侦察兵”

  • INT(带内网络遥测):在业务数据包中嵌入元数据(如队列深度、链路时延),逐跳收集路径状态,精度达微秒级。
  • 分布式计算:每台交换机实时分析本地INT数据,结合OSPF/BGP的全局拓扑信息,动态计算最优路径。

2. 动态负载均衡:从“均分”到“自适应”

  • WCMP(加权多路径):根据实时链路负载(而非静态权重)分配流量。例如,某路径因“大象流”导致时延上升,新流量立即切换至低负载路径。
  • Flowlet级调度:将长连接流划分为片段(flowlet),按路径状态动态分发,避免传输层乱序问题。

3. 故障自愈:从“分钟级”到“毫秒级”

传统网络中,链路故障需数秒至分钟才能恢复;而INT-based Routing通过实时感知与分布式决策,可在10ms内切换备用路径,业务完全无感。

案例:AI数据中心的性能跃迁

以一个典型的Spine-Leaf拓扑的数据中心网络为例。

如上图所示,Server0和Server1分别连接到两个Leaf交换机,这一对Leaf交换机间存在4个路径。

在Server侧看不到这4个路径,因此智能网卡无法实现流量调度。

在Leaf交换机上,如果仅依赖OSPF,能看到4条静态的等价路径,但它们的负载实际上是不同的。

如果借助INT的感知能力,Leaf1交换机上现在就能够知道去往Server0有4条时延不相等的路径。这样Leaf1交换将能够选择更优的策略将流量分配到这4条路径上,如最小时延路径或者WCMP(Weighted Cost Multiple Path),从而实现完全自适应的路由,让网络流量和网络负载完全匹配,最大化网络的吞吐量、最小化尾部延迟,最大化网络利用率。

INT-Based Routing可以与Packet Spray和flowlet结合,实现逐包级别或逐flowlet级别的流量调度。借助OSPF和BGP的拓扑发现能力,它能够在任意拓扑的网络上应用。

相比传统的ECMP技术,INT-Based Routing可将网络利用率提升到90%以上,网络吞吐量提升20~45%, P99 tail latency 降低50%以上,从而显著提高AI训练的作业完成时间(JCT)。

OSPF擅长在链路级别感知网络拓扑,BGP则擅长在AS级别感知网络拓扑,INT通过逐跳嵌入元数据,彻底解决了原来单个交换机无法动态感知整个路径上流量和负载的问题。它们的结合释放出强大的流量调度能力。

新路由范式将带来新一轮网络设备升级

AI的发展告诉我们,当我们做更多更有效率的分布式计算,就可以改变世界。网络本身又何尝不是如此。当我们在交换机中对网络拓扑、网络流量和设备负载进行实时分布式计算后,我们就能大幅改善网络的性能。

Smart Switch的基本构成是“可编程的ASIC数据平面 + DPU化的控制平面 + 控制平面到控制平面的高速数据通道”。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 路由协议的演进史:从静态配置到AI时代的神经网
    • 一、路由协议的诞生:静态路由时代(1960s—1970s)
    • 二、动态路由协议:网络学会“自我修复”(1980s—2000s)
    • 三、SDN革命:集中控制的理想与困境(2008年—2010s)
    • 四、协同进化:动态路由与控制器联姻(2010s—2020s)
    • 五、INT-based Routing:AI时代的“神经感知路由”(2020s—)
      • 1. 微秒级感知:数据包成为“侦察兵”
      • 2. 动态负载均衡:从“均分”到“自适应”
      • 3. 故障自愈:从“分钟级”到“毫秒级”
  • 案例:AI数据中心的性能跃迁
  • 新路由范式将带来新一轮网络设备升级
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档