首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >INT之IPT精准路径遥测:端到端网络质量监控详解

INT之IPT精准路径遥测:端到端网络质量监控详解

原创
作者头像
星融元Asterfusion
发布2026-05-11 14:29:20
发布2026-05-11 14:29:20
820
举报
文章被收录于专栏:智算中心网络智算中心网络

智算网络对端到端路径质量监控的需求

随着人工智能大模型训练和分布式计算等高性能应用的快速发展,智算网络对端到端路径质量的监控需求日益提升。为了应对网络拥塞和时延异常等问题,INT(In-band Network Telemetry,带内网络遥测)作为新一代网络质量分析技术,已从学术研究走向真实网络环境。其中,作为INT技术的标准方案之一,IPT(In-band Path Telemetry,带内路径遥测)在路径质量监控中发挥着重要作用。

什么是IPT技术?

IPT的核心定义

IPT,全称 In-band Path Telemetry,即带内路径遥测。它侧重于实现端到端路径质量的精准监控,通过在遥测域内配置入口节点、出口节点及传输节点,利用探针标记(Probe Marker)唯一标识遥测域,沿原始路径生成探测数据包并收集各节点统计信息,最终为网络运维提供整网路径质量的多维分析能力。

工作流程拆解

PT的工作流程主要分为以下三个核心环节:

  • 入口节点(Ingress Node):
    • 识别与采样: 通过采样或配置DSCP指定队列的方式识别目标流量,而非复制所有流量。
    • 复制与截断: 克隆原始业务报文,保留二三层首部,并截断Payload,以降低遥测流量对带宽的占用。
    • 探测包封装: 在UDP或TCP首部前16字节后插入IPT专有字段(包括探针标记、Base Header及入口节点统计信息)。
  • 传输节点(Transit Node):
    • 精准识别: 通过识别特定偏移位置的Probe Marker,迅速判定该报文为IPT探测包。
    • 元数据追加: 将本节点的路径统计信息(如设备ID、入/出接口、实时时延等)追加到IPT数据段中,且不改变原有结构。
    • 硬件透传: 确保探测包的累加处理不会引入额外的计算开销。
  • 出口节点(Egress Node):
    • 信息补全: 写入最后一个节点的元数据,形成完整的端到端路径视图。
    • 探测包终结和封装: 将探测包从业务转发路径中摘除,将收集到的全路径元数据封装并发送给采集器(Collector)。

IPT与BDC/HDC的技术对比

为了更好地选择适合的遥测方案,我们可以通过以下表格对比BDC、HDC以及IPT技术的差异:

方案

BDC

HDC

IPT

触发条件

队列缓冲区超限丢包

队列转发时延达到设定阈值

遥测信息

队列占用情况

转发时延

队列深度及转发时延

采样机制

概率捕获、微突发捕获

概率捕获、微突发捕获

概率捕获

聚焦场景

缓冲区丢包捕获与报告

无损网络中的高延迟异常诊断

大型网络中的问题定位,全路径质量监控

IPT的突出优势与典型应用场景

核心方案优势

与直接修改业务报文的“染色”方式相比,基于采样和生成独立探测报文的遥测方式具有以下优势:

  • 业务零干扰: 由于修改的是复制出的探测包,即便遥测逻辑出现异常,也不会影响原始业务数据的完整传输。
  • 低带宽压力: 通过截断Payload,极大地减小了探测包的体积,非常适合大规模部署。
  • 部署灵活性: 在不支持IPT的设备上,探测包可作为普通报文透传;而在支持节点上则进行数据采集,具备良好的兼容性。

典型应用场景:大模型训练集群的路径优化

在超千卡GPU集群的大模型训练场景中,集群依赖高性能网络实现节点间数据同步,路径质量直接影响训练效率。IPT技术可在以下环节优化路径性能:

  • 端到端路径时延监控: IPT通过探测数据包采集各节点转发时延,结合入口到出口的总时延,可快速定位高延迟节点,辅助调整流量转发路径。
  • 队列状态动态感知: IPT探测数据包携带队列占用大小及QP等信息,帮助运维人员快速识别拥塞队列,调整缓冲区分配策略。

随着智算网络的发展,基于INT技术的IPT方案为端到端网络路径质量提供了强有力的监控手段。了解并应用IPT技术能够帮助企业构建高效、稳定的网络基础设施。

下图展示的是基于IPT技术的EasyRoCE小工具TPE(流量路径预览)的监控面板。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 智算网络对端到端路径质量监控的需求
  • 什么是IPT技术?
    • IPT的核心定义
    • 工作流程拆解
    • IPT与BDC/HDC的技术对比
  • IPT的突出优势与典型应用场景
    • 核心方案优势
    • 典型应用场景:大模型训练集群的路径优化
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档