
随着人工智能大模型训练和分布式计算等高性能应用的快速发展,智算网络对端到端路径质量的监控需求日益提升。为了应对网络拥塞和时延异常等问题,INT(In-band Network Telemetry,带内网络遥测)作为新一代网络质量分析技术,已从学术研究走向真实网络环境。其中,作为INT技术的标准方案之一,IPT(In-band Path Telemetry,带内路径遥测)在路径质量监控中发挥着重要作用。
IPT,全称 In-band Path Telemetry,即带内路径遥测。它侧重于实现端到端路径质量的精准监控,通过在遥测域内配置入口节点、出口节点及传输节点,利用探针标记(Probe Marker)唯一标识遥测域,沿原始路径生成探测数据包并收集各节点统计信息,最终为网络运维提供整网路径质量的多维分析能力。


PT的工作流程主要分为以下三个核心环节:
为了更好地选择适合的遥测方案,我们可以通过以下表格对比BDC、HDC以及IPT技术的差异:
方案 | BDC | HDC | IPT |
|---|---|---|---|
触发条件 | 队列缓冲区超限丢包 | 队列转发时延达到设定阈值 | 无 |
遥测信息 | 队列占用情况 | 转发时延 | 队列深度及转发时延 |
采样机制 | 概率捕获、微突发捕获 | 概率捕获、微突发捕获 | 概率捕获 |
聚焦场景 | 缓冲区丢包捕获与报告 | 无损网络中的高延迟异常诊断 | 大型网络中的问题定位,全路径质量监控 |
与直接修改业务报文的“染色”方式相比,基于采样和生成独立探测报文的遥测方式具有以下优势:
在超千卡GPU集群的大模型训练场景中,集群依赖高性能网络实现节点间数据同步,路径质量直接影响训练效率。IPT技术可在以下环节优化路径性能:


随着智算网络的发展,基于INT技术的IPT方案为端到端网络路径质量提供了强有力的监控手段。了解并应用IPT技术能够帮助企业构建高效、稳定的网络基础设施。
下图展示的是基于IPT技术的EasyRoCE小工具TPE(流量路径预览)的监控面板。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。