前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >局域网SDN硬核技术内幕 30 钩深致远 —— 意图驱动与自动驾驶(上)

局域网SDN硬核技术内幕 30 钩深致远 —— 意图驱动与自动驾驶(上)

作者头像
用户8289326
发布2022-07-27 11:01:15
3390
发布2022-07-27 11:01:15
举报

在前面几期专题中,我们从RDMA讲起,引入了INT(带内遥测)作为高精度实时质量检测的手段;ERSPAN精准检测关键报文丢包;gRPC监测网络设备控制平面信息等。通过这些手段,我们可以收集网络中的时延、抖动、丢包等转发平面外部信息;交换芯片计数、缓存使用量、拥塞程度等转发平面内部信息;以及路由转发表项、温度环境等控制平面信息。

有了这些信息收集手段以后,实际上,相对于SNMP打天下的阶段,我们对网络的管理控制,已经迈入了新时代——大数据时代的大门。

这是为什么呢?

对大数据技术有一定了解的朋友可能会发现,大数据相关处理的算法,如最小二乘,拟合,回归,相关度分析,马尔可夫链以及贝叶斯公式等,并没有超出工学硕士研究生的数学基础课程范畴。大数据与传统数据统计的区别主要在于,大数据分析的是全部的而非抽样的数据。

显然,通过前面提到的这些手段,相对于SNMP的采样,获取的数据量是巨大的。而在实践中,这些实时采集手段往往用于大型数据中心和园区网络中。因此,相关的大数据分析需要海量数据的存储,管理及分析能力。

显然,大数据在网络管理控制中的应用要付出一定代价。那么,它的产出在哪里呢?

首先是AI相关大规模分布式存储与计算应用的性能优化和诊断。

我们在前面提到,Tensorflow,GlusterFS,MAPR等AI相关的开发框架,底层均使用RDMA机制。为了保障RDMA业务无丢包,在以太网交换机上需要配置PFC和ECN技术,在RDMA相关业务即将发生拥塞,相关队列长度到达水线时,一方面向上游发送拥塞控制PFC,另一方面向下游传达拥塞标记ECN,从而实现以太网的无损传输。但,无损付出的代价是,有可能以太网接口无法达到线速,因为线速传输意味着有上游数据的丢失。

如何在丢包和无损之间找到平衡点呢?

显然,如果交换机流控的水线配置过低,会导致RDMA源服务器发送过慢,25G的以太网有可能只能利用15-20G,造成效率的降低。而如果流控的水线配置过高,在快要发生拥塞的时候才启动流控机制,流控信令尚未反馈到发送端,数据包缓存已经耗竭而引发丢包,则会使得RDMA整块数据重传,这是大家都不希望看见的。因此,合理配置交换机缓存水线,在优化无损以太网性能中是非常重要的。

不言而喻地,对交换机缓存水线的优化,是一个动态的过程,本质上是自动控制原理在网络中的应用。

学过自动控制的同学看到这张图,一定会开心地笑出来吧!对了,这就是PID控制的框图,单输入单输出自动控制系统的基本功。

部分二线交换机厂商,受到这些21岁大三学生应该掌握的内容的启发,在交换机内部增加了自动控制协处理器,可以对单个节点实现所谓的动态水线配置,从而优化RDMA性能,并包装成为所谓的AI网络方案,但市场反馈并不理想。这是为什么呢?

明天,我们将为大家揭开真正全局优化大数据及AI网络的奥秘。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-10-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 帅云霓的技术小屋 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档