前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据驱动光网络的智能运营探索

数据驱动光网络的智能运营探索

作者头像
鹅厂网事
发布2020-12-02 15:10:12
8070
发布2020-12-02 15:10:12
举报
文章被收录于专栏:鹅厂网事鹅厂网事

/前言/

        面对流量快速增长,如何快速高效提供高质量带宽,保证带宽长期稳定运行,是数据中心互联光网络面临的最大挑战。针对快速高效提供带宽的问题。我们已经具备有效的应对方法。基于数据中心互联组网特点,我们将光网络切割成一个一个独立的单元,首先将这些单元标准化,设计更加适用于数据中心应用的硬件设备OPC-4、TPC-4和设备管控模型,构建标准管控系统,实现对不同厂商设备的统一管理,混合组网。然后将标准单元快速复制到数据中心互联应用中,有效应对数据中心互联带宽的快速增长。

        随着系统规模越来越大,如何保证系统长时间,高质量运行,是我们亟需解决的主要问题。一方面系统在运行过程中会逐渐偏离最佳运行状态,需要持续修正,使系统维持在最佳运行状态。另一方面系统会遇到一些故障,在故障率一定的情况下,系统规模越大,故障总量就越大。如何有效降低故障率,并持续保证系统运行在最佳状态,是提升系统质量的关键。

        我们从标准结构着手,通过科学有效的方法,提升标准结构的高质量运行能力,一旦为标准结构构建起这样的能力,便可以快速将这种能力复制到整个网络。我们以精细化运行数据为驱动,为标准结构构建起自主运行能力,使其能常态化运行在最佳状态。系统持续自主运行在最佳状态,需要系统自身能够基于运行数据,提前发现系统潜在风险,在故障发生前主动处理,防患于未然,有效降低系统故障率。同时以设备运行数据为基础,还可以分析设备运行情况,协助优化设备硬件、软件设计,提升设备质量。

/自动控制架构/

        腾讯开放光网络自动控制架构,本质是一个闭环控制架构。架构的关键点是四大能力构建:控制能力、采集能力、感知能力、决策能力。将这四大能力合理有序串联起来,便可实现整个系统的自动运行。采集能力采集到系统更详尽、更精细的运行数据,感知能力对运行数据分析,感知系统变化;决策能力则使系统具备科学分析,科学决策的能力,依据感知结果对系统作出科学决策,并将指令传递给控制系统执行,实现对系统的闭环控制。

/感知能力构建/

        什么是感知能力?用一个人体体验作为例子,如果人体被针扎一下或者手拧一下,都会体会到疼痛,人体体会到疼痛是一种采集能力,但是我们的大脑能够准确的从这两种疼痛不同的表现方式,体会出差异,判断出区别,这就是感知能力。感知能力是一种对数据的分析能力。在传统光网络系统中,对数据的感知往往是由经验丰富的工程师完成,我们正在帮系统构建起这种能力,使系统能够在无人干预的条件下,实现对数据的经验性转化。目前腾讯开放光网络已经具备了控制能力和采集能力,我们正在进行感知能力和分析能力的构建。

 我们主要从两个维度构建系统感知能力,一个是系统维度,一个是时间维度。系统维度,首先构建针对单个指标的感知能力,通过对指标的感知来判断系统变化。传送平面的硬件和光纤是运营过程中可以操作的基本单元,构建针对硬件和光纤的感知能力,准确感知故障和潜在风险,触发相关运维操作,对问题硬件替换,避免故障发生,可以将故障转化为计划内的网络操作,保证系统质量。传输系统最终是一个带宽系统,从用户角度并不关心系统内部设备、光纤这些组成元素。我们常被用户问及带宽情况如何?带宽的感知能力,则是让系统能够自行回答这个问题。让系统能够感知带宽当前的运行状态,预测带宽未来的运行状态,对潜在风险合理规避,有效降低带宽的非预期性中断,保证带宽长期稳定运行。时间维度,则要为系统构建快速感知能力,中速感知能力和慢速感知能力,这是从系统问题分析时效性出发定义的能力。快速感知是对数据的实时分析,快速捕获系统故障。中速感知则是对系统潜在风险或者关键指标变化的分析和感知,这往往需要一定量的数据进行分析。而慢速感知则是通过对大量数据的分析,来感知系统运行趋势,可以对系统未来的运行状况进行预测。

         接下来介绍不同感知能力构建的典型数据基础。下面这张图展示了对线路光纤衰耗的快速感知能力。通过光纤两端主光通道及OSC(Optical Supervisory Channel)的发光功率和收光功率计算得到光纤衰耗,能够通过光纤衰耗的变化,快速发现光纤故障。同时可以观察到在放大器开启APR(Automatic Power Reduction)功能情况下,主光通道光功率和OSC通道光功率的差异性行为。

        下面这张图展示了对光纤衰耗的中速感知能力,可以观察到在某一时刻后光纤衰耗已经发生变化,持续性的提升了一个台阶,此时系统需要感知到光纤基准衰耗的变化,并正确修正该基准衰耗。因为系统内基于光纤衰耗的分析算法会使用到光纤基准衰耗,光纤基准衰耗的不准确,会直接导致使用该指标的算法无法得到正确结果。

        最后一张图展示了对设备的中速感知能力,可以明显观察出上方图中,A-Z方向由主光通道计算出的光纤衰耗和由OSC通道计算出的光纤衰耗,呈现不同的数据形态。基于OSC计算出的光纤衰耗数据保持稳定,但是相同时间段内,由主光通道计算出的光纤衰耗数据则出现较大范围的波动。进一步分析可以发现,这个现象是由于A端的主光通道发送光功率不稳定导致的,并不是线路光纤出现问题。因此通过对一段时间内的数据进行分析,为我们发现设备潜在故障提供准确线索。

        目前系统的感知范围还主要集中在光纤纤芯内部和设备内部,但是实际中我们遇到的光纤故障,往往是由外界影响导致的,比如挖掘机将光缆挖断。因此我们需要将感知能力扩展到光纤外部几米的范围,使系统能够感知光纤外部环境变化,这是系统能够防患于未然的关键。针对这个问题,一方面我们通过在光层设备中引入光纤传感技术,提升系统对光纤周围环境的探测能力,另一方面我们在深挖系统中沉睡的光学指标,通过合理计算,扩展系统的感知边界。从这两方面努力,使我们能够提前预警光纤中断风险。

/系统架构变革/

        数据驱动推动系统架构发生革命性变革。网络控制器与设备组成的管控系统,需重新按照以数据为中心进行设计。依照系统功能需求和实际资源分布,重新分配整个管控系统的计算能力。将系统主要计算能力上移到控制器,结合计算平台自由伸缩特性,为系统提供弹性计算能力。同时降低计算能力受限的设备的计算负荷,将广泛分布于网络中的设备,改造成网络运行数据采集单元,持续快速的向控制器推送网络的实时运行数据,由控制器完成基于全局视角的系统分析和控制。

        从光纤故障处理的具体场景,对比数据驱动型系统与传统管理系统的区别。当光纤发生故障后,传统系统中设备产生LOS(Loss of signal)告警,并将告警传递给网管,网管将设备告警传递给上层管理系统(OSS);上层管理系统接收到设备告警后,并无法直接判断故障,此时会下发查询指令,向厂商网管查询相关设备的性能数据;网管会根据请求,向设备下发查询指令,设备向厂商网管报告15min性能,然后厂商网管继续向OSS上报设备返回的15min性能。光网络设备的计算能力有限,在故障的时候要产生告警,同时又要应对集中的查询请求,这就是往往在发生故障的时候,操作人员体会到设备反应变慢的根本原因。而且越是反应慢,操作人员越会连续触发设备查询请求,导致情况变的更糟。传输设备作为整个系统中计算能力最弱的单元,却在最关键的时候承担了主要计算压力,这样的系统计算能力分配是不合理的。

        在腾讯开放光网络系统,我们按照系统各单元的客观计算能力条件,重新分布了整个系统的计算能力。将设备的计算需求减载,将主要计算能力上移到控制器。将设备改造成一个精细、稳定的采集装置,源源不断的采集系统运行数据,持续、快速向控制器上报。控制器承担主要计算能力。对于相同的光纤故障处理场景:设备采集性能数据持续上报,控制器根据所有设备上报的性能数据及网络逻辑结构数据,快速计算得到光缆故障的结论,并反馈给上层网管系统。如果上层网管系统需要查询故障当时的系统性能数据,则直接向控制器进行请求,此时所有的设备性能数据均保存在控制器,控制器并不会向设备发起查询命令,而是将该查询请求终结在控制器内部。即使上层管理系统,有突发的多个查询请求,控制器也能够合理应对。系统计算能力重新分配,让设备和控制器更加合理的承担系统功能,使系统更加高效运转。

        设备作为整个系统的运行数据采集终端,我们在想办法提升其采集数据的速率和精度,在我们的持续努力下,目前设备可以按照1s间隔向控制器推送性能数据,而且关键性能指标的时间分辨率可以达到20ms。控制器作为系统计算能力主要单元,则在持续提升其数据处理及时性和准确性。基于1s streaming telemetry构建的数字驱动系统,对比传统传输系统的15min性能数据,不仅仅是900倍的时间分辨率提升,更是对系统观测能力的革命。正是基于对系统的精细化观测,使我们能够精确感知、准确控制。

/挑战/

        数据驱动为系统带来革命性变化的同时,也带极大挑战。数据驱动的核心是:数据与算法。我们希望在这两个方面,与更多的合作伙伴一起合作。在数据为王的时代,数据源的质量直接影响到系统的正确表达,如何保证数据源的质量,如何监控数据源的质量,是一项关键任务。而找到数据背后的真相,发现问题的本质则会从根本上改变我们和供应商的协作方式,由原来只能在问题发生后被动接受故障分析报告,演进到可以根据数据发现真相,有效驱动供应商进行精准的问题修复,防患于未然。在算法方面,找到针对指标感知更加通用的算法,找到更加合理的带宽质量分析算法,找到更加通用的硬件和光纤分析算法,则是我们关注的重点。在有效解决光网络系统问题的同时,更通用的算法,也可以更加便捷的应用到其他网络领域中。

欢迎关注公众帐号“鹅厂网事”,我们给你提供最新的行业动态信息、腾讯网络最接地气的干货分享。

注1:凡注明来自“鹅厂网事”的文字和图片等作品,版权均属于“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用,如有违反,一经查实,将保留追究权利;

注2:本文图片部分来自互联网,如涉及相关版权问题,请联系v_meizhuang@tencent.com

鹅厂网事

分享鹅厂网络的那些事

扫码关注!解锁更多~

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-12-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 鹅厂网事 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档