前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >开放共建,智能监控——itango网络质量监控系统

开放共建,智能监控——itango网络质量监控系统

作者头像
鹅厂网事
发布2023-09-28 10:04:44
1.2K0
发布2023-09-28 10:04:44
举报
文章被收录于专栏:鹅厂网事鹅厂网事

前言

随着云业务发展,作为iaas层的网络变得越来越重要并且业务依赖性强,网络工程师将面临更多问题和困难,尤其是全链路网络问题排查(4G、固网、骨干网、IDC或是TCP/IP协议各层问题)。近年来国家提出“一带一路”倡议,鼓励企业出海,但由于海外运营商情况复杂,网络工程师与用户交互的效率成为亟待解决的问题。腾讯网络运营团队经过大量的实践和探索,建设并推出了itango轻量级网络质量监控平台,希望通过开放共建的方式,与业界同仁一起努力提升网络故障处理效率,让网络畅通无阻,为业务保驾护航。

图1 痛点问题

一、itango平台介绍

itango的第一理念是开放共建,开放探针是其中最为关键的组成部分。我们在itango中构建了一个充满活力和创新的生态系统,支持多方参与共建,进而能够推动网络性能监控(NPM)技术的高效实现。为了能够帮助全球网络工程师提供更优质的解决方案,更好地解决日常工作中的问题和服务支持业务团队,我们在itango平台中实现了轻量、易用的网络质量探测能力,能够支持网络质量监控和异常快速定位等多种功能场景。

1.产品特点:

1.“多”:多平台发布、多探针类型、超多探点,Linux、Mac、Windows、iOS和Android平台;PC/移动端/网络设备探针;支持百万级探针接入;

图2 多端发布

2.“快”:快速上手,轻量易用,提供saas化服务,省去平台建设投入,它的界面简洁明了,操作简单方便,即使是没有网络监控经验的用户也可以轻松上手,具备扩展性强,支持私有化部署,执行性能强,维护成本低;

3.“好”:网络全路径覆盖,支持网络故障信息收集、复现和定位,覆盖网络全路径。支持ICMP、UDP、TCP、HTTP协议。支持下发即时和周期性的探测任务;

4.“省”:安全省心,agent使用go语言,支持AES-256加密模式,支持防窃听、防窜改。

2.应用场景

从日常监控到自愈网络,itango平台支持网络变更快速回退和网络调优,为网络运营提供有效的监控和管理工具,让网络运营具备一双有效的“眼睛”。itango平台支持四大网络运营场景,包括日常监控、自愈网络、网络变更快速回退和网络调优,可以帮助用户全面了解网络状况,及时发现和解决网络问题,提高网络的可靠性和稳定性。

图3 应用场景

2.1日常监控场景

传统的运维方式通常在网络设备发出警报或用户投诉后才开始定位故障,这种方式效率低下,耗时长,且容易出错。为了提高故障处理的效率和准确性,我们的itango平台采用了即插即用的设计,可以快速构建网络性能监控体系。这不仅节省了系统构建和优化的时间,也大大降低了人力成本。同时,我们的平台集成了多套经过实践验证的探测模板,旨在在控制成本的同时,确保监控的全面性和准确性。

2.2自愈网络演进场景

随着网络自愈理念的提出,网络运营正在向智能化的方向发展。通过网络性能监控,我们可以像使用“天眼”一样,及时发现并定位网络问题。然后,通过多维事件关联检测与分析,我们可以根据时间和空间的相关性,快速定位故障源头。结合快速隔离相关网元的策略,我们可以实现网络的自我修复。

在这个过程中,网络性能监控就像我们的“天眼”,它可以帮助我们实时监控网络的运行状态,及时发现网络的异常情况。通过多维事件关联检测与分析,我们可以从时间和空间两个维度,快速找到故障的源头。而通过快速隔离相关网元,我们可以防止故障的进一步扩散,保证网络的稳定运行。

总的来说,网络自愈理念的提出,推动了网络运营向智能化的方向发展。通过网络性能监控、多维事件关联检测与分析,以及快速隔离相关网元,我们可以实现网络的自我修复,提高网络的稳定性和可靠性。

2.3网络变更场景

网络变更是网络运营中不可避免的一部分,一旦变更过程中出现问题,根据过去业界出现各类案例情况,对业务的影响通常会非常大。然而,通过使用itango平台构建的网络监控,我们可以将其比喻为交通的“红绿灯”。在网络变更过程中出现异常时,监控系统就像是亮起的红灯,提醒变更人员在第一时间进行回退操作。这样,我们可以将业务受到的影响降到最低,甚至让业务完全感知不到这种影响。

2.4自愈调优场景

网络调优是一个复杂而关键的任务,它需要对网络性能进行持续的监控和改进。在多云环境的质量对比、新项目交付的质量测试,以及网络亚健康的优化等场景中,网络工程师都需要根据网络监控指标进行相应的网络调优;

在多云环境中,网络工程师可以通过对比不同云服务提供商的网络性能,找出最优的网络配置方案。这可能涉及到数据传输速度、延迟、丢包率等多个方面;

对于新交付的项目,网络工程师需要对项目的网络性能进行测试和优化,以确保项目的顺利运行。这可能包括对网络设备的配置、网络架构的设计、网络协议的选择等多个方面进行优化;

在网络亚健康的优化方面,网络工程师需要通过监控网络的运行状态,发现并解决网络的潜在问题。这可能包括网络设备的故障、网络拥塞、网络安全问题等;

总的来说,无论是在多云环境的质量对比,新项目交付的质量测试,还是网络亚健康的优化,网络工程师都需要根据网络监控指标进行精细的网络调优,以确保网络的稳定运行和优良性能。

3.核心功能

itango不仅仅是网络质量监控的利器,包含了功能和模式上的创新,更是联动多方快速处理故障的信息枢纽。

1.创新开放共建会员积分模式,实现多渠道探测资源;

2.探测领域细分,分为即时探测、周期性探测。即时监控侧重一次性拔测,周期性则定义灵活多变测试模式;

3.客户自定义大盘监控,实现成本&准确率兼顾,从体验上可以高速形成客户自定义大盘监控,通过自研算法实现”极少IDC探测机+海量探测目的“达到探测流Hash均匀,准确率99+%;

4.用户界面极简化设计,减少用户任何不必要的点击与输入,预置探测参数并可自定义修改,单测试任务最少仅需一次输入;

5.工具平台组件化,将用户、客户、技术,运营商紧密结合在一起,多方联动并行处理问题,打通上下游接口,实现流程闭环。

图4 工具平台组件化

二、itango平台公测情况

● 公测数据

2022年8月份我们发布公测版本,邀请业界同仁参与测试,目前累计15亿+的探测量,基于开放共享思路,业界共享了1000+的探针覆盖全国各地多家运营商,以及部分海外30+区域。

图5 公测数据

● 日常监控案例:

在与某地运营商的日常交流中,发现itango平台的解决方案非常适合的运营商IDC运维工作。在2023年上半年进行联合试点,在包括腾讯业务所在数据中心在内的多个IDC均部署常态化的质量监控。随着长周期性探测,已监控多起网络质量问题,同时通过告警消息在移动终端侧的实时推送,能第一时间通知到相关IDC责任人,及时作出应急响应,缩短问题反应时间。另外IDC运维过程中,利用itango平台的全国范围内的共享探针资源,探测IDC所运维客户所反馈的业务问题地址,快速定位存在的问题点,解决了运维中第三方探测样本不足的问题。通过腾讯&运营商同学联动,该地运营商在IDC故障处理方面效率较之前有明显提升,随着部署范围的扩大,将进一步提升效率。

图6 实际监控到质量情况

● 网络变更案例:

2022年9月与另一地运营商同学进行试点,使用itango平台对该省骨干设备的替换割接进行监控。骨干C设备的替换割接在网络运营上属于是“大动作”变更,为保障业务质量,割接前要进行周密的方案审核,割接中、割接后要通过多种方式进行监控和业务验证,除常规的网管监控手段外,往往还会与一些头部客户拉群沟通,及时获悉异常反馈。这次运营商同事在进行骨干C设备的替换前,通过itango平台部署了周期性监控,可以模拟出大客户业务使用的实时质量变化情况,在到当晚变更时执行上百条线路迁移以及流量加载时,可以通过监控看到只有正常的路由收敛的过程中有轻微的丢包,为运营商同学稳稳的操作点赞,同时再次验证监控是给变更同学加了一个大大的“护身符”。

图7 实际割接监控视图

● 局部故障案例:

实际网络运营中除了大面积的故障,更多是局部问题需要解决,比如局部区域 ,单IP、域名等问题,这个时候就需要通过大量全世界的探测点去模拟复现问题,进行分析和处理,平台目前通过开放共享积累到1000+探测点用于复现。

比如2023年上半年发现某省大量域名解析出现异常,运营商保障中心同学通过itango复现明确问题,快速与相关省份同事进行确认,处理完成后再次通过工具验证恢复情况,减少多环节的沟通,让多方协同变得更加简单。

图8 域名故障处理

开放共建,智能监控

随着AI、互联网、云计算等领域的快速发展,新型数据中心作为关键的信息基础设施,已经成为网络强国、数字中国、智慧社会建设的重要支柱,同时也是推动我国数字经济发展的基础设施。itango以数据中心行业发展政策为指导,关注当前新型数据中心在面临网络智能化运营的挑战时,如何向自动驾驶和自愈网络方向发展。

我们强调以网络性能监控为基础,借助开源共建的理念,通过开放的架构,推动数据中心网络性能监控(NPM)的进步。我们认为,数据中心网络的未来发展方向应该是自动化和自我修复,这需要我们构建一个智能化、自动化的网络运营环境。

通过开源共建的方式,我们可以集合更多的智慧和力量,共同推动数据中心网络性能监控(NPM)的发展。同时,开放的架构可以让我们更灵活地适应网络运营的需求,更好地满足数据中心的业务需求。

►►►

总结

总的来说,我们希望通过itango,引导数据中心网络向自动驾驶和自愈网络的方向发展,推动数据中心网络性能监控(NPM)的进步,为我国的数字经济发展提供更强大的支撑。

我们非常感谢业界同仁在公测期间对我们的大力支持,itango平台将继续专注于网络监控技术的研究和发展,如果您想了解更多关于itango平台的信息,欢迎随时联系我们。

欢迎关注公众账号“鹅厂网事”,我们给你提供最新的行业动态信息、腾讯网络最接地气的干货分享。

注1:凡注明来自“鹅厂网事”的文字和图片等作品,版权均属于“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用,如有违反,一经查实,将保留追究权利;

注2:本文图片部分来自互联网,如涉及相关版权问题,请联系:sandyshuang@tencent.com或 mianyang@tencent.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-27 15:57,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 鹅厂网事 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
应用性能监控
应用性能监控(Application Performance Management,APM)是一款应用性能管理平台,基于实时多语言应用探针全量采集技术,为您提供分布式性能分析和故障自检能力。APM 协助您在复杂的业务系统里快速定位性能问题,降低 MTTR(平均故障恢复时间),实时了解并追踪应用性能,提升用户体验。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档