揭秘腾讯云Supermind智能网络,百万级设备的网络高效运维

网络数据中心正在不断向人工智能(AI)时代演进,在Gartner发布的《2017数据中心网络魔力象限报告》中,将分析和基于意图的网络(Analytics and Intent-Based Networking)是八大市场趋势之一,腾讯云推出Suermind 智能网络,以大数据为基石,提供网络数据分布式采集、存储、分析中心,将网络拓扑管理、故障定位,故障自愈,网络安全等应用与深度学习、人工智能等前沿技术结合,轻松应对百万级设备的网络高效运维,释放AI强大原力。

超大规模网络运维的智能化

超大规模的网络数据采集、存储和实时计算已成为网络运维的极大挑战,腾讯云上网络线路几万条,拓扑复杂,但又需要满足多租户海量应用低时延、高吞吐的要求,使用人工评估加传统的路径规划算法的方式已无法根据链路负载的给出实时流量调度、链路扩容方案。如何实现超大规模网络运维的智能化?腾讯云利用基于Hadoop体系的MapReduce、HIVE、PIG、SPARK等大数据套件对海量链路的数据抽取、转换、加载、建模、分析、报表呈现,强大数据分析与探索挖掘能力,让腾讯云可快速对PB级规模下的网络数据进行可视化的数据分析探索,实时掌控链路负载。为了满足全网资源的充分利用,进行服务分级,利用人工智能算法进行链路调度,最近链路保证时延敏感业务,带宽充足链路保证大带宽应用,剩余带宽保证海量应用的传输。最终,腾讯云supermind智能网络在路径规划、容量规划、流量调度的攻坚和创新,均反馈到了卓越的网络服务质量上。

全维立体监控,秒级定位故障

在监控和故障定位方面,腾讯云提供全时全流的网络监控及告警收敛能力,可构建全维立体监控,秒级定位故障等难题,这是一项基础能力,却极具挑战。

  • 网络拓扑层次多,差异大。不同于传统数据中心,云厂商内部在物理网络上还存在一层虚拟化网络,在虚拟化网络中每个租户又存在多个私有网络,网络层级多。云厂商外部各路运营商的公网接入和不同客户多地域差异化的链路接入,使得网络结构差异极大。
  • 网络架构频繁动态变更。云上的虚拟化,热迁移,弹性伸缩,SDN给租户带来了便利同时给网络运维带来了巨大的挑战,如租户云上资源的热迁移和弹性伸缩时,其网络也需随之动态变化,网络运维系统需监控。
  • 规模和复杂程度呈指数级增长。多租户的环境让网络拓扑的复杂性随着租户及其规模呈爆炸性增长。

网络质量的生命线,虽然面对网络拓扑层次多,差异大,架构频繁动态变更,规模和复杂性成指数级增长的挑战,腾讯云必须保证监控数据是全覆盖、多维、实时的。监控的全覆盖体现在:Underlay数据采集包括多厂商不同型号的物理机、专线、交换机等设备的监控,Overlay的数据包括客户在云上的云主机、数据库、网关、负载均衡等全线产品的监控。外网监控包含运营商网络监控和混合云链路接入等。监控的多维体现在:各项关键指标、事件、网络流日志、海量用户操作日志等的采集。监控的实时性表现在:90%以上的指标是1min展示时延,部分指标呈现时延是秒级甚至毫秒级。

全覆盖、多维、实时采集必然会造成数据大爆炸,大数据处理对腾讯云网络运维来说仅是基本功,腾讯云这身基本功,是依托15年的网络运营经验精打细磨出来的。但多层,大差异,超大规模的网络数据监控产生了大量告警,运维难以判断事件影响范围及其关联性,就无法决策下一步的操作。为了解决该问题,腾讯云将人工智能和网络运维结合,通过聚类算法、关联挖掘算法,多层异常告警收敛算法对监控数据多维度对比分析,实现了告警分级,聚类,影响范围预判,将告警收敛,在降低误报率的同时,提高了精准性,有效地提升了运维效率。

一般问题自动处理,重大故障专业建议

随着用云量和计算量成指数级增长,腾讯云面临的是海量的运维数据和极其复杂的云上网络运维场景,机器学习算法与云端网络运维业务整合是必然趋势。腾讯云的数据接入层通过开放的接口,可平滑接入指标、事件、流日志、流量镜像、操作日志等多维数据。利用大数据套件的强大数据分析与探索挖掘能力,让腾讯云可快速对租户PB级规模下的大数据进行可视化的数据分析探索,在纷繁复杂的运维数据中快速获取洞察力,通过人工智能对异常捕捉、故障判断、修复操作等依靠人力决策的环节进行持续学习和自动化响应,如:内网故障时,可自动化执行弹性伸缩,带宽 保障,路由切换等自愈操作,外网异常故障时,可执行流量清洗,服务降级,DNS流量调动等自愈操作。故障自愈可以辅助运维快速决策,如自动降级策略,比起通过拍脑袋设定,到不如通过实际的故障数据来进行微调。但复杂的业务场景,有些策略是机器无法决策的,人工智能模型可在图像识别中存在一定误差,但这在网络中是不允许的,决策失误,可能导致链路瘫痪,影响多家客户。因此,腾讯云将人工智能与故障自愈结合,主要是自主解决简单的问题,辅助人类专家分析解决复杂网络问题。

以AI和大数据为驱动,保障用户网络安全

安全对抗是一场技术赛跑,利用AI的不法分子可以使用智能系统扫描,大数据信息拉取、人物画像描绘、基于画像的诈骗对话、智能密码破解、系统性DDOS攻击、模拟人脸、指纹、声纹获取利益,应对如此严峻的安全形势,腾讯云推出AI和大数据为驱动力,以云为平台和管道构建新一代智能安全防御体系,包括利用大规模图挖掘与机器学习追踪恶意团伙;通过人群画像与DNA建模,应对羊毛党与欺诈;整合多维度数据和威胁情报信息,通过机器学习,建立更加积极主动的态势感知系统。腾讯云AI安全能力矩阵图,以大数据、机器学习、图计算、知识库等当前热门AI技术为核心,驱动社交图谱分析、图像自动识别、知识表达推理、自然语言处理 4 大能力组合,形成智能身份鉴定、威胁情报分析、异常流量检测、网络攻击溯源、人机行为识别、恶意图片识别、垃圾文本检测等 7 项技术应用。

“网络大脑”的智力高低正成为制约网络规模和复杂度可持续发展的关键因素,腾讯云网络团队也将始终保持着对人工智能新能力新技术的敏锐探索,将网络系统的设计、管理、运营、优化、安全进行智能升级,让人工智能来帮助网络工程师,更好地管理日益复杂和庞大的云计算网络。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SDNLAB

解惑边缘计算

云计算是计算服务的集中化,以最简单的形式利用共享数据中心基础设施和规模经济来降低成本。然而由于路由器跳数,虚拟化技术的引入带来的数据包延迟或数据中心内的服务器延...

37913
来自专栏全栈数据化营销

数据分析:精准提高商品购买数量和单价

忙于项目和公司的事情,好久没有写关于数据分析的文章,很多关注我的朋友都在催促我更新。其实,一直都有在想写也在纠结写什么内容的文章,刚好最近做了一个关联销售的项目...

761
来自专栏PPV课数据科学社区

【技术】图示大数据基本架构

大数据数量庞大,格式多样化。大量数据由家庭、制造工厂和办公场所的各种设备、互联网事务交易、社交网络的活动、自动化传感器、移动设备以及科研仪器等生成。它...

2723
来自专栏腾讯大讲堂的专栏

如何快速有效的发散思维

想方案想的头大,一直在原地打转跳不出来?想了半天提出的方案,被老板说怎么没想到别的某某方案?有时虽然想出不少方案,但是实质在渐行渐远?

3666
来自专栏互联网数据官iCDO

19个令人大开眼界的可靠消费者研究数据源

译者:董梁 本文长度为3058字,预估阅读时间5分钟。 我们今天要向大家分享19个令人大开眼界的可靠消费者研究数据源。 Kyle的注释: 数据是分享洞察、支持...

2766
来自专栏phodal

我的技术投资策略:如何决定学习哪一个新技术的?

软件开发不是一份稳定的工作:每年都会涌现一个又一个新的技术,每隔几年都会出现一些革命性的技术。尽管从代码、表现及差异上来看,新技术和旧的技术有一些概念上的相似,...

1769
来自专栏C语言及其他语言

程序员的困境及如何摆脱这种困境?

近日笔者采访了几十位求职内核程序员这个岗位的候选人。这些候选人均来自大的优秀公司——公司多以芯片或嵌入式OS /系统而闻名。他们中的许多人都声称自己拥有至少10...

3068
来自专栏CSDN技术头条

金融数据中心环境下的SDN技术评测标准化思考与实践

一、背景 近年来,金融和互联网不断跨行业深化融合,各种创新业务层出不穷。在业务不断创新发展的背后,承载业务的金融数据中心的规模也在不断扩张,数据中心内部的网络流...

2317
来自专栏云计算D1net

边缘计算将取代云计算?别开玩笑了

任何人都知道,物联网并不是一个玩笑,而且它确实是云的一个组成部分。对于物联网来说有一个关键的问题,就是如何从大量的设备中获取数据。思科系统预测,到2020年,云...

3215
来自专栏腾讯社交用户体验设计

如何快速有效的发散思维

1033

扫码关注云+社区