前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >揭秘腾讯云Supermind智能网络,百万级设备的网络高效运维

揭秘腾讯云Supermind智能网络,百万级设备的网络高效运维

原创
作者头像
腾讯云开发者社区
发布2017-12-05 15:51:12
3.7K0
发布2017-12-05 15:51:12
举报

网络数据中心正在不断向人工智能(AI)时代演进,在Gartner发布的《2017数据中心网络魔力象限报告》中,将分析和基于意图的网络(Analytics and Intent-Based Networking)是八大市场趋势之一,腾讯云推出Suermind 智能网络,以大数据为基石,提供网络数据分布式采集、存储、分析中心,将网络拓扑管理、故障定位,故障自愈,网络安全等应用与深度学习、人工智能等前沿技术结合,轻松应对百万级设备的网络高效运维,释放AI强大原力。

超大规模网络运维的智能化

超大规模的网络数据采集、存储和实时计算已成为网络运维的极大挑战,腾讯云上网络线路几万条,拓扑复杂,但又需要满足多租户海量应用低时延、高吞吐的要求,使用人工评估加传统的路径规划算法的方式已无法根据链路负载的给出实时流量调度、链路扩容方案。如何实现超大规模网络运维的智能化?腾讯云利用基于Hadoop体系的MapReduce、HIVE、PIG、SPARK等大数据套件对海量链路的数据抽取、转换、加载、建模、分析、报表呈现,强大数据分析与探索挖掘能力,让腾讯云可快速对PB级规模下的网络数据进行可视化的数据分析探索,实时掌控链路负载。为了满足全网资源的充分利用,进行服务分级,利用人工智能算法进行链路调度,最近链路保证时延敏感业务,带宽充足链路保证大带宽应用,剩余带宽保证海量应用的传输。最终,腾讯云supermind智能网络在路径规划、容量规划、流量调度的攻坚和创新,均反馈到了卓越的网络服务质量上。

全维立体监控,秒级定位故障

在监控和故障定位方面,腾讯云提供全时全流的网络监控及告警收敛能力,可构建全维立体监控,秒级定位故障等难题,这是一项基础能力,却极具挑战。

  • 网络拓扑层次多,差异大。不同于传统数据中心,云厂商内部在物理网络上还存在一层虚拟化网络,在虚拟化网络中每个租户又存在多个私有网络,网络层级多。云厂商外部各路运营商的公网接入和不同客户多地域差异化的链路接入,使得网络结构差异极大。
  • 网络架构频繁动态变更。云上的虚拟化,热迁移,弹性伸缩,SDN给租户带来了便利同时给网络运维带来了巨大的挑战,如租户云上资源的热迁移和弹性伸缩时,其网络也需随之动态变化,网络运维系统需监控。
  • 规模和复杂程度呈指数级增长。多租户的环境让网络拓扑的复杂性随着租户及其规模呈爆炸性增长。

网络质量的生命线,虽然面对网络拓扑层次多,差异大,架构频繁动态变更,规模和复杂性成指数级增长的挑战,腾讯云必须保证监控数据是全覆盖、多维、实时的。监控的全覆盖体现在:Underlay数据采集包括多厂商不同型号的物理机、专线、交换机等设备的监控,Overlay的数据包括客户在云上的云主机、数据库、网关、负载均衡等全线产品的监控。外网监控包含运营商网络监控和混合云链路接入等。监控的多维体现在:各项关键指标、事件、网络流日志、海量用户操作日志等的采集。监控的实时性表现在:90%以上的指标是1min展示时延,部分指标呈现时延是秒级甚至毫秒级。

全覆盖、多维、实时采集必然会造成数据大爆炸,大数据处理对腾讯云网络运维来说仅是基本功,腾讯云这身基本功,是依托15年的网络运营经验精打细磨出来的。但多层,大差异,超大规模的网络数据监控产生了大量告警,运维难以判断事件影响范围及其关联性,就无法决策下一步的操作。为了解决该问题,腾讯云将人工智能和网络运维结合,通过聚类算法、关联挖掘算法,多层异常告警收敛算法对监控数据多维度对比分析,实现了告警分级,聚类,影响范围预判,将告警收敛,在降低误报率的同时,提高了精准性,有效地提升了运维效率。

一般问题自动处理,重大故障专业建议

随着用云量和计算量成指数级增长,腾讯云面临的是海量的运维数据和极其复杂的云上网络运维场景,机器学习算法与云端网络运维业务整合是必然趋势。腾讯云的数据接入层通过开放的接口,可平滑接入指标、事件、流日志、流量镜像、操作日志等多维数据。利用大数据套件的强大数据分析与探索挖掘能力,让腾讯云可快速对租户PB级规模下的大数据进行可视化的数据分析探索,在纷繁复杂的运维数据中快速获取洞察力,通过人工智能对异常捕捉、故障判断、修复操作等依靠人力决策的环节进行持续学习和自动化响应,如:内网故障时,可自动化执行弹性伸缩,带宽 保障,路由切换等自愈操作,外网异常故障时,可执行流量清洗,服务降级,DNS流量调动等自愈操作。故障自愈可以辅助运维快速决策,如自动降级策略,比起通过拍脑袋设定,到不如通过实际的故障数据来进行微调。但复杂的业务场景,有些策略是机器无法决策的,人工智能模型可在图像识别中存在一定误差,但这在网络中是不允许的,决策失误,可能导致链路瘫痪,影响多家客户。因此,腾讯云将人工智能与故障自愈结合,主要是自主解决简单的问题,辅助人类专家分析解决复杂网络问题。

以AI和大数据为驱动,保障用户网络安全

安全对抗是一场技术赛跑,利用AI的不法分子可以使用智能系统扫描,大数据信息拉取、人物画像描绘、基于画像的诈骗对话、智能密码破解、系统性DDOS攻击、模拟人脸、指纹、声纹获取利益,应对如此严峻的安全形势,腾讯云推出AI和大数据为驱动力,以云为平台和管道构建新一代智能安全防御体系,包括利用大规模图挖掘与机器学习追踪恶意团伙;通过人群画像与DNA建模,应对羊毛党与欺诈;整合多维度数据和威胁情报信息,通过机器学习,建立更加积极主动的态势感知系统。腾讯云AI安全能力矩阵图,以大数据、机器学习、图计算、知识库等当前热门AI技术为核心,驱动社交图谱分析、图像自动识别、知识表达推理、自然语言处理 4 大能力组合,形成智能身份鉴定、威胁情报分析、异常流量检测、网络攻击溯源、人机行为识别、恶意图片识别、垃圾文本检测等 7 项技术应用。

“网络大脑”的智力高低正成为制约网络规模和复杂度可持续发展的关键因素,腾讯云网络团队也将始终保持着对人工智能新能力新技术的敏锐探索,将网络系统的设计、管理、运营、优化、安全进行智能升级,让人工智能来帮助网络工程师,更好地管理日益复杂和庞大的云计算网络。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 超大规模网络运维的智能化
  • 全维立体监控,秒级定位故障
  • 一般问题自动处理,重大故障专业建议
  • 以AI和大数据为驱动,保障用户网络安全
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档