腾讯赵建春:AI浪潮下的高效运维思考及实践

GOPS 全球运维大会暨首届金牌运维峰会于11月17日-18日在上海圆满举行。腾讯 SNG 助理总经理、GOPS 金牌讲师赵建春老师受邀出席大会,并带来精彩演讲《AI 浪潮下的高效运维思考与实践》。本文根据此演讲实录整理而成。

AI 是如何工作的?

抽丝剥茧,找出规律

运维工作中存在大量有规律的数据,要能准确预测数据的走势,我们要找到运维数据的规律,并建立模型。

AI和机器学习的分类

传统的异常指标分析方法有阀值、同比环比等,这些方法依靠大量的人力配置,随着数据量和指标量的增加,根本无法满足我们对数据精细化分析的要求。在智能运维时代,更多分析策略和手段被引入。

监督学习和样本标注

运维常常需要与很多业务KPI数据打交道,结合样本标注的有监督学习分析法对此类数据的异常识别效果显著。

损失函数及常见损失函数

损失函数是度量算法准确率的重要指标,损失函数越小,代表机器学习算法的精准度越高。

常见算法的工作机制

目前行业内流行的机器学习算法,绝大部分是源自于十大经典机器学习算法,而运用在智能运维领域,以分类算法居多。

NLP简介

在运维场景中,还有些需要与自然语言处理打交道的场景,下文介绍织云舆情监控实践中,会有NLP的案例。

AI 和运维工作结合的思考

对运维和AI技术结合点的思考

自动化运维是当下热门的话题,但是要真正意义上实现无人运维,与无人驾驶技术类似,还需要更多积累。但是基于有监督学习的数据分析和基于规则的运维自动化,则有很多可以突破的场景。

寻找与AI结合的运维场景

与腾讯的AI in All战略类似,智能运维的落地要找准场景,这样更能事半功倍的达到我们想要的效果。

分类算法应用

专业的人做专业的事,运维人员是运维领域的专家,可以利用自身丰富的运维工作经验,找到最合适的场景,并协同AI专家找到最恰当的算法,来解决该运维场景的分析难题。

运维和AI可能的结合点

通过腾讯SNG多年的运维经验,得出以下多个机器学习与运维结合的场景点,下面将以几个案例简述下我们已经取得的一些技术突破。

腾讯织云的一些实践案例

Monitor智能监控

织云Monitor监控平台,是基于时序数据的智能监控平台。从125w个监控点数据中抽取大量的数据正负样本数据建模。面对的挑战是数据量级大、监控曲线各异、数据正负样本不平衡。

去除干扰,找到准确的异常数据点,对问题或故障进行告警,是运维团队迫切要解决的难题。

多维智能监控

应用运行的日志数据通常包含多个维度的信息,倘若运维能高效的分析这些多维度的数据,对快速识别服务异常和提升排障效率的帮助极大。

关联告警智能分析

随着分布式和微服务技术的普及,架构的复杂度决定了关联监控告警分析的复杂度,在腾讯SNG海量的运维挑战下,关联告警智能分析的实践经验如下。

智能运维客服

智能匹配FAQ库,机器人客服对常见问题给出最准确的答案,或给出相关度Top5的问题链接。在腾讯SNG的运维实践中,我们整理出常见的FAQ知识库,并结合NLP技术实现智能客服的功能。让运维人员可以免受小白问题的打扰,极大的提升了运维团队的工作效率。

基于文本投诉的舆情监控系统

织云舆情监控系统——天王星,是运维团队与开发、产品团队合作的产品,通过对用户反馈的自然语言的智能分析,对文本问题进行自动归类,准确率接近95%。并且,按问题类别实现分钟级告警的能力。

分享中大量腾讯SNG的运维实践经验与技术,即将在由赵建春老师带领的织云产品对外输出,敬请关注!

最后,借用腾讯SNG助理总经理赵建春老师的演讲结语:

理想的AI运维就像无人驾驶一样 似乎离我们还很远 但通过不断的进步 我们坚信 它, 一定会到来

PPT中干货满满,文中只截取了部分

欢迎大家扫码下载

《AI浪潮下的高效运维思考及实践》

更多大会PPT下载地址:

链接: https://pan.baidu.com/s/1jIDwZTO

密码: egeq

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

如何成为一名卓越的数据科学家——开篇七剑

关于作者: 杨滔,桃树科技(TaoData)创始人,专注于下一代人工智能产品的研发、应用与商业化。拥有超过十年机器学习研究与应用经验。奥克兰大学机器学习博士,悉...

40710
来自专栏PHP在线

人工智能和工作的未来

原文出处: Lukas Biewald 译文出处:腊八粥 技 术淘汰了某些种类的工作,并创造了其它种类的工作——从石器时代就是如此。在过去,机器取代了需要...

37312
来自专栏IT派

喜大普奔!TensorFlow中文社区论坛 (测试版) 发布上线!

昨天,TensorFlow与 Caicloud (才云) 联合发起和创建的 TensorFlow 中文社区论坛测试版(https://www.tensorflo...

650
来自专栏机器之心

专访 | 京东集团副总裁裴健:将学界最优的方法应用在业界最真实的场景中

对于裴健教授来说,过去的一年是极为充实的一年。他在去年 7 月成为新一届 ACM SIGKDD 主席,任期两年,在今年 1 月,他又出任了京东集团副总裁,负责大...

522
来自专栏腾讯高校合作

CCF-腾讯犀牛鸟基金项目课题介绍(二)——语音技术&自然语言处理技术

20712
来自专栏人工智能快报

科学家探索利用深度学习解决科学大数据问题

据外媒报道,来自美国橡树岭国家实验室(Oak Ridge National Lab oratory)的研究团队在3年内从美国能源部(Department of ...

3418
来自专栏AI科技评论

业界 | 想要快速的搭建高性能机器学习系统,企业应该怎么干?

AI科技评论按:本文为「范式大学系列课程」。Web服务器部署在云上已经算是常见的事情了,那么机器学习系统如何呢? ? 亚马逊AWS目前的运维水平成为行业标准,但...

2794
来自专栏程序员互动联盟

多年Java开发研究机器学习技术需要哪些基础?

多年的java开发经验切入到新的领域,需要熟悉的新规则和技巧。 但对于人工智能来说,不是简单的熟悉一下新的规则那么简单的事情了,主要人工智能是一个综合性极强,...

36012
来自专栏CDA数据分析师

数据科学家:在实际工作后,我深刻认识到的五点

我从事数据科学工作了已经将近半年了,我一路上成长了很多,也犯了很多错误,并在这一过程中从学习了很多。

821
来自专栏机器之心

业界 | 谷歌推出72-qubit量子处理器Bristlecone,意图实现「量子霸权」

3907

扫码关注云+社区