前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >腾讯赵建春:AI浪潮下的高效运维思考及实践

腾讯赵建春:AI浪潮下的高效运维思考及实践

原创
作者头像
织云平台团队
修改2017-11-22 18:27:14
2.2K1
修改2017-11-22 18:27:14
举报

GOPS 全球运维大会暨首届金牌运维峰会于11月17日-18日在上海圆满举行。腾讯 SNG 助理总经理、GOPS 金牌讲师赵建春老师受邀出席大会,并带来精彩演讲《AI 浪潮下的高效运维思考与实践》。本文根据此演讲实录整理而成。

[1511319843522_711_1511319843977.jpg]
[1511319843522_711_1511319843977.jpg]

AI 是如何工作的?

抽丝剥茧,找出规律

运维工作中存在大量有规律的数据,要能准确预测数据的走势,我们要找到运维数据的规律,并建立模型。

[1511320089909_7301_1511320090295.jpg]
[1511320089909_7301_1511320090295.jpg]

AI和机器学习的分类

传统的异常指标分析方法有阀值、同比环比等,这些方法依靠大量的人力配置,随着数据量和指标量的增加,根本无法满足我们对数据精细化分析的要求。在智能运维时代,更多分析策略和手段被引入。

[1511320121177_103_1511320121462.jpg]
[1511320121177_103_1511320121462.jpg]

监督学习和样本标注

运维常常需要与很多业务KPI数据打交道,结合样本标注的有监督学习分析法对此类数据的异常识别效果显著。

[1511320131518_6986_1511320131788.jpg]
[1511320131518_6986_1511320131788.jpg]

损失函数及常见损失函数

损失函数是度量算法准确率的重要指标,损失函数越小,代表机器学习算法的精准度越高。

[1511320148533_8966_1511320148866.jpg]
[1511320148533_8966_1511320148866.jpg]

常见算法的工作机制

目前行业内流行的机器学习算法,绝大部分是源自于十大经典机器学习算法,而运用在智能运维领域,以分类算法居多。

[1511320162492_4845_1511320162755.jpg]
[1511320162492_4845_1511320162755.jpg]

NLP简介

在运维场景中,还有些需要与自然语言处理打交道的场景,下文介绍织云舆情监控实践中,会有NLP的案例。

[1511320171053_3676_1511320171391.jpg]
[1511320171053_3676_1511320171391.jpg]

AI 和运维工作结合的思考

对运维和AI技术结合点的思考

自动化运维是当下热门的话题,但是要真正意义上实现无人运维,与无人驾驶技术类似,还需要更多积累。但是基于有监督学习的数据分析和基于规则的运维自动化,则有很多可以突破的场景。

[1511320192204_4628_1511320192427.jpg]
[1511320192204_4628_1511320192427.jpg]

寻找与AI结合的运维场景

与腾讯的AI in All战略类似,智能运维的落地要找准场景,这样更能事半功倍的达到我们想要的效果。

[1511320206355_7488_1511320206602.jpg]
[1511320206355_7488_1511320206602.jpg]

分类算法应用

专业的人做专业的事,运维人员是运维领域的专家,可以利用自身丰富的运维工作经验,找到最合适的场景,并协同AI专家找到最恰当的算法,来解决该运维场景的分析难题。

[1511320228356_9035_1511320228620.jpg]
[1511320228356_9035_1511320228620.jpg]

运维和AI可能的结合点

通过腾讯SNG多年的运维经验,得出以下多个机器学习与运维结合的场景点,下面将以几个案例简述下我们已经取得的一些技术突破。

[1511320241550_8913_1511320241855.jpg]
[1511320241550_8913_1511320241855.jpg]

腾讯织云的一些实践案例

Monitor智能监控

织云Monitor监控平台,是基于时序数据的智能监控平台。从125w个监控点数据中抽取大量的数据正负样本数据建模。面对的挑战是数据量级大、监控曲线各异、数据正负样本不平衡。

去除干扰,找到准确的异常数据点,对问题或故障进行告警,是运维团队迫切要解决的难题。

[1511320255621_3464_1511320255842.jpg]
[1511320255621_3464_1511320255842.jpg]
[1511320283048_4136_1511320283400.jpg]
[1511320283048_4136_1511320283400.jpg]
[1511320895109_249_1511320895623.PNG]
[1511320895109_249_1511320895623.PNG]
[1511320940360_8532_1511320940808.PNG]
[1511320940360_8532_1511320940808.PNG]
[1511320955798_7913_1511320956221.PNG]
[1511320955798_7913_1511320956221.PNG]

多维智能监控

应用运行的日志数据通常包含多个维度的信息,倘若运维能高效的分析这些多维度的数据,对快速识别服务异常和提升排障效率的帮助极大。

[1511321010721_929_1511321011226.PNG]
[1511321010721_929_1511321011226.PNG]
[1511321019347_6774_1511321019667.PNG]
[1511321019347_6774_1511321019667.PNG]
[1511321026651_1382_1511321026993.PNG]
[1511321026651_1382_1511321026993.PNG]
[1511321034344_4359_1511321034650.PNG]
[1511321034344_4359_1511321034650.PNG]
[1511321041327_9708_1511321041676.PNG]
[1511321041327_9708_1511321041676.PNG]

关联告警智能分析

随着分布式和微服务技术的普及,架构的复杂度决定了关联监控告警分析的复杂度,在腾讯SNG海量的运维挑战下,关联告警智能分析的实践经验如下。

[1511321066326_6830_1511321066874.PNG]
[1511321066326_6830_1511321066874.PNG]
[1511321075439_6133_1511321075956.PNG]
[1511321075439_6133_1511321075956.PNG]

智能运维客服

智能匹配FAQ库,机器人客服对常见问题给出最准确的答案,或给出相关度Top5的问题链接。在腾讯SNG的运维实践中,我们整理出常见的FAQ知识库,并结合NLP技术实现智能客服的功能。让运维人员可以免受小白问题的打扰,极大的提升了运维团队的工作效率。

[1511321085138_6143_1511321085718.PNG]
[1511321085138_6143_1511321085718.PNG]

基于文本投诉的舆情监控系统

织云舆情监控系统——天王星,是运维团队与开发、产品团队合作的产品,通过对用户反馈的自然语言的智能分析,对文本问题进行自动归类,准确率接近95%。并且,按问题类别实现分钟级告警的能力。

[1511321117882_1660_1511321118248.PNG]
[1511321117882_1660_1511321118248.PNG]
[1511321136374_8099_1511321137505.PNG]
[1511321136374_8099_1511321137505.PNG]
[1511321248261_5704_1511321248672.PNG]
[1511321248261_5704_1511321248672.PNG]
[1511321257878_8657_1511321258195.PNG]
[1511321257878_8657_1511321258195.PNG]

分享中大量腾讯SNG的运维实践经验与技术,即将在由赵建春老师带领的织云产品对外输出,敬请关注!

最后,借用腾讯SNG助理总经理赵建春老师的演讲结语:

理想的AI运维就像无人驾驶一样 似乎离我们还很远 但通过不断的进步 我们坚信 它, 一定会到来

PPT中干货满满,文中只截取了部分

欢迎大家扫码下载

[1511319957753_4118_1511319958011.jpg]
[1511319957753_4118_1511319958011.jpg]

《AI浪潮下的高效运维思考及实践》

更多大会PPT下载地址:

链接: https://pan.baidu.com/s/1jIDwZTO

密码: egeq

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • AI 是如何工作的?
    • 抽丝剥茧,找出规律
      • AI和机器学习的分类
        • 监督学习和样本标注
          • 损失函数及常见损失函数
            • 常见算法的工作机制
              • NLP简介
              • AI 和运维工作结合的思考
                • 对运维和AI技术结合点的思考
                  • 寻找与AI结合的运维场景
                    • 分类算法应用
                      • 运维和AI可能的结合点
                      • 腾讯织云的一些实践案例
                        • Monitor智能监控
                          • 多维智能监控
                            • 关联告警智能分析
                              • 智能运维客服
                                • 基于文本投诉的舆情监控系统
                                相关产品与服务
                                NLP 服务
                                NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
                                领券
                                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档