前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >​首个智能运维项目开源!腾讯织云Metis,用算法替代人为指定规则

​首个智能运维项目开源!腾讯织云Metis,用算法替代人为指定规则

作者头像
织云平台团队
修改2018-10-29 16:45:18
2.9K0
修改2018-10-29 16:45:18
举报

10月20日,腾讯织云 Metis 智能运维学件平台在 OSCAR 开源先锋日上宣布,正式对外开源。Metis 是AIOps(Algorithmic IT Operations),即智能运维领域的首个开源产品。智能运维主张通过算法从海量运维数据中学习摸索规则,逐步降低对人指定规则的依赖,进而减少人为失误。

OSCAR 开源先锋日由中国信息通信研究院主办,中国信通院云大所所长何宝宏,中国信通院云大所云计算部副主任栗蔚,腾讯云副总裁赵建春,腾讯云运营部总经理肖世广共同参与 Metis 开源发布仪式。

(腾讯织云“Metis”开源项目正式发布)

腾讯云副总裁赵建春表示:“人工智能与运维的结合有了 AIOps 的新概念,如何在智能运维领域寻求到新的突破,从传统 API 转向运维学件,将腾讯海量数量训练出来的模型贡献开源社区和业内,我想这就是织云 Metis 智能运维学件开源的意义,和大家共建 AI 运维场景,让人工智能和运维紧密结合。”

(腾讯云副总裁赵建春)

在“腾讯织云 Metis 智能运维学件平台”这一命名中,“学件”的概念由南京大学周志华教授提出。学件 = 模型 + 规约,具有可重用、可演进、可了解的特性。在此基础上,腾讯云副总裁赵建春先生进一步提出“运维学件”的概念,亦称 AI 运维组件,强调其具备对运维场景智能化解决方案的记忆能力。

“织云”指的是腾讯智能一体化运维平台,而 “Metis” 取名自希腊神话中的智慧女神墨提斯。随着互联网业务的急剧膨胀和服务类型的多样化发展,人为指定规则的不足之处逐渐凸显,促使近两年来智能运维领域的高速发展。织云 Metis 是聚焦在智能运维的应用实践集合,旨在通过一系列基于机器学习的算法,对运维数据进行分析、决策,从而实现自动化运维的更高阶段。

由于社交类业务种类丰富、规模庞大的特点,腾讯搭建了充足的 IT 基础设施,为实现多维度、深层次地运维公司各类业务在发展交互过程中产生的海量运维数据,Metis 应运而生。

如今,Metis 在运维质量、效率、成本三个方面都落地了众多智能运维实践,逐步构建出成熟的智能化运维场景,具体表现为质量保障、效率提升、成本管理、智能检测、通用模型和规则学习 6 个方面。

质量保障: 利用机器学习技术,进行异常检测、故障定位、瓶颈分析等,可在无人工干预下,智能地保障业务稳定运行。如无阈值智能监控、DLP 生死指标监控、多维根因分析。

效率提升:基于自然语言处理、机器学习技术,进行智能问答、智能变更、智能决策,可显著提升运维效率。如 Metis 的智能咨询机器人、舆情监控、集群智能负载均衡、数据库参数调优、容量预测。

成本管理:基于大数据智能分析技术,进行资源(设备、带宽、存储)管理,可迅速分析资源使用的明细,并通过横向大数据对比识别可优化点。如硬盘生命周期预测。本次 Metis 率先开源的无阈值智能监控学件,是从无监督+有监督学习的角度来解决时序数据的智能检测问题。

智能检测:运维人员不需要再去设置监控阈值,模型能够对异常情况做智能判决,直观告知检测结果是正常还是异常。通常而言,阈值的监控包含最值、同比、环比等维度设置,此检测方案在检测初期效果较好,但是随着业务发展和规模壮大,就会需要付出较高的人力成本去维护合适的阈值范围,对于大规模发展性业务得不偿失。智能检测的方案是基于统计判决、无监督和有监督学习对时序数据进行联合检测,通过统计判决、无监督算法进行首层判决,输出疑似异常,其次进行有监督模型判决,得到最终检测结果。这个过程就摒弃了阈值方式带来的问题。

通用模型:智能检测的模型由腾讯织云多元化的海量业务样本训练而成,比较适合复用在互联网行业的时间序列检测中。有监督的检测效果取决于标注样本的准确性和种类丰富性,通过样本库管理功能积累了大量的正负样本、分为测试集和训练集,通用模型是经过海量训练集的样本数据训练而来,涵盖较全面的样本分类。可以帮助一些用户避免掉缺乏训练数据所带来的难点,用户可直接加载通用模型进行检测。

规则学习:实践过程中也会遇到较个性的业务场景,千人千面,不同的用户对异常的判断标准也不尽一致,因此支持标注反馈功能,用户可根据标注信息进行训练,生成新的检测模型,进而掌握新的业务规则。

Metis 无阈值智能监控学件在腾讯内部已承载了超过 240 万个业务指标的异常检测,它经过海量监控数据的打磨,在异常检测和运维监控领域具有广泛的应用性,可取代传统的阈值检测方式,达到智能检测时序数据的异常,还能结合业务策略对异常数据进行告警推送。

秉承腾讯开源的理念,Metis 将打造一个开放的学件平台,陆续开源时间序列指标预测、主机异常智能分析、MySQL 异常智能分析、硬盘生命周期预测等其它智能运维学件,集合广大用户在智能运维领域的建设经验和实践,丰富完善针对质量、效率、成本三个方面的AI学件,搭建完备的运维场景,并将在未来兼容其它监控领域的开源产品,如 Zabbix、Nagios、Open-Falcon 等。

近年来,腾讯在开源社区越发活跃,自 2010 年起,腾讯对内采取“开放、共享、合力开发”的研发模式;对外实现自主开源,并积极参与社区工作,相继加入Hyperledger、LF Networking 和开放网络基金会,成为LF深度学习基金会首要创始成员及 Linux 基金会白金会员。本次 Metis 开源,于腾讯,是其开放战略在技术领域的又一实践;于行业,则将填补智能运维领域的开源空白,并汇聚众力,促进运维技术的突破与发展。

转载自腾讯新闻: http://tech.qq.com/a/20181020/008850.htm

腾讯织云 Metis 智能运维学件平台之无阈值智能监控学件正式开源

Github 开源地址:

https://github.com/Tencent/Metis

请给 Metis 一个 Star !

欢迎提出你的 issue 和 PR!

Metis国内镜像地址:

https://git.code.tencent.com/Tencent_Open_Source/Metis

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-10-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯织云 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
负载均衡
负载均衡(Cloud Load Balancer,CLB)提供安全快捷的流量分发服务,访问流量经由 CLB 可以自动分配到云中的多台后端服务器上,扩展系统的服务能力并消除单点故障。负载均衡支持亿级连接和千万级并发,可轻松应对大流量访问,满足业务需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档