腾讯织云Metis智能运维学件平台正式开源

10月20日,腾讯织云 Metis 智能运维学件平台正式对外开源。Metis 是 AIOps(Algorithmic IT Operations),即智能运维领域的首个开源产品,它是聚焦在智能运维的应用实践集合,基于腾讯已有的运维数据,将机器学习领域的分类、聚类、回归、降维等算法和运维场景相结合,旨在通过一系列基于机器学习的算法,对运维数据进行分析、决策,从而实现自动化运维的更高阶段。

1、项目描述

“Metis”取名自希腊神话中的智慧女神墨提斯,全称为:腾讯织云 Metis 智能运维学件平台。“织云”指的是腾讯智能一体化运维平台,“学件”的概念由南京大学周志华教授提出。

学件 = 模型 + 规约,具有可重用、可演进、可了解的特性。在此基础上,腾讯云副总裁赵建春先生进一步提出“运维学件”的概念,亦称 AI 运维组建,强调其具备对运维场景智能化解决方案的记忆能力。

随着互联网业务的急剧膨胀和服务类型的多样化发展,人为指定规则的不足之处逐渐凸显,促使近两年来智能运维领域的高速发展。智能运维主张通过算法从海量运维数据中学习摸索规则,逐步降低对人指定规则的依赖,进而减少人为失误。

织云 Metis 是聚焦在智能运维的应用实践集合,它基于腾讯已有的运维数据,将机器学习领域的分类、聚类、回归、降维等算法和运维场景相结合,旨在通过一系列基于机器学习的算法,对运维数据进行分析、决策,从而实现自动化运维的更高阶段。

2、主要功能

异常检测:提供率值检测和量值检测 API 接口,对时间序列进行检测,HTTP协议 特征提取:提供三类特征(统计特征、拟合特征、分类特征)的提取功能,特征维度90+;支持增加自定义特征 异常查询:经 API 检测后的时间序列(仅异常)入库存储,提供管理功能,分页查询、检索、放缩等 标注打标:提供标注打标的功能,标记/取消标记为正负样本,标记后样本入样本库 样本管理:提供样本管理功能,检索、图示、编辑、删除,导入等功能 模型管理:提供模型管理功能,支持自定义模型训练

3、应用场景

质量保障: 利用机器学习技术,进行异常检测、故障定位、瓶颈分析等,可在无人工干预下,智能地保障业务稳定运行。如无阈值智能监控、DLP 生死指标监控、多维根因分析。 效率提升:基于自然语言处理、机器学习技术,进行智能问答、智能变更、智能决策,可显著提升运维效率。如 Metis 的智能咨询机器人、舆情监控、集群智能负载均衡、数据库参数调优、容量预测。 成本管理:基于大数据智能分析技术,进行资源(设备、带宽、存储)管理,可迅速分析资源使用的明细,并通过横向大数据对比识别可优化点。如硬盘生命周期预测。本次 Metis 率先开源的无阈值智能监控学件,是从无监督+有监督学习的角度来解决时序数据的智能检测问题。 4、项目特性

智能检测:运维人员不需要再去设置监控阈值,模型能够对异常情况做智能判决,直观告知检测结果是正常还是异常。通常而言,阈值的监控包含最值、同比、环比等维度设置,此检测方案在检测初期效果较好,但是随着业务发展和规模壮大,就会需要付出较高的人力成本去维护合适的阈值范围,对于大规模发展性业务得不偿失。智能检测的方案是基于统计判决、无监督和有监督学习对时序数据进行联合检测,通过统计判决、无监督算法进行首层判决,输出疑似异常,其次进行有监督模型判决,得到最终检测结果。这个过程就摒弃了阈值方式带来的问题。 通用模型:智能检测的模型由腾讯织云多元化的海量业务样本训练而成,比较适合复用在互联网行业的时间序列检测中。有监督的检测效果取决于标注样本的准确性和种类丰富性,通过样本库管理功能积累了大量的正负样本、分为测试集和训练集,通用模型是经过海量训练集的样本数据训练而来,涵盖较全面的样本分类。可以帮助一些用户避免掉缺乏训练数据所带来的难点,用户可直接加载通用模型进行检测。

规则学习:实践过程中也会遇到较个性的业务场景,千人千面,不同的用户对异常的判断标准也不尽一致,因此支持标注反馈功能,用户可根据标注信息进行训练,生成新的检测模型,进而掌握新的业务规则。

5、Metis 智能运维学件未来开源计划

Metis 将打造一个开放的学件平台,陆续开源时间序列指标预测、主机异常智能分析、MySQL 异常智能分析、硬盘生命周期预测等其它智能运维学件,集合广大用户在智能运维领域的建设经验和实践,丰富完善针对质量、效率、成本三个方面的AI学件,搭建完备的运维场景,并将在未来兼容其它监控领域的开源产品,如Zabbix、Nagios、Open-Falcon等。

腾讯织云 Metis 智能运维学件平台之无阈值智能监控学件正式开源 Github 开源地址: https://github.com/Tencent/Metis

Metis国内镜像地址: https://git.code.tencent.com/Tencent_Open_Source/Metis

腾讯工蜂源码系统为开源开发者提供完整、最新的腾讯开源项目国内镜像

原文https://mp.weixin.qq.com/s/Raviywpc0kLynOmGfZd4aA

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

人工智能与自然语言处理概述:AI三大阶段、NLP关键应用领域

选自xenonstack 机器之心编译 参与:黄小天、李亚洲 近日,Xenonstack 上推出了一篇名为《Overview of Artificial In...

49080
来自专栏PaddlePaddle

零基础上手深度学习的捷径,居然真的有?

EasyDL全称为Easy DeepLearning,是一款定制模型训练和服务的技术平台。使用时,根据页面文字提示进行四步简单操作,最快10分钟小伙伴们即可训练...

10210
来自专栏机器之心

资源 | 从TensorFlow到PyTorch:九大深度学习框架哪款最适合你?

选自CIO 作者:Mitch De Felice 机器之心编译 参与:Jane W、黄玉胜 开源的深度学习神经网络正步入成熟,而现在有许多框架具备为个性化方案提...

45870
来自专栏腾讯架构师的专栏

给 AI 换个“大动力小心脏”之通用 CNN 加速设计

基于 FPGA 的通用 CNN 加速设计,可以大大缩短 FPGA 开发周期,支持业务深度学习算法快速迭代;提供与GPU相媲美的计算性能,但拥有相较于 GPU 数...

1.8K20
来自专栏AI科技大本营的专栏

回顾2016深度学习十大框架

我喜欢参加在西班牙马德里举办的机器学习见面会,也算是西班牙马德里TensorFlow小组和机器学习(Machine Learning)小组的常客,在自动无人驾驶...

401110
来自专栏磐创AI技术团队的专栏

热点 | 近期Github机器学习开源项目...

对于程序员来说,开源项目是十分有帮助的。希望你能从这篇文章中找到可以激发你灵感的有趣项目。最近磐创AI寻找“深大锦鲤”活动是2018年10月15日准时开奖哦~听...

24820
来自专栏杨熹的专栏

强化学习第4课:这些都可以抽象为一个决策过程

这个过程有两步,首先你的代理会观察环境的一些特质,有时是传感器感知到的,有些是输入的用户特征。 然后代理会选择一个行为,将这个行为反馈给环境。 之后代理不仅...

9610
来自专栏FD的专栏

人工智能与自然语言处理概述:AI三大阶段、NLP关键应用领域

AI 指代「人工智能」,是让机器能够像人类一样完成智能任务的技术。AI 使用智能完成自动化任务。

12630
来自专栏人工智能

DeepMind的小窍门,究竟如何给AI提的速?

人工智能里一直以人类为学习榜样。而在面部识别、电子游戏、甚至围棋等领域,深度学习都已经超越了人类,以至于造成人类已经失败了的感觉。

231100
来自专栏灯塔大数据

深度|DT时代的核心竞争力---数据分析与挖掘

数据分析与挖掘,指的是通过对大量的数据进行观察与分析。发掘其中的未知的,潜在的、对决策有价值的关系、模式和趋势,并利用这些规则建立决策模型、提供预测性支持的方...

36340

扫码关注云+社区

领取腾讯云代金券