智能管家概述

最近更新时间:2025-02-26 14:15:42

我的收藏
弹性 MapReduce 据智能管家是一款全面 EMR 的自动化治理产品,宗旨是通过结合先进的 AI 技术,实现覆盖大数据 EMR 集群系统运行过程中的数据采集、异常识别预测、根因分析、集群治理和成本优化。其目标是通过日渐成熟的智能AI能力替代高开销的人工成本,通过不断迭代的高速算法计算缩短问题发现时效和异常的处理实效,从而提供集群的稳定性。

智能管家能力介绍

资源洞察:资源洞察功能可以帮助用户全面了解系统的资源使用情况,通过存储洞察和队列资源洞察帮助用户优化资源使用,提高资源的使用率同时提升查询引擎执行效率。详见 存储洞察
异常中心:涵盖基础诊断、资源洞察等汇各维度的异常问题按时间统一呈现异常信息、诊断结果及处理意见,同时通过对历史和当前监控数据的分析预测技术,预测可能出现的异常,提前进行预警和干预。
策略中心:丰富的引擎预警配置策略,用户可根据业务属性需求和集群资源情况灵活调整适配的策略诊断阈值、存储文件及表的冷热时间以及计算作业的洞察参数等。
根因分析:帮助用户快速找出集群中表象问题同时通过多维度分析,辨别本质的问题根因,针对性提供专家经验的处理方案,提高系统的稳定性和提升运维时效。详见 应用洞察

智能管家架构图

智能管家的产品结构图如下图所示:

主要有运维数据仓库、规则与 AI 算法及按戏份应用场景提供应用能力三部分构成:
数据仓库:集中采集集群多维度的基础监控指标、Query 应用、计算存储资源、系统业务日志以及定制化事件等多维度的海量数据,经过清洗、整合和建模后,为上层应用提供高质量、统一的数据基础。
规则与 AI 算法:利用预设的业务策略规则和人工智能算法对异常进行识别,通过多维度的数据进行根因分析及故障预测,生成洞察优化策略和处理决策方案。
应用场景:将数据和算法能力转化为实际业务解决方案,覆盖实时检测、智能推荐、异常检测、自动化决策等多样化场景,驱动业务优化和运维简易。

智能管家作为开源大数据集群的在线管家,功能目标如下:

大数据智能管家通过融合 AI 能力和高效的算法,实现大数据产品的全链路自动化治理,提高运维效率,降低运维成本。
通过各层级的全面巡检,提供关键引擎的优化建议,不断提供集群资源及引擎长效稳定。
通过资源及存储等关键引擎的充分洞察,提供面向存储的有效治理建议、面向资源的合理分配策略,以保证集群资源的高效利用。
充分分析查询执行引擎的多维度数据,提出可操作的 SQL 优化策略、参数调优策略。支持调度层面任务链路及同源任务识别,保证数据处理和计算拓扑良好运行。

集群运维功能使用注意事项:

集群稳定性:覆盖基础诊断及大数据重点在离线引擎的良性状态诊断、不良查询识别。例如 YARN、HDFS、Hive、Spark、Trino 等。
集群高效性:集群存储资源计算资源的高效使用,查询任务的高效运行,需要及时处理已识别的异常查询及 badSQL。
功能开启说明:智能管家当前为灰度发布版本,若需要开启该请 提交工单 申请开启功能。