金科案例 山东农信:集中运维监控平台项目

项目背景及目标

目前山东省联社已经建立了“两地三中心”运维管理体系,异地运维面临着监控系统分散、报警效率不高等一系列问题。为保证日常运行维护工作的顺利开展,确保业务系统安全、稳定运行,山东省联社通过建设集中运维监控平台项目,完成了异构监控系统数据的集中,通过大数据技术对运维监控数据进行挖掘和分析,实现了对运维突发事件的监测、识别、评估与态势感知,有效提高了突发事件的处置能力,初步实现了由IT运维到主动运营服务的转变。

项目方案

集中运维监控平台是运维管理基础的核心平台,通过收集各专业监控工具采集的应用、数据库、中间件、服务器、存储、网络和机房动环的监控数据,进行统一管理和实时关联分析,快速有效地定位故障告警根源,提高故障诊断的效率,从而构建不同层级、不同部门间协同解决问题的平台,成为应对突发事件,支持领导决策的一种重要手段。通过对各类监控数据的分类和标准化处理,从而在一个平台上对所有监控数据的有效管理和综合呈现,实现了运维管理可视化、可量化和自动化,有效实现ITIL落地过程中的重要步骤。

监控对象层:是被管理对象的集合,是系统平台所管理的IT基础架构,如基础设备、动力系统、环境系统、主机系统、数据库、应用、中间件等,涵盖一切与IT管理相关的管理对象。

采集层:通过多种技术手段实现对IT基础架构对象的各种管理数据(如关键性能指标KPI等)的采集,如资产(运维)、事件(故障)、性能(容量)、配置(运营)、策略(人工录入的运维资料),为管理平台提供必要的、标准化的数据。

功能层:提供各种管理数据的处理逻辑和策略。如图所示,在这层面系统还提供对其他系统集成互访的接口平台。对外接口平台是与其他系统(如资产系统)数据共享的独立自治平台,是系统平台接口标准化的统一,从功能上使整个平台信息与外部系统信息形成联邦制数据体系。

展现层:提供经处理后各项数据的呈现,并对外提供监控服务台的管理功能,是管理人员运维工作的界面,也是管理信息和录入接口,提供告警查询与配置、运维可视化视图、平台管理等多项功能。

外部系统接口:按照要求与外部系统建立互通互连机制,对外提供相应接口,对内提供外部信息源的丰富和动态引用。外部系统接口是对外沟通通讯的统一接口平台,提供各种所需接口的统一管理,如提供Syslog、Trap、UDP Sockets、API、Jason、JMX、数据库、文件日志等的业务标准接口方式。通过外部系统接口,可以与现有的流程管理平台进行紧密集成,如自动生成工单、自动获取工单状态和相关日志等操作。

创新点

1. 制订运维监控数据标准要求,提升数据治理水平

监控数据标准是集中运维监控平台的基础,山东农信以银监会发布的《数据标准化规范》和《数据采集接口技术规范》为基础,结合实际运维情况,制订了《山东农信标准化监控指标体系》和《山东农信运维与业务交易数据集成规范》。

2. 构建监控大数据平台,增强运维数据服务能力

监控大数据分析平台是集中监控平台的核心,山东农信以《山东农信运维与业务交易数据集成规范》为依据,部署了60个节点的分布式数据处理集群,实现了19套运维监控工具和14套重要金融业务系统的数据集成,数据内容涵盖业务、交易、配置、性能、告警等不同类型的监控数据。

3. 探索智能化运维模式,逐步向主动式IT运营模式转变

智能化运维是集中监控平台的发展方向,运用自动化学习、数据挖掘技术,通过建立应用系统可用性主动探测机制,以及依托标准化指标体系建立的性能预测,使用“动态阈值”与“故障分析”技术帮助运维人员发现潜在的运维风险,同时提高性能阈值的准确性,降低告警误报数量。

4. 创新场景化运维模式,有效提高突发事件应急决策效率

场景化运维是集中监控平台实现精细化管理的有效手段。场景化运维模式依托集中监控平台的数据整合优势,为不同管理角色提供一站式各类IT管理要素,将以往分散的运维工作环节集中在一起,极大缩短了故障应急处理时间。

技术实现特点

本次集中运维监控项目在建设开发实施过程中,为了适应山东农信科技架构生产环境和业务特性,在技术实现方面主要有三个特点:

1. 采用两地多中心分布式部署,数据集中处理的架构

随着山东农信转山西路数据中心的启用,“两地三中心”运维管理架构初步形成,为实现一体化运维监控模式,集中运维监控项目采用“分布采集、集中分析,集中管理、统一展现”的部署架构,为保障生产业务数据的正常传输,除告警数据需实时传输,其余监控性能、配置、交易统计等数据,采用分时传输方式,遇到网络带宽拥挤的情况下,能够自动缓存数据,保证数据的完整性。

2. 分布式实时内存数据计算与存储集群

针对数据分析要求,本项目使用了分布式实时内存数据计算和存储集群,可通过横向扩展的方式来提升实时数据处理能力。基于初期的调研结果,本次项目集成19套监控工具的性能、告警与配置数据,同时集成14套业务系统的交易日志、应用告警数据,日均数据7000万条,高峰期TPS达到2000。集中运维监控平台项目在两地三中心总部署了60个计算与存储节点,可以支撑实时计算和热数据存储需求。

3. 高可用技术架构

集群高可用:整个系统都采用高可用架构,避免单点和性能瓶颈节点。通过横向扩展能够动态扩展系统性能和吞吐量,同时增加系统可靠性。

虚拟化高可用:集中监控平台项目部署在运维支撑云平台上,避免了单机物理故障带来的运行风险,在单个虚机出现问题时自动实现资源漂移。在项目部署成功后,对系统做镜像备份,在程序出现问题后,直接恢复虚机镜像文件,可将故障解决时间降到最低。

项目过程管理

集中运维监控平台项目采取分阶段方式实施,第一阶段主要实施内容为整合现有监控系统数据,将转山西路数据中心、伯乐路数据中心及黄岛数据中心(包括同城中心)基础监控数据集中展示,通过统一的管理视图对机房环境、应用系统、主机设备、网络环境进行集中展现和报警,制定完成统一的标准化接口为新建监控系统的接入提供标准,初步建立集中运维监控平台的采集层,为构建“两地多中心”的集中运维监控奠定框架基础;第二阶段主要实施内容为逐步将应用、存储等监控数据进行整合,构建以CMDB为核心的IT环境支撑架构和告警关联分析,实现与服务台和IT服务管理等系统的对接,实现自动基线和自动问题分析定位,能够支持在“两地多中心”的单点登录和手机移动端页面展示,初步建立了以IT视角和业务视角相结合的整体运营监控体系。

运营情况

集中运维监控平台成功上线后,极大提升了山东农信的运维监控水平,本项目初步运用自动学习、数据挖掘等技术,建立了应用系统可用性主动探测机制,以及依托标准化指标体系建立的性能预测,使用“动态阈值”与“故障分析”技术帮助运维人员发现潜在的运行风险,同时提高性能阈值的准确性,降低告警误报数量。

1.动态阈值与故障分析。帮助运维人员发现潜在的运行风险,同时提高性能阈值的准确性,降低告警误报数量,一线运维团队可以及时将故障消灭在萌芽状态,能够将精力更有效的集中在重要问题解决过程中。2018上半年月均5级告警数量同比下降86%,有效保障了业务系统运行的可靠性与稳定性,初步实现了传统被动运维向主动运营模式的转变。

2.运维场景可视化:打通IT服务管理平台与集中监控平台数据接口,将系统配置数据和集中监控数据进行整合,构建包含业务架构、交易、性能、告警等多维数据分析模型,实现了IT与业务系统的数据全面结合、处理和分析。通过可视化技术展现各业务系统的架构视图,方便维护人员直接查看系统运行状态,例如当前系统可用性探测指标、核心模块交易成功率和响应时间,故障分析结果与关键性能指标,为系统故障排查提供直观、形象的可视化场景支撑。2018年上半年月均故障平均应急处理时间同比下降了83%,有效提高了突发事件应急决策效率。

项目成效

集中运维监控平台作为一体化运维的基石,遵循“小工具、大平台”建设理念,基于本项目制订的监控数据集成标准与规范,以大数据平台为核心,有效整合山东农信现有19套监控工具与14套重要金融业务系统的多维监控数据,形成了标准化、多维度、多类型的监控大数据平台,一方面满足了“运维一体化”管理工作要求,实现多数据中心的集中监控,另一方面为一体化运维模式向智能化运营模式发展奠定了坚实的数据基础。

1. 提升山东农信的监控数据治理能力

目前山东农信运维监控数据治理正处于起步阶段,通过本项目制订了若干监控运维数据标准,包含《山东农信标准化监控指标体系》与《山东农信运维与业务交易数据集成规范》,有效提升山东农信的数据治理能力。

2. 提高了山东农信监控数据的共享能力

集中运维监控平台将山东农信两地多数据中心的监控工具与重要金融类业务系统的数据实现了有效共享,打通了数据孤岛,实现了监控系统性能、告警和配置数据共享,为建立山东农信运维监控大数据平台奠定了坚实的基础。

3. 探索智能化运维模式

基于一阶段项目积累的海量监控数据,针对趋势预测的计算要求,引入线性回归算法、随机森林等多种算法,实现了“动态阈值”与“性能预测”功能,并成功运用在告警配置、性能报表、可视化视图等功能模块,提升了一线运维工作效率。

经验总结

1.项目管理工作总结

本次项目建设过程中,为保障规划顺利实施,项目组按照“统筹规划、分步实施、评估调整、强化考核”的管理策略,加强实施调度,强化沟通合作。项目组由数据中心主任牵头,建立由不同部门领导组成的协调委员会,协助跨部门组织协调,并且通过解读、培训和专题研讨方式开展宣导工作,促进形成各部门共识,消除认知误差,形成统一工作目标,同时督导工作质量与进度,有效保证了项目进度。

2. 数据集成工作总结

数据集成工作是本项目一阶段的工作重点,在数据中心主任的协调沟通下,我们分别与部门领导沟通协调,分别与各系统的运维管理和厂商技术支持进行访谈,基于访谈结果形成了《调研文档》和《山东农信标准化监控指标体系》、《山东农信运维与业务交易数据集成规范》,为下一步数据集成奠定了良好的规范。

3. 知识转移与运营推广工作总结

项目组编写形成完善的《集中监控平台操作手册》、《集中监控平台运维手册》和《集中监控平台管理员手册》,进行了多次现场项目培训。同时项目建设方保留开发组的两位开发人员负责项目运营期间的运维工作,有效推动集中监控平台的知识转移和运营推广。

本文由2018年度农村金融科技创新优秀案例评选组委会授权发表,转载请注明出处和本文链接。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190828A0CWTM00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券