首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

经营类数据报送信息系统运维体系的研究与实践

本文节选自《金融电子化》2018年10月刊

作者:中国农业银行数据中心 董闯 徐淼

编者按

本文从运维情况分析、运维体系研究等几方面对中国农业银行数据报送信息系统运维体系的建设进行了经验分享。

当前现状:随着FinTech的不断发展,银行业对数据分析和应用的需求日益增加,“数据”在金融决策、风险控制等方面发挥着越来越重要的作用。经营类数据报送系统,对内为全行用户提供全面、及时、准确的经营指标数据;对外向人民银行、银监会等监管机构及时报送经营数据,相关数据的报送具有实时性强、重要性高、影响度大三大特点,对商业银行提出了较高的运维保障要求。

应对措施:中国农业银行数据中心通过梳理数据报送信息系统的应用架构、部署架构、关联系统和运维特点,不断优化系统运维保障方案和应急保障策略等,探索出一套适用于此类系统的特殊运维保障方案。制订了针对性的优化运维策略,形成独特的运维保障体系,提高了此类系统的安全稳定性和数据报送及时性,取得了良好效果。2017年,农行在监管数据报送时效性上,名列前茅。

数据报送信息系统运维情况分析

中国农业银行现有的数据报送信息系统,有监管信息报告系统(DIRS)和统一指标库系统(UIDS)等。这些系统的数据流链路主要由源数据生产、数据抽取、数据传送、数据加载、数据加工和数据应用六个环节构成。下面以监管信息报告系统为例,梳理数据报送信息系统投产上线后的前期运维情况。

1.监管信息报告系统。监管信息报告系统(DIRS)是农行全行统一的监管报表集中生产报送系统,主要功能包括报表管理、业务监测表填制、监管报表组装报送等,承担向人民银行、银监会等监管部门报送数据的任务。

2.DIRS前期运维保障情况。日常运维:一线运维值班人员根据系统运维要求,定时查看作业状态和实时监控系统告警,发现异常第一时间报告应用支持人员。支持人员开展处置或联系开发人员做进一步原因分析及处置。

故障事件应急流程:(1)一线运维人员发现报送数据加工作业链未按时完成,及时向应用支持人员报告。(2)应用支持人员联系应用开发人员分析延迟原因,向业务部门反馈情况。(3)业务部门、应用开发部门和运维部门召开电话会议,分析影响,排查和定位问题。(4)应用支持人员处置问题。(5)故障修复,数据成功报送。

前期系统运维保障中存在的问题

DIRS的前期运维方式,虽可基本保障系统运行正常,但运维保障工作缺乏统一性和全面性。主要体现在只监控DIRS系统本身,未对数据流整个链路进行集中化、自动化的监控,关键节点的检查及处理完全依赖人工完成。

由此产生的问题也日益明显,主要有以下几方面。(1)运维工具自动化率低。(2)运维信息分散,查询时间长。数据报送信息系统的数据链路长,运维信息涉及多个运维平台,查询过程复杂,花费时间长。(3)监控信息繁杂,无突出重点。数据报送信息系统的监控条目繁多,未结合数据报送的数据处理流程特点,重点突出报送指标关键数据流链路的状态信息。(4)链路环节长,故障定位速度慢。数据流链路由六环节组成(见图1),涉及的数据源系统有IFAR等多个系统。因此出现报送异常时,需要检查的节点多,故障定位复杂且缓慢。(5)缺乏完备的事后分析机制。事件解决后,除了简单的事件信息记录,未形成有效的事后评价改进机制。同时,当前事件记录信息的标准化程度低,无法通过大数据挖掘分析等来预测潜在风险并提前预警。

图1 数据流链路由六环节组成

运维体系的研究

随着经营类数据报送信息系统新功能的持续投产,前期的运维手段和应急方法已难以满足今后的应急保障需求,因此开展了以下三方面的研究。

1.加强系统运维保障手段。针对数据报送信息系统关键数据流链路,改进监控内容和处理策略,确保故障异常可被快速发现;建立信息系统关键作业节点预警机制,给应急处置留出时间。

2.提高系统应急保障能力。完善该类系统故障异常的应急管理,建立专属应急保障团队,保证发生突发事件时,应急保障团队能做到快速响应、快速处置。同时,通过召开应急交流会,对已发生事件进行回顾讨论,总结分析系统隐患,不断提高应急团队的应急响应效率和处置能力。

3.建立统一监控运维平台。自动化采集数据流链路各环节上运维平台的信息,实现运维信息的集中化和可视化,并为运维人员提供方便快捷的查询功能,助力运维人员快速定位故障。

运维体系的实践

农业银行DIRS系统,2017年率先在四大行实现了监管统计系统全国集中。通过开展研究并付诸实践,有效地提高了农行监管数据报送效率。

1.加强运维保障的方法和手段。一是建立运维保障方案。规范日常态和紧急态运维操作流程,确保故障异常及时被发现和处置。针对数据报送系统的运维特点,将运维保障方案划分为实时监控保障方案和预警管理保障方案。二是加强实时监控管理。对环境、应用、系统、网络状态等进行全面实时监控,保证在异常出现时,运维人员能第一时间发现并报告异常,快速开展异常评估并启动事件处置流程。三是建立异常预警机制。梳理关键数据流链路处理节点,设置安全预警时点,保证数据流链路发生异常时,可及时向运维保障人员发送提醒信息。

2.提升突发事件的应急保障能力。一是组建专属应急保障团队。应急保障团队负责故障事件的应急响应、故障排查、辅助决策及分析报告编写等工作。应急保障团队联系人负责维护应急联络群,团队成员根据专业分工做好日常运维。当故障事件发生时,事发条线联系人及时报告事件现象;应急响应时,各条线互相配合,排查事件原因;应急处置过程中,各条线共享信息并报告处置进度。应急保障团队横向打通各条线沟通壁垒,提高突发事件应急处置效率,确保故障异常快速解决。

二是建立应急保障信息文档。应急保障信息文档包含系统应用架构、部署架构、关键数据流链路、应急处置流程和故障定位方法等知识,是该系统专属的应急响应操作规范,指导运维人员快速开展应急响应。应急处置涉及多个部门,通过共享和宣讲该文档,帮助应急保障团队成员深入了解并掌握系统架构、关键数据流链路和应急响应流程等内容,促使团队成员更加有效沟通和协同配合,缩短事件应急处置时间。

三是建立交流会机制。交流会分为定期召开和紧急召开两种类型。定期召开是通过周期性召开会议,回顾分析近期的事件、投产、变更等,剖析存在的问题和不足,吸取经验教训,并应用到实际工作中。紧急召开是针对系统中重大故障事件或重复发生的复杂事件,临时组织召开的会议;各条线就遇到的问题,深入探究事件原因、共享事件信息、组织问题排查、确定后续改进事项等。通过召开应急保障交流会,各专业条线之间搭建起高效通畅的沟通渠道,可快速完成故障事件的分析,减少事件的重复发生,保障系统安全稳定运行。

3.建立统一监控运维平台。集中化、可视化、自动化的统一监控运维平台具有以下功能。一是自动整合信息,提高效率。自动获取并整合各个运维平台的关键数据流链路运维信息。实现运维信息的集中整合和快速查询功能,运维人员可在该平台,直接查看数据流链路各个环节的运行情况。二是可视化数据流链路,快速定位问题。通过生成可视化数据流链路拓扑图,直观展示整个数据流链路各关键作业节点的运行情况。当有异常或告警通知时,平台第一时间将异常信息发送至相关运维人员,快速、精确定位到问题节点,节约问题排查时间,减少数据报送事件的发生。三是完善事件分析回顾机制,形成良好循环机制。完善事件事后处理机制,推进事件记录标准化自动化建设。由平台自动记录并保存事件信息,实现标准事件数据的积累。依托平台数据,构建历史记录快速查询功能,定期自动数据挖掘事件规律,提供运维保障方案的新思路,降低故障发生概率,形成良好循环。

《金融电子化》新媒体部:主任 / 邝源 编辑 / 潘婧

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181025B0P4FA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券