随着马上消费金融业务快速发展,it设备数量越来越多,业务越来越复杂,相互交互如同蜘蛛网一般错综复杂,在系统的高速迭代中如何保证系统稳定、尽早发现风险甚至预测风险是一门可以深入研究的课题。数据分析能力在消费金融it运维中发挥着重要作用,利用大数据进行决策分析,可及早发现业务故障和风险隐患,从而保障业务连续性。
一、马上消费金融运维面临的挑战
当前,马上消费金融it运维中面临以下挑战:一是业务发展迅速,涉及多个金融领域及业务流程,业务流程内部相互关联错综复杂、内在逻辑复杂多变。二是数据碎片化,多领域、多个工具、多个数据结构、多个系统信息不对称形成多个数据孤岛,从单一视角难以对整个系统形成系统性的理解。三是快速迭代与稳定性取舍,90%的故障是由变更造成的,马上消费既属于互联网创新型企业、又属于受银监监管对于稳定性有高要求的金融型企业,一矛一盾对运维的快速系统迭代与保证高可用、稳定性有了双重标准的高要求。
二、基于现有运维数据演化出的运维大数据决策
目前马上金融运维现有的工具有open-falcon、pinpoint、elk(应用)、elk(负载)。
Open-falcon可以提供it设备运行的基础信息如cpu、内存、磁盘使用率等情况、应用的运行关键参数情况如线程数、堆内存等。
Pinpoint可以提供链路调用的情况如请求响应的平均耗时、链路调用断点情况、接口方法调用次数结合耗时可以统计出接口的性能情况。
Elk可以从海量日志中分析并归类出应用产生的错误分类及错误数量。
以上工具提供的海量数据信息配合企业中自定义的应用信息、在架构中的层级关系及调用关系再结合运维的sla即可分析出一个业务单元或一个场景中一段时间内的运行质量,做到出现少量错误时可以预测重大问题的出现,出现重大故障时可以及时发现并定位保障恢复时效。
三、基于系统的it可视化地图
地图拥堵情况大数据分析
以此我们可以绘制系统调用关系的大数据分析流程图
如上图所示当后端数据库出现问题时,由调用地图显示从前到后的调用链路中出现的异常,帮助运维研发团队快速发现真正故障点,解决问题恢复业务。
四、预测式运维大数据决策
当运维日志及数据积累到一定量之后,我们可以对日常产生的数量量,以及日常的错误数量做一个趋势分析、制定动态基线,当异常超过基线时,我们可以对故障进行预测式排查,可以识别未发生的但即将发生的故障,最终将故障消灭在萌芽状态。
领取专属 10元无门槛券
私享最新 技术干货