首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

马上消费金融运维大数据之构想

随着马上消费金融业务快速发展,it设备数量越来越多,业务越来越复杂,相互交互如同蜘蛛网一般错综复杂,在系统的高速迭代中如何保证系统稳定、尽早发现风险甚至预测风险是一门可以深入研究的课题。数据分析能力在消费金融it运维中发挥着重要作用,利用大数据进行决策分析,可及早发现业务故障和风险隐患,从而保障业务连续性。

一、马上消费金融运维面临的挑战

当前,马上消费金融it运维中面临以下挑战:一是业务发展迅速,涉及多个金融领域及业务流程,业务流程内部相互关联错综复杂、内在逻辑复杂多变。二是数据碎片化,多领域、多个工具、多个数据结构、多个系统信息不对称形成多个数据孤岛,从单一视角难以对整个系统形成系统性的理解。三是快速迭代与稳定性取舍,90%的故障是由变更造成的,马上消费既属于互联网创新型企业、又属于受银监监管对于稳定性有高要求的金融型企业,一矛一盾对运维的快速系统迭代与保证高可用、稳定性有了双重标准的高要求。

二、基于现有运维数据演化出的运维大数据决策

目前马上金融运维现有的工具有open-falcon、pinpoint、elk(应用)、elk(负载)。

Open-falcon可以提供it设备运行的基础信息如cpu、内存、磁盘使用率等情况、应用的运行关键参数情况如线程数、堆内存等。

Pinpoint可以提供链路调用的情况如请求响应的平均耗时、链路调用断点情况、接口方法调用次数结合耗时可以统计出接口的性能情况。

Elk可以从海量日志中分析并归类出应用产生的错误分类及错误数量。

以上工具提供的海量数据信息配合企业中自定义的应用信息、在架构中的层级关系及调用关系再结合运维的sla即可分析出一个业务单元或一个场景中一段时间内的运行质量,做到出现少量错误时可以预测重大问题的出现,出现重大故障时可以及时发现并定位保障恢复时效。

三、基于系统的it可视化地图

地图拥堵情况大数据分析

以此我们可以绘制系统调用关系的大数据分析流程图

如上图所示当后端数据库出现问题时,由调用地图显示从前到后的调用链路中出现的异常,帮助运维研发团队快速发现真正故障点,解决问题恢复业务。

四、预测式运维大数据决策

当运维日志及数据积累到一定量之后,我们可以对日常产生的数量量,以及日常的错误数量做一个趋势分析、制定动态基线,当异常超过基线时,我们可以对故障进行预测式排查,可以识别未发生的但即将发生的故障,最终将故障消灭在萌芽状态。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190221A146BS00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券