云南某金融机构日志平台建设,实现核心业务系统运维智能化

欢迎各位再次来到这里听小编解说!小编已经把最精彩的文章已经写在了下边,希望大家能耐心的把文章看完。你们的阅读就是我坚持创作的动力!麻烦你点点关注和评论!小编会永远记在心里的!!!

一、“黑匣子”:我很小,但我很重要

今天聊日志之前,我们先来聊另外一个话题:“黑匣子”。

没错,就是飞机的“黑匣子”。黑匣子是记载飞行数据和驾驶舱通话的设备,它可以记载飞机停止作业前25小时的飞行数据以及30分钟到2小时不等的通讯录音。

红色的黑匣子

世界上所有的空难发生原因都是经过黑匣子分析出来的,因而它就成了空难事故的见证和“前车之鉴”,黑匣子虽然在平常不起眼,可是却是飞机上一个非常重要的部件,也是飞机出事后唯一重要的部件。

二、日志大数据平台,打造智能的云端“黑匣子”

网络设备、系统及服务程序等,在运作时都会产生一种叫

log

的事件记录;每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。

和黑匣子一样,通过对日志数据的分析,我们可以对系统设备进行故障定位、了解APP和电商网站上的用户行为习惯和消费偏好、对员工的IT操作行为进行内部审计,像之前程序员离职为了泄愤删除公司宝贵数据的行为,可以进行溯源查询...

一台普通电脑的安全日志

日志数据的价值巨大。而且和只能做“马后炮”的飞机“黑匣子”不同。借助云计算的强大计算能力和实时大数据处理分析技术,将日志数据和其他数据比如业务数据、数据库数据、外部爬取数据等进行关联交叉分析后,可实现

秒级实时定位故障;

根据用户行为偏好变化实时动态调整促销文案和策略;

监控系统实时健康度并通过短信、微信、钉钉第一时间告知负责员工;

甚至提前预测系统资源水位、运行状态,准备好对应措施...

总而言之,袋鼠云日志就是这样一款具有实时日志大数据分析功能的、智能化的、云端“黑匣子”。

三、云南省某金融机构的日志大数据平台建设实践

云南省某金融机构,业务系统的迅速发展,极大地提升省联社业务运营能力的同时,本身的复杂性也大大增加,系统产生的事件及问题不断增多,各项事件和问题的都存在很强的关联性、依赖性。

但是各系统

数据孤岛

的状态直接导致了运维数据难以关联分析,拉长了解决问题的时间周期,对该金融机构自身的运维能力带来新的挑战。

2016年9月,中国银监会印发

《银行业金融机构全面风险管理指引》

指出:

第四十三条 银行业金融机构应当建立与业务规模、风险状况等相匹配的信息科技基础设施。

第四十四条 银行业金融机构应当建立健全数据质量控制机制,积累真实、准确、连续、完整的内部和外部数据,用于风险识别、计量、评估、监测、报告,以及资本和流动性充足情况的评估。

在这样的背景下,该金融机构经过了长期的考察和商讨,最终选择了为多家知名企业搭建运维数据分析平台的智能运维专家——

袋鼠云

从客户的实际情况出发,袋鼠云为客户构建了完整的日志平台建设方案,并一起打造运维数据分析平台。

1. 方案设计

在与该金融机构深入的沟通和交流中,我们发现该金融机构当前的运维建设还是比较传统的:主要以IT资源(包括硬件、软件和网络设备等)的管理为核心,资源的信息非常完备,但是对于资源上面支撑的业务应用运行状况的采集和分析相对缺乏。

在银行的业务应用系统中,大量的交易流水、业务流水和交易日志中包含了对于业务运行状况最细节的描述,如果将这些数据收集起来,合理地加以处理和分析,就能实时、准确地反映当前业务执行状况。同时,将该业务涉及的IT资源使用状态也一并收集,并进行关联分析,从而真正了解 IT 资源如何对业务做出贡献, 并能迅速地根据业务问题定位 IT 资源问题。

根据上述深入的调研收获,袋鼠云提出了

6个建设目标

,希望帮助该金融机构搭建自己的集中化运维数据分析平台:

整合数据,建设统一采集平台

,进行数据采集和管理,包括各监控系统数据(例如网络镜像数据、Tivoli数据等)、日志数据、数据库数据等;

建设基于流式计算的数据处理分析平台

,挖掘数据中的有效信息进行关联分析;

对信息进行

可视化

呈现;

实现图形、短信、微信等

多种方式预警

运维数据分析平台应具备

高效、可扩展、易于管理、维护

等特点;

节省整体运营成本

整个运维数据分析平台建设的核心思想在于通过实时采集

业务运行数据

(如客户交易流水、业务执行流水、日志等),以及实时

系统运行数据

(包括应用服务器、中间件、数据库和主机等),然后通过一定的数据模型将这些数据关联起来,以业务的角度动态展示,并使用一系列算法进行在线和离线分析,并

使系统根据分析结果进行自动化处理

,从而达到将企业业务运行状况和IT资源协同监控和管理的目的。

从图中我们可以看到整个系统工作的逻辑过程。

首先是数据采集服务器从业务系统和其对应的IT资源中,实时获取相应的运行状态数据,经过预处理之后,向两个方向发送:

一个方向是监控分析服务器,在其中对数据进行实时处理,主要是报表引擎对数据进行格式化之后,产生动态报表,业务规则引擎判断数据是否具有某种特点从而激活对应的业务规则;

另一个方向是将这些原始数据存储在适合流式数据的数据库中,并结合相应的管理数据,由数据分析引擎进行更为全面和复杂的数据分析。系统提供一个 web 应用界面,使得监控人员、管理人员和数据分析人员能够通过标准的IE 浏览器访问应用。

2. 方案效果

及时掌握业务运转状况,避免误操作

通过实时动态展示业务的运行状况和关键信息,帮助管理人员及时掌握当前业务运行状态,观察业务运行的变化趋势,并快速判断业务是否正常,做好提前应对措施。

IT运行状况可视化

直观地展现为实现某个业务功能/能力,IT资源以何种方式运转。通过以拓扑图展现业务服务、应用和底层IT系统构架部件之间的动态关系,增进对各种IT 元素的掌控和理解,并及时发现业务瓶颈。

从业务角度管理IT资源

帮助IT部门实时了解、掌控业务部门对IT服务的使用体验,方便IT部门根据业务影响和 SLA(Service Level Agreement)来对IT服务进行管理,并及时进行 IT 资源的优化配置。

加快问题解决

主动地帮助你在第一时间发现问题,以便在问题对用户造成不利影响之前,及时得到隔离、诊断和修复,把它们对业务的干扰降到最低。同时支持自动处理能力,提高管理人员效率的同时降低人为操作的风险。

实现业务-服务-资源相互依赖关系的深入分析

通过系统内部的依赖关系,结合业务和IT 资源等大数据,挖掘内部的相互关系,深入分析业务问题的根源,从而实现IT 和业务的全面融合。

3、客户体验

通过为IT 运营部门提供可以全面了解业务/IT运行状况的仪表板和数据可视化大屏,帮助用户主动根据业务影响对IT服务进行管理。

例如,仪表板通过颜色来显示业务/IT资源的健康状况和繁忙层度,当某个业务出现了问题,其状态就会显示红色,对应的健康度指标就会指向相应的区间。

大屏数据指标

大屏数据指标:现金流向、交易情况、转账情况、交易金额、响应速度、成功率、ATM机交易排名、信贷监控

可以在一个窗口中观察到该业务相关的IT资源的状况,如果对哪个部分感到疑虑,就可以立即点击该资源向下逐层钻取,最终发现问题,然后及时地进行修复,以免问题进一步恶化,而造成服务中断。

整个运维数据的集中,尤其是对日志的整合处理,把以前无序杂乱的日志整合解析,形成完整的交易事件,解决了业务排障的大问题,通过平台提供的搜索功能,业务排障从以前的几个小时缩短到几分钟。

以前由于主机资源的限制,主机上只能保留最近交易日志,其他日志备份到带库。给后续查询带来很大麻烦,如需要恢复环境准备,恢复效率低,查询多日的需要恢复多次,同时数据量大,导致恢复时间长,限制有了大数据存储平台,日志可以长期保留,满足了对柜员操作的审计和对业务分析的回溯。

后续,袋鼠云将会为省联社进一步提供智能运维服务,保障省联社金融业务的高效运行和IT运维的智能化进程。

欢迎大家与我一起来探索科技!让我们走在科技的最前沿。小编已经把最精彩的内容写在下边,请您耐心的把文章阅读完可以吗?您的阅读就是我坚持创作的动力!此外,满足小编一个小小的请求好吗?帮忙点点关注,阅读完文章别忘了留下您宝贵的意见!好吧,我们现在开始一起探索吧!

非常感谢各位看官能在百忙之中阅读小编的文章,您们的阅读和评论是小编继续坚持创作的动力。你们的每一个评论,小编都会去非常认真的去阅读,你们提出的宝贵意见我也会虚心接受,争取每天都为大家带来更多的优质文章。让大家不但可以增长见识,还可以有个好的心情。希望您能喜欢小编的文章!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181030A1ZJF500?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励