前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【案例】鹏华基金——金融领域的日志大数据实践

【案例】鹏华基金——金融领域的日志大数据实践

作者头像
数据猿
发布2018-04-24 15:44:07
1.1K0
发布2018-04-24 15:44:07
举报
文章被收录于专栏:数据猿

数据猿导读

依托移动终端的普及和互联科技的飞速发展,金融行业需要抓住机会技术升级、积极应变。在转型过程中如何利用大数据技术发掘数据真正的价值,是当前金融业打破传统局限、应对深刻变化的解决之道。

本篇案例为数据猿推出的大型“金融大数据主题策划”活动(查看详情)第一部分的系列案例/征文;感谢 日志易 的投递

作为整体活动的第二部分,2017年6月29日,由数据猿主办,互联网普惠金融研究院联合主办,上海金融行业信息协会、中国信息通信研究院、大数据发展促进委员会、上海大数据联盟、首席数据官联盟、中国大数据技术与应用联盟、上海张江发展战略研究院、人大人科创协办的《「数据猿·超声波」之金融科技·商业价值探索高峰论坛》还将在上海隆重举办【论坛详情】

在论坛现场,也将颁发“技术案例奖”、“应用案例奖”、“实践案例奖”、“优秀征文奖”四大类奖项

来源:数据猿丨投递:日志易

本文长度为6000字,建议阅读12分钟

两年前《政府工作报告》中指出,要“制定‘互联网+’行动计划”,“促进互联网金融健康发展”,标志着我国金融行业正面临着用互联网和新技术重构业务、管理与IT的重大变革窗口。

依托移动终端的普及和互联科技的飞速发展,金融行业也面临着与日俱增的海量日志,这既给传统金融行业带来了巨大的压力,又提供了广阔的发展空间,金融行业需要抓住机会技术升级、积极应变。在转型过程中如何利用大数据技术发掘数据真正的价值,是当前金融业打破传统局限、应对深刻变化的解决之道。

2016年我国基金行业总规模历史首次突破9万亿。随着宏观金融环境的优化和资本市场基础性制度的不断完善,为基金行业发展提供了良好的制度背景。作为支撑基金行业发展的基金业务系统(电商,直销,零钱,TA系统,柜台,支付,投研等)其重要性以及实时性要求日益剧增,尤其是业务系统云化后之后,传统的ITOM手段已经无法满足业务系统运维管理的需求,不少行业领头羊纷纷进入ITOA领域,利用大数据技术,提高和保障业务系统的可用性,并进一步挖掘运维数据的价值。

而作为ITOA重要数据之一的机器数据,贯穿着整个基金业务系统的各处理环节,通过对业务系统各环节机器数据的分析,可以快速协助运维人员尽快故障定位,还能实时发现业务系统异常告警,同时还可以统计业务量,业务时延,业务成功率等指标,已经成为基金行业ITOA必备手段。

周期/节奏

2016年3月初,日志易接洽鹏华基金,进行客户需求调研及可行性方案研究,4月下旬开始部署测试日志易日志管理平台,5月份进入招标阶段,最终在8月正式签下合同。

客户名称/所属分类

鹏华基金/大数据技术服务

任务/目标

客户提出建立一个日志管理统一平台,该平台首先应满足2017年6月1日即将正式实施的《中华人民共和国网络安全法》相关要求。即在日志存储方面可以对用户敏感数据进行脱敏处理;对数据进行不少于6个月备份管理;同时可以还原指定时间范围的应用日志,并提供查询功能,满足监管部门取证要求。

同时使用日志管理平台能对各类型日志进行准实时检索分析,如针对网络设备、安全设备日志,实现自动安全巡检,攻击溯源以及攻击预警,发现传统安全设备没有发现或阻断的安全威胁。通过用户行为日志实现对内网各环节的用户行为进行安全行为审计,对业务日志分析进行业务逻辑告警以及用户行为分析、数据挖掘等等。

挑战

在互联网时代,各种各样的行为都会被以“日志”形态记录存储下来,这些日志数据包括了用户的基本信息、网络浏览行为、交易行为、社交行为等等。在基金行业,面对每天交易所产生的海量数据,以及各种服务器、防火墙所产生的日志,如何在大体量数据中挖掘有效信息加以利用是一个重大难题。

日志分散难以管理

日志产生于不同的业务部门、分布在不同的服务器上,无人重视随时可能被覆盖和删除,缺乏日志管理机制。只有将这些分散的日志数据统收集、才能相互对照,发现问题所在。以投资银行为例,传统模式下,交易部门和研究部门的数据是相互独立,甚至数据的储存格式都不同,由此形成一个个信息孤岛,造成不同系统间关联分析困难、事故原因分析困难。

缺乏海量日志处理能力

数据体量大所带来的问题不仅仅是存储,更多的是庞大的数据无法使用。作为成熟的金融行业,随着网上支付、手机银行、互联网金融等新一代业务的出现,每天产生的各种业务数据、网络设备数据及防火墙数据等将轻松突破TB级别,传统的数据库及系统架构已经无法支撑如此庞大的数据量,传统方法处理效率低、时延长,企业完全淹没在一片数据汪洋之中。

日志格式复杂难以解读

就日志数据来说,最容易处理的是企业内部的传统数据——结构化数据。然而随着信息技术的飞速发展,日志数据的范围已经扩大到企业的各个层面,服务器、各种网络设备及五花八门的应用软件产生了多种多样的数据格式。这些数据的可读性很差,对于普通人来说无异于乱码,即便是专业的技术人员,也很难一眼看懂一条数据。

使用成本高昂

作为电子货币与交易信息传输系统,一旦出现账户盗用、虚假信息等现象,将既影响到国家金融与个人经济利益,又涉及到交易隐私的安全性,同时还增加了金融风险的传导与扩散危险,面对海量日志带来的运维难题,无论是购买国外最先进的产品还是聘请专业的技术团队对企业来说都是一笔不小的开支,需要花费大量的人力物力。

实施过程/解决方案

作为2014年3月成立的国内首家海量日志分析企业,优特捷信息技术有限公司一直致力于开发一款易用、灵活而强大的日志管理工具——日志易,以高品质的产品为金融行业用户信息化建设搭建高可靠动力平台,竭力探寻金融行业对数据更深层次的需求,帮助企业降低业务流程和应用系统的开发和运维成本,实现准实时处理海量日志,从而达到大数据时代的风险管控需求。目前日志易已成功为国内银行、基金、支付行业等诸多商业用户提供日志解决方案。

日志易为客户提供的解决方案如下:

统一采集,集中管理

日志易为企业建立统一日志管理平台,将分散的日志统一采集,整个系统由多个模块构成,用户可以根据自身服务器资源、数据量、系统稳定性等因素自定义各个模块的节点组成,同时支持物理机和虚拟机混合部署,保证数据安全性。

在鹏华基金的项目中,日志易提供直观的web界面对日志采集源进行管理,用户可以直接从页面添加需要采集的日志目录及文件:

点击具体IP地址,工程师可以看到日志采集agent对相应目录下日志文件的采集情况,方便管理,彻底解决了日志分散的问题:

同时日志易实现日志全生命周期管理,支持配置不同appname生命周期,支持索引定期备份,支持界面化日志恢复。

日志解析,让日志格式化

日志易提供常见日志格式的自动解析,将非格式化日志转化为格式化日志。同时为用户提供交互友好的提取字段功能。用户可使用鼠标划选日志内容,系统将自动生成正则表达式。帮助用户将日志中的有效信息划分为一个个字段,方便查看和检索。

日志易同时支持在数据接入存储之后,根据搜索统计需求,提取临时字段。并以这些临时字段进行后续统计分析。解决了数据预先处理的性能损耗、冗余字段的磁盘占用、提取规则变动时的重建处理等诸多常见问题。

在鹏华基金项目中,企业拥有多种日志格式需要统一处理日志易详细了解该基金公司需求,搭建日志管理平台,将各类日志统一收集:

日志易对Apache、Linux、JSON等常见格式日志自动解析,同时也提供自定义日志解析功能:对于一条超过1k的复杂的日志,日志易可对其进行多行合并处理并提供多种自定义解析方法,同时支持对日志进行中文转换等处理,使日志内容更易读。

例如该公司的原始金证系统日志,日志内容复杂,结构混乱,可读性极差,通过多行日志合并,正则匹配等方式完成重要字段抽取解析。

解析前:

解析后:

敏感信息过滤

针对基金行业涉及的敏感信息,日志易提供灵活的脱敏处理,用户可以将日志信息中的敏感信息在集中采集时进行替换:

利用字段提取-内容替换功能,用户可自定义设置敏感信息替换,例如:

将日志信息中的卡号信息(15~19位数字)和身份证信息(15或18位数字,末尾可能为X),使用正则匹配将账户信息替换为:$1#######$2

完善的权限体系

作为一个安全可靠的日志管理平台,日志易同时也提供完善的权限管理体系,用户可建立日志分组及用户分组进行权限划分,同时针对敏感信息提供灵活的脱敏服务保障客户的数据安全。

日志准实时检索,快速定位目标日志

日志易日志处理速度达到500万/秒,总字节可达到100TB/天。日志易支持全文索引,用户无需掌握复杂的查询语句,可以像使用搜索引擎一样查询日志,通过鼠标点击实现字段过滤、时间范围选择和简单查询。系统采用分布式数据处理技术,可达到秒级延时。

通过日志搜索界面,日志易将所有日志集中展现,用户只需点击相应日志类型,即可筛选出特定日志格式。

同时用户利用日志易可对日志进行准实时检索,在鹏华基金案例中,269万条10G日志可在5秒钟返回搜素结果,帮助用户快速定位问题日志:

关联分析,探寻日志真相

模块化、服务化的业务系统,需要进行跨主机、跨网络的事务追踪和故障定位。日志易支持搜索处理语言(Search Processing Language, SPL),提供 stats、eval、where、等20多项管道指令, max、min、avg、sum、dc、es、hg、pct、pct_ranks 等20多项统计函数,if-else、case、+-*%等逻辑计算。日志易提供 transaction 搜索和可自定义的关联事务查询界面。让用户快速直观的定位复杂网络和业务架构下的异常事务。

关联分析——海量数据中快速定位问题

通过日志易多维度搜索查询页面,用户通过关键字查询即可快速过滤出目标日志,例如根据中间件客户请求ip,请求路径、状态码搜索出对应访问日志。日志易同时支持搜索处理语言(SPL,Search Processing Language)进行复杂统计及关联分析。

例如对比防火墙、路由器产生日志趋势,使用以下语句:

* | bucket timestamp span = 1h as ts | stats count(appname) as count_ by ts,hostname

可以看到ASA防火墙日志量相对较大,会有波峰波谷,路由器发出日志量较少,其中一台仅在4月22日14:00左右发出一条日志

关联分析——深度分析挖掘

在实际业务分析中,用户利用关联分析可将不同来源的日志中的相关内容进行聚合,再进行统计分析。

例如金证用户操作频度分布分析中,用户希望统计赎回、开户、查询、申购的占比,但日志内容中不会有这些字段,只会出现实时清算完成、赎回清算完成、余额查询完成等相应信息。利用日志易的高级SPL语法,对相应内容进行聚合转换后再统计。

则该语句分析结果如下:

通过选择饼状图生成可视化效果:

丰富的可视化

日志易对日志的分析统计结果提供了丰富多样的可视化效果,并支持用户将不同纬度的可视化效果汇聚成仪表盘,日志情况一目了然。

建立强大的告警体系——防患于未然

日志易具备强大的日志告警功能,改变过去只能事后追查的被动运维方式。用户可以通过统计分析,对日志分析结果进行告警,例如分时段交易监控告警功能,当交易量低于阀值时实时告警,运维人员将及时发现异常,第一时间进行处理。

建立告警列表如下:

用户可以针对日志内容设定告警条件,例如针对网络CC攻击告警,首先需要在日志中找出正在遭受CC攻击的IP地址,即对在一定时间范围相同源IP发生的请求事件次数进行统计;

建立搜索语句,统计IP地址请求事件:

appname:access_log | stats count(appname) as count_ by apache.clientip|sort by c

可以看出请求次数最多的几个IP统计信息,在该搜索基础上建立告警:

结果/效果总结

当前阶段,大数据智能运维帮助传统运维进入新阶段,极大地提高了金融行业运维工作的效率,降低了运维工作的难度,改变了过去人工为主,依赖经验的运维模式。尤其在新兴的互联网金融领域,大数据智能运维更是发挥了重要的作用。

极大提高运维效率

传统运维技术需要大量人工操作,通常排查一个问题需要花费一个有经验的运维技术人员数小时精力,而依靠大数据日志分析运维技术,可以实现实时检索,定制化告警达到秒级延时。同时建立提前预警、事中告警、事后定位三环连动告警机制。

这样就可以满足消费金融场景中,夜间快速运维工作的要求,减轻了工作人员的压力,也极大提升了用户体验。

贯穿整个核心交易系统,实现可视化

大数据日志分析技术改变了传统的数据使用模式,基于多种维度统计用户的访问习惯,用户的终端类型、访问时间、地理区域及运营商接入情况可以将互联网、金融机构、线下零售与社交、运营商等多维数据源相结合,对用户行为进行全方位画像,覆盖的维度广,并可将数据可视化,让企业更了解用户,有助于实现精准营销。

业务日志分析IT架构:

日志易同时配备了丰富的可视化及定时报表功能,内置IP地址库。改变过去古板的统计报表模式,用户可自定义仪表盘,实时展示各种分析图形,数据情况一目了然:

同时日志易提供灵活的动态报表,支持用户自定义组建报表内容,自动生成日报、周报。

合规审计

利用大数据日志分析技术进行合规审计,可帮助企业灵活应对上级主管部门的合规性要求,将合规性管理工作由无序变有序,适时呈现企业的合规状态:

通过在业务主机上安装轻量级的Agent,将业务日志实时的送到日志中心,真实的还原业务的访问过程,精准的分析业务流程的时延。精准的识别基于业务逻辑的攻击行为,对不符合业务流程的访问行为进行提取。为工作人员提供清晰的可视化的业务分析报表和业务攻击告警。同时满足审计记录的规范化的需求,由于全网设备种类繁多,各设备日志信息存储格 式、字段含义、通信协议差异较大。需要对采集到的各种设备日志进行归一化处理,提取审计记录完整信息,为后续审计分析提供依据。

防止内外部的安全威胁

采用大数据日志搜索分析技术,数据具有高安全性 :用户行为的每条日志,都会被记录;任意磁盘顺坏、机器宕机情况下,数据自动复制修复。

稳定服务:进程crash、机器宕机数据自动迁移;可以进行水平扩展,用户可以按需动态增加节点数来增加吞吐。

企业介绍:

日志易,北京优特捷信息技术有限公司是一家从事海量日志实时采集、搜索、分析、可视化研发的大数据公司,公司成立于2014年3月,总部位于北京,同时在上海、广州、深圳、南京、成都等地均设有分支机构,服务覆盖全国。

公司崇尚敏捷开放的互联网文化,研发团队拥有来自BAT的顶尖研发人才,在实时检索、日志分析、云计算、数据中心运维等领域拥有丰富的实战经验,掌握核心技术、目前已申请12项日志搜索分析方面的技术发明专利。

团队致力于将日志分析产品打造得像Google搜索引擎一样强大、灵活而易用,从而实现对日志的集中管理。日志易聚焦于用户的核心需求,提供实时搜索、关联分析、监控告警、多维统计和数据可视化等功能,帮助企业进行运维监控、安全合规审计及业务数据挖掘。目前日志易提供企业部署版和SaaS服务,同时提供面向金融、运营商、电力、互联网等行业的日志分析解决方案。

目前日志易已在阿里云、腾讯云、金山云等公有云上线,并拥有中国银行、华夏银行、东吴证券、中国移动、国家电网、小米、上汽通用等5000多用户,遍布金融、能源、运营商、互联网等各行各业。

公司于2014年3月获得真格基金等投资者1400万元天使投资;于2015年12月获得红杉资本中国基金6000万元A轮投资,于2016年入选中关村前沿企业。公司成立以来在海量日志搜索分析方向不断努力,曾荣获2014年中国大数据技术大会“全国大数据创新项目”第一名,入选微软创投加速器第六期,入选2015大数据生态系统百强(BigData100),荣获2015年度中国软件和信息服务大数据领域最佳产品奖,以及2015-2016年度大数据优秀解决方案奖。并于2016年获得公安部颁发的国家信息安全等级保护三级认证。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-06-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据猿 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档