中国建设银行信息技术管理部资深经理林磊明
▼
▼
从十二五走到十三五期间,银行业面临的各方面的压力越来越大,从我们的年报数字可以看出去年四大行的利润增长基本上趋近于零增长。在这样的情况下,我们怎样通过IT的引领提升传统银行的竞争力,这是摆在我们面前的一个很重要的课题。
大数据怎么样能够在智慧银行的方向上起到更大的作用呢?
通过银行的历程佐证这样一个观点。过去十多年期间银行基本上有两个拐点,
这几年银行三大互联网渠道已经建立:
手机银行,已达到1.8亿多 网上银行,我们有2亿 微信银行,它占的客服服务总量已经超过了传统的客户服务
这意味着我们的渠道、我们场景化的实践已经见到了效果,另外我们做大数据要具备的基础已经存在。
谈大数据,对传统银行来讲,要解决3大问题
怎么样提升对于客户的识别? 怎么样对于客户的营销? 怎么样提升对于风险的防范?
所以,无论是用传统的结构化的数据,还是用现在互联网形态下面非结构化的数据,要解决的问题都是这些,只不过我们现在有了更丰富的数据源,有了更好的对于数据处理的方法。
目前,建设银行已经成立了上海大数据分析中心,这不属于技术部门,属于信息管理部门。
从设计目标有这几条:
我们的大数据平台取得了一些成果:
刚才我提到了场景化,我们希望能够把金融数据的服务将来标准化和平台化,平台化之后能够在基础的大数据能力、基础数据的提供甚至一些分析数据的提供,基础应用,客户花香、征信评级的监测,为无论是内部的客户还是外部的客户提供更好的大数据技术,这是从技术方面来看大数据下一步做的工作。
中国工商银行
中国工商银行软件开发中心信息科技专家王晓平
▼
▼
如何处理数据量的快速增长?首先全行的数据量的快速增长,包括我们现在工行每天的交易量,外部互联网金融,工行的三大互联网平台造成用户的交易数据和行为数据有大幅的增长。 如何快速智能分析历史数据? 工行从2000年开始建立数据仓库以来,拥有了庞大的历史数据资产,在新的环境下怎么能够快速地智能分析,对我们提出了更高的挑战。 如何使用内外数据,描述客户特征?在数据源方面,除了本单位数据,也需要采纳外部的数据来配合进行分析。工行已经引入了征信数据、税务数据等,怎么做到比较全的数据去描绘我行的客户特征,这是作为我们的一个新的课题。
工行整个的战略思路是通过我们行的两库一司的建设来完善大数据体系。
工行大数据的发展历程可以分几个阶段,从TB级已经进入了PB级的建设阶段,接下去在可预见的几年内会进入EB级的庞大体量。
最早工行是2000年初,那个时候大数据的领域更多的还是应用在一些报表的快速展现,所以那个时候我们是基于比较传统的Oracle和SaaS,做了T+1的动态报表,行领导和管理层能够在第二天上班前看到我们行昨天的经营数据,这是最早建立的。 2007年工行基于当时最先进的企业级的数据仓库的体系架构启动了工行的企业级数据体系的建设,做了全行统一的管理数据的大集中。 2010年基于我们的数据仓库的数据支持,我们推出了工行的MOVA管理会计系统,做了全行绩效考核的管理系统。 2013年随着外部形势的发展,大量数据爆发式的出现,我们引进了大数据领域在业界最流行的Hadoop技术,在Hadoop基础上搭建了信息库,发展是非常快的。 2014年工行基于大数据,原来的大数据采用连机异部批量的方式,通过文件存储的方式,不管是数据仓库还是信息库,在时效上相对来说比较慢,所以自主研发了一个流数据平台,能够提供实时或者准实时的流数据处理。 2015年下半年和今年正在推动分布式数据库的落地工作,会和企业级数据仓库做一个互补。这是大数据的主要技术演进。
在大数据平台上,我们可以把它抽象成如下几层:
第一层是数据采集,统一针对外部和内部的数据进行相关的数据收集,包括日志信息、行为信息和业务信息。 再上面一层计算层,是我们不单单提供了传统数据仓库的批量计算的能力,也通过一些流数据的技术提供了实时的计算能力。 再上面一层应用层,抽象了大数据相关的应用,包括用户可以自定义的查询功能。通过这些信息的服务,把这些服务抽象到我们的业务系统中,通过我们的管理会计系统,通过分析师平台、风险系统、营销系统,为我们在数据的运营、风险控制和营销方面都提供相关的支持,这就是主要的大数据分层体系。
从大数据的起源开始,数据仓库到目前的大数据新形势下,数据仓库已经在做非常大的升级换代和变化。2014年工行从高成本封闭的专业系统(如:Teradata),开始向高性价比、通用设备和开放技术的系统转变。
转型有两个原因:
另外我们在研究也会尽快落地的分布数据库,会基于开源的底层架构,基于普通的PC服务器完成数据仓库体系的扩充。后续在大数据的处理加工方面会基于分布数据库进行处理。
从目前的分析角度来看,Teradata会保留,着重在高端的分析师分析挖掘的探索性的工作方面。后续工行的大数据体系会采用多种技术路线、多种技术平台共存的方式。
非结构化数据信息库的建设情况,建行已经介绍了,工行也有点像。信息库的建设原则,因为非结构化的数据的量是非常大的,所以我们的原则是信息库建设没有把非结构化建设进行物理存储的集中,我们只是通过统一的搜索引擎让用户能够快速地搜索找到他需要的非结构化的信息。
工行在大数据应用方面主要侧重在风险方面。
工行通过大数据在事前、事中、事后三个环节的运用进行风险的柔性控制。简单地举一个例子,事前,比如银行卡的授信过程中,或者信贷要进行发放做净值调查中,数据能给它一个支撑。事中,比如银行卡最近比较多地发生盗刷行为,我们可以在事中通过大数据的方式发现银行卡的盗刷行为。事后,可以根据事后的交易或者发生的事件进行相关的分析,分析我们后续在业务的拓展或者风险控制方面有哪些需要进一步改进或者补救的工作。
这里举了几个简单的案例。非常好的大数据的应用场景,
第一,交易反欺诈,需要利用大数据流数据的技术,用户在做交易的过程中采用主机旁路技术,交易没有完成之前通过大数据在内存中进行一个判断。 第二,大数据怎么运用模型,通过比较好的用户特征的总结和模型做一个监控。通过标签信息,比如我们定义了两个标签,一个是用户开户的地区比较广泛,另一个他持有比较多的借记卡,我们可以认为他涉嫌倒卖银行卡的嫌疑,我们通过大数据的计算可以把这些人员抓出来,可以进行后续的业务处理和防空。这也是大数据应用的比较好的方面。 第三,现在各个银行业碰到的比较大的困境,信贷资产的质量问题。工行持续在推动运用大数据驱防控信贷风险,工行成立了信贷防控中心,运用大数据技术在进行相关的防控。
中国农业银行
中国农业银行软件开发中心的专家赵维平
▼
▼
我们在2003年初开始搞大数据,当时有很多困惑,首先感觉到大数据到来了,现在各个行业,中央台什么东西都用大数据说话,我们在银行业我们能做什么呢?
早期在十几年前我们大家做数据仓库的时候,大家可能选择面都很窄,四大行除了我们没用TD其他都是用TD做的数据仓库。我们当时某系统也很痛苦,计算资源可以扩,但IO能力就在那里。当时觉得列存储带来很大的优势,处理通用的数据量减少了很多IO。平台选用什么?还用传统的吗?新型的怎么样?
金融在有些技术的选择上还是相对比较保守的,我们不会用最新的技术,不会用最新的版本,这也因为金融工委和国家人民银行对于我们的连续服务要求特别高,一旦出了事情领导交不了差。
在自主可控上,基础硬件、基础软件、数据模型、工具平台和制度管理都是自主可控的。
硬件方面,采用华为的RH2288系列,2C、docore、256内存、12 4T硬盘,不同时期买的硬盘的容量是不一样的,后来是4T,之前是3T。 基础软件方面,我们引进了国产的南大通用做的MPP架构数据库,我们在原形试运行阶段从2013年圆形环境开始投产,采用28个数据节点,2014年3月份把它扩到56个节点。非结构化,结构化的数据上游生产数据基本都是放在MPV架构数据库里,使用起来技术上更流畅,效率更好。Hadoop方面,非结构方面目前使用的是CDH开源版,大概有100个左右的Datanode。 数据模型方面,我们结合先进的建模理论,我们融合了范式和维度的思路。我们在主库核心层面基本是范式建模减少重复。维度方面由业务驱动的方式建立维度模型为主。 基础的工具方面,大家知道有ETL、批量调度、源数据的管理,这些东西都是我们自主开发的。我们制定了一套比较完备的规范、制度、方法、标准。
这是我们整体的逻辑架构图,
这是硬件的环境,
通过6个方面对大数据平台的数据进行了全生命周期的管理,包括建模、验证、清理、准入、数据地图和一些规范。
我们在大数据的建设中充分体现了数据的价值:
中国银行
中国银行总行软件中心上海分中心副总经理牛晓峰
▼
▼
2015年下半年将近年底,Ganner对这1000多家企业和机构做了另外一次调查,大数据项目成功上马的不到9%,为什么?Ganner对他们没有成功做了原因的分析,其中比较重要的几条是这样的。
排在第一位的是无法挖掘出数据的价值是什么, 第二位是企业或机构没有明确的大数据的战略目标和战略规划, 第三是缺乏核心技术, 第四是无法有效的整合数据资源, 第五是企业的内部无法对大数据的实施和规划达成共识。
总结了这样一些不太顺利的原因之后,我觉得有一个清晰的完整的系统性的战略规划,对中国银行以后大数据的建设的作用是非常巨大的。
中行的战略方向:
以平台为支撑构建大数据的技术体系 以数据为基础充分整合数据资源 以应用为驱动深入挖掘数据价值 以人才为核心提升数据分析能力
以平台为支撑构建大数据的技术体系。我们把大数据的技术体系分成战略层面、规划层面和设计及交付层面,在这里面最重要的是大数据的体系架构,分为业务架构、应用架构、信息架构和技术架构四个不同的架构,在这四个不同的架构里分别支撑我们的业务流程和端到端的场景及应用的组建及分析模块,最后是设计跟交付。
我们在实施的方面采用分行试点的模式,有很多的调查机构在对大企业实施大数据项目做了总结之后发现大数据的项目实施方法上分两个流派,一个流派是自顶向下的,上来规划很大的大叔据的东西,从地层往下逐渐延伸,累了大量的数据,在这里面做清洗分析,在这里面找规律,再看这个企业怎么从数据里得到什么样的东西。另一个流派是从底向上的,先看需要哪些东西,再对这些数据进行整合。我看了很多相关的实例之后,后一个方法在现阶段的效果会更明显,有了清晰的需求才会更准确的对位需求的产品。所以我们在大数据实施的策略上采取小步快跑、快速迭代、迅速试错的方式。
中银开放平台,2014年IDC金融的大奖,去年获得人民银行的奖,亚洲金融家组织把它评为今年最佳的金融云服务产品,这个产品是我们对大战略的落地实施的例子。这个产品的主要设计思路是我们把整个中国银行的大数据进行了归并整理之后,开发了1000多个标准的API接口,这些API接口可以用与我们的分行甚至我们的客户,在我们规划的未来里,可以通过这些API访问和使用中国银行的数据,用于加工得到自己想要的相关结果。
目前已经有很多分行利用这样的平台开发出了很多比较受欢迎的产品,大家如果有兴趣的话可以在苹果的APP Store或者安卓的平台下载这个产品看一下。
1、我们非常希望在合规的前提下充分利用银行外部的数据服务。因为银行或者金融企业的数据在深度上不是一般的互联网企业能够比拟的,如果我们金融行业跟其他的相关企业进行有效的数据交换,大家彼此利用对方的优势,就能够使我们这个数据得到更完美的使用。
2、以应用为驱动,深入挖掘数据价值。做大数据应用的场景产品。此外中国银行还推出来口碑贷、中银沃金融的服务,都是按照这个思路去进行我们产品的组合规划和设计。
3、精准地建设客户的营销平台,把线下的客户信息和线上的客户行为统一在一起,把结构化的数据和非结构化的数据有机地提炼并且整合,争取能够精确地描述客户的各项属性特征。