对话蚂蚁金服 | TechFin趋势下如何应对超大规模实时分布式关系网络

大数据文摘作品,转载要求见文末

大数据文摘记者 宁云州

在大数据应用场景中,互联网金融一直是一个诱人但危机四伏的领域:实时性高、交易量大、风险性高。而像蚂蚁金服这样一家用户量过6亿的互联网金融机构,更是需要面对“百亿个节点万亿条边的超大规模,并且实时更新的关系图进行高并发低延时的读写”。

“金融的业务场景对于实时性的要求都很高,比如说在转账的时候,我们几乎需要在这一瞬间判断这一笔转账是不是有风险,要求响应速度非常的高,才能把钱在一秒之中转出去。”蚂蚁金服首席数据架构师俞本权这样告诉大数据文摘记者,“但在这个过程中除了风险控制之外,还有很多其他的操作,真正留给风控来检查的时间大概也就两百毫秒左右,在这两百毫秒内我们要做规则的判断、数据及其特征的提取及最终判断这笔转账的风险,所以每一个毫秒我们都要尽力争取。”

7月13日至15日,全球数据盛会Strata Data Conference展会在北京召开。蚂蚁金服首席数据架构师俞本权发表了题为《GeaBase 蚂蚁金服超大规模实时图数据库》的演讲,系统介绍了GeaBase的技术细节和应用范例。演讲结束后,他接受了大数据文摘的独家采访,对GeaBase本身的特点及其支撑的业务场景特性做了深入解读。

应对超大规模复杂关系网络:蚂蚁金服的尝试

“在金融场景中,数据在本质上的组织方式很多是以‘图’的关系图谱的方式存在的。” 俞本权说。

“我们人之间互相转账会形成资金关系网,设备是否连接在同一个wifi中,是否经常出现在同一个地点中(可能是同一家庭的设备),支付的账号和设备之间,银行卡之间都构成了关系网”,俞本权接着补充道:“对于这样本身具有网络关系的数据,其实用传统的关系型数据库或者一些开源的图数据库也能够进行存储和计算,但当规模扩大之后,我们就必须使用一个满足超大规模复杂关系网络在线上环境中高并发低延时的读写需求的图数据库来支撑业务的实施”。

而为天猫、支付宝业务提供金融技术支持的蚂蚁金服,其关系网络的规模和复杂性又有多高呢?

2016年,双十一当天创造了10亿的交易笔数和1207亿的交易额,订单处理达到了12万笔/秒,而且这每秒钟十几万的支付操作对于系统的压力不仅仅是十几万次交互,最后落到系统上的压力,大概是每秒100万次交互,面对这样的数据量还要实现高并发低延时,传统的数据库是完全无法应对的。

为应对这种独特的业务需求,蚂蚁金服从2015年开始研发GeaBase(Graph Exploration and Analytics Database)并逐渐投入使用。

如何在百亿个节点万亿条边的超大规模的实时图上实现高并发低延时的读写需求

“金融的业务场景中很多操作对于实时性的要求都很高,比如说在转账的时候,我们几乎需要在这一瞬间判断这一笔转账是不是有风险,要求响应速度非常的高,才能把钱在一秒之中转出去,但在这个过程中除了风险控制之外,还有很多其他的操作,真正留给风控来检查的时间大概也就两百毫秒左右,在这两百毫秒内我们要做规则的判断、数据及其特征的提取及最终判断这笔转账的风险,所以每一个毫秒我们都要尽力争取”,俞本权接着说道:“我们现在的数据已经达到了百亿个节点,万亿条边的规模,而且在支付宝的这个应用场景里,支付的频度是非常快的,特别是当双11或双12这种大型促销的时候,QPS(Queries Per Second, 每秒查询率)在百万级别以上,我们支持高并发低延迟的业务需求,就是在这样的环境下产生的。”

由蚂蚁金服在Strata大会现场发布的测试数据来看,GeaBase在各方面的的性能达到了Titan(另一款图数据库)的四十倍到九十倍。

在GeaBase的设计和实施中,蚂蚁金服采用了多种措施来提升数据库的性能。

在存储层,使用一致性哈希算法把数据的ID映射到虚拟节点上,再把虚拟节点映射到物理机上。

而在服务层上,整个GeaBase分为存储层和计算层,GeaBase的功能主要通过计算层当中的各种模块实现。

在执行层上,使用异步执行引擎、优化通信等方法来提升性能。

另外,GeaBase还引入了多集群和多方位的监控体系来保证整个系统的高可用性。

GeaBase两大典型应用:风险、诈骗识别与好友推荐

“图数据的最典型应用之一就是进行风险识别和诈骗识别,比如在资金关系网络中,如果我们发现资金的流动形成一个闭环,这就很可能是一个洗钱行为的讯号。”俞本权说道。

在蚂蚁金服的特殊应用场景下,图数据库还有很多其他有趣的应用,比较典型的是对用户行为可信度的衡量。

“当你的手机出现在不该出现的地方,登录在陌生的设备上或者以前发生过欺诈行为的设备上时,我们就将对这个账户的风险做出控制。”俞本权称。

比如当一个用户在一个设备上进行登陆的时候,蚂蚁金服需要判断这次登陆是不是有风险,如果有风险,就会发送验证码或者问用户一些挑战性的问题来验证这是否是用户本人的操作。

“当然,这样的验证过程对用户是有打扰的,我们也希望减少这样的打扰。举个例子来说,当你进行转账的时候,你可能会借用你家人的设备来进行登陆,当我们要判断这样的交易是否有风险的时候,就需要应用到背后复杂的关系网络,比如当你经常使用的设备和你现在使用的这台设备经常连接在同一个wifi下,或者这两台设备晚上经常处于相同的地点时,我们就基本可以肯定这是你家人的设备,那么这次交易的可信度就会比较高”, 俞本权接着补充道:“而如果你的账号被骗子盗取,他是在一个全新的设备上登陆这个账号,或者他在自己的设备上登陆,这个设备很有可能在我们的黑名单中有记录,这次交易的可信度就比较低”

基于GeaBase的另外一个典型应用是推荐算法,在蚂蚁金服堪称漫长的产品线中,无论是好友推荐、内容推荐还是商品推荐都能找到其用武之地。在Strata大会的演讲现场,蚂蚁金服基础技术部图计算及存储技术团队负责人叶小萌介绍了一种基于GeaBase的好友推荐算法。这种算法从GeaBase中提取用户的社交网络关系,并计算一个用户的朋友的集合(F)与其朋友的朋友的朋友的集合(FOFOF)的交集,并选择交集内元素多的好友推荐给用户。

事实上,蚂蚁金服使用基于GeaBase的推荐算法的领域并不局限于社交网络,在咨询推荐,理财产品推荐,征信评价(芝麻信用分)等业务场景中,图数据都得到了大量的应用。

“这些应用其实具有很强的相似性,落在系统底层对于数据库的要求就是要实现超大规模数据下的高并发和低延时,以及系统架构能够实现线性拓展”,俞本权总结道。

本文部分内容来自全球数据盛会Strata Data Conference大会上蚂蚁金服首席数据架构师俞本权14日下午的演讲《GeaBase 蚂蚁金服超大规模实时图数据库》。

关于转载 如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 | bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:zz@bigdatadigest.cn。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2017-07-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏java一日一条

助力程序员成功的几个好习惯

老实说,如果你google搜索“程序员的好习惯”这方面的内容,那么就会有很多大同小异的文章映入你的眼帘。

8730
来自专栏SDNLAB

OpenFlow使用场景总结

OpenFlow根本的创新点就是定义了一套SDN环境下的通信协议, 使得SDN控制器能够与数据转发层的网络设备(如交换机, 路由器)进行交互, 无论是物理设备还...

35270
来自专栏程序人生

Tubi 为什么?

在一段旅程行将结束的时候,retrospective 是最好的临别礼物。Tubi 是一家独特的 startup,站在外人的角度,你很难想象这样一家不到三十个工程...

23100
来自专栏java一日一条

助力程序员成功的几个好习惯

老实说,如果你google搜索“程序员的好习惯”这方面的内容,那么就会有很多大同小异的文章映入你的眼帘。

9030
来自专栏非著名程序员

Java程序员月薪达到三万,需要技术水平达到什么程度?

18950
来自专栏杨建荣的学习笔记

吐槽一些技术想法和事情(r7笔记第43天)

最近其实已经琢磨了不少的事情,有时候恨不得是十分钟干九件事情,但是我还是有些不满意,因为我似乎很多事情没有按照计划来做。所以我要吐槽一下。 先来吐槽软文 最近在...

36490
来自专栏腾讯研究院的专栏

网络新纪元

2.jpg 推荐语: 有个段子说,做互联网的人谈论大数据,就像青少年谈论性——人人都在兴奋地说,人人都不知道怎么做。看了这篇文章,您还是不知道怎么做...

210100
来自专栏Java学习网

助力程序员成功的几个好习惯

老实说,如果你google搜索“程序员的好习惯”这方面的内容,那么就会有很多大同小异的文章映入你的眼帘。 但是今天我想从一个略有不同的角度来探讨这个主题。不是关...

35460
来自专栏人才中心

一表人才,一个HR常用的简历管理系统

  作为 HR,最头疼的是重复简历了,有的候选人可能会通过多种渠道投递简历。尤其在校招旺季,面对海量简历,筛选去重就要花去小半天的时间。而使用一表人才,在你导入...

58150
来自专栏云计算D1net

云计算决策指南:解析医疗的7大解决方案

为了帮助你计划,这份云计算买家指南着眼于四大IaaS供应商:亚马逊、微软、谷歌和IBM。一份来自协同作用调查组织(Synergy Research Group)...

46990

扫码关注云+社区

领取腾讯云代金券