如何用社交数据做了微粒贷【腾讯工程师干货分享】

2015年5月15日,腾讯投资的微众银行上线第一款产品--“微粒贷”。该产品基于腾讯掌握的用户社交和交易信息计算用户信用分,进而筛选出预授信客户,并通过QQ钱包和微信两个渠道主动向目标客户推送。截至2016年11月末,“微粒贷”预授信客户数约5,000万,累计发放贷款总金额超1,600亿元,总笔数超2,000万笔。

在WOT”互联网+”时代大数据技术峰会上,来自腾讯数据挖掘高级工程师刘黎春做了以《社交数据在征信领域的应用探索》为主题的演讲,在该演讲中他透露了腾讯如何利用社交数据开发个人信用评分模型,并应用在微粒贷。

一、社交征信背景

国内征信发展历程

如果社交数据可以用到征信中的话,是不是可以对央行的征信系统做一个很好的补充呢?刘黎春表示,这是腾讯在做社交征信项目时最开始思考的问题。社交数据非常庞大,但并不一定都是有效数据,还要看具体应用的业务场景是不是和数据有相关性,这些数据是不是真的能够用到最后的模型或者算法中去。这样问题就接踵而来,社交数据与信用评级有关系吗? 交易数据天然具备金融属性,社交数据有吗? 社交数据非结构化程度高,怎么挖掘并有效使用?

二、腾讯社交网络数据

在谈腾讯社交网络数据构成之前,刘黎春先介绍了传统征信的分析维度:

其一是用户的基础信息,如年龄、性别、职业、收入、婚姻状况,工作年限,工作状况等基本上和每家银行或者每个做征信的机构获得的数据都差不多。

其二是信贷情况,看用户申请几张信用卡,最近一个月的征信报告被查询的次数,因为我们大家都知道征信报告被查询的次数可以直接代表最近有没有比较频繁地做贷款的申请或者信用卡申请。如果最近的次数特别多,那说明这个人最近非常缺钱,可能就会影响信用,直接影响授信额度。

上图是腾讯的数据现状,包含了很多维度的数据,覆盖的用户数相对来说更加全面一些。

腾讯社交征信SWOT分析

上图为腾讯社交征信SWOT分析,优势、劣势、机会、风险一目了然。有了这样详细的分析,做个人征信是必然的事情,但做征信之前要清楚的知道征信对象是什么样子,所以开始着手做个体用户画像的研究。

三、个体用户画像研究

刘黎春表示,做个体用户画像研究遇到的挑战主要有如下三方面:

其一,如何充分利用腾讯各种丰富的数据资源及之间的联系?

其二,如何使用户画像适应各种不同的应用场景?

其三,如何高效的处理海量的用户数据(超过10亿的QQ用户, 超过千亿级别的各类日志数据) ?

面对这些挑战,刘黎春给出来相应的解决方案如下:

1.针对不同的底层数据类型设计特定的挖掘算法,挖掘用户的行为特征,形成底层标签。综合考虑不同数据来源的,形成更上层的抽象用户标签

2.建立完善的用户画像标签体系结构,从不同维度、粒度对用户进行描述。

3.搭建用户画像挖掘系统,基于大规模存储和机器学习计算平台,定期对全量用户数据进行计算和挖掘,并提供用户标签的使用和查询服务。

用户画像系统架构

用户画像文本挖掘系统

用户画像-挖掘用户所在行业

用户画像挖掘结果

个人用户画像研究的结果就是把结构化数据,文本分类,LBS数据,社交网络传播扩散这些挖掘之后形成一个比较完整的画像,比如说人口的一些基础属性如年龄、家乡、兴趣等。同时也会对用户婚姻状况来做一个判断。有了这些数据之后,就可以基于这些用户数据去做很多社交征信工作。

四、社团圈子研究

这里说到的社团圈子其实就是QQ圈子,刘黎春表示,在2012年有一个社交网络的成果非常有影响力,那就是把挖掘出来的结果作用到整个前端的QQ用户。具体案例就是如用户的某个同事,你们并不是直接的好友关系,但腾讯会知道这期间的潜在关系,或自动分到同事分组并同时加上备注。这个结果在当时引起了很大争议有人觉得对于他们找到一些潜在好友提供便利,但有些人觉得触碰了他们的隐私。

QQ圈子除了它自己本身之外,也会把它作用到很多场其他景里去,比如说用它来挖掘学历的信息,基于QQ圈子好友的备注,如说很多人把这个用户备注成一个本科同学,那系统可能会判断我的学历是本科学历。这样的数据腾讯是拿一些真实的数据做过验证,数据覆盖率大概能覆盖74%,准确到90%以上。

社交网络拓扑的应用

社交网络拓扑的应用无外乎有两种,其一是是判断拓扑的类型,其二是研究这些类型在这个关系链里的影响力。比较有标志性的拓扑类型有三角形和心型两种结构。

五、模型建设及应用

那么要如何把个体用户画像和社团圈子的研究,用到模型中去呢?刘黎春表示,首先要做的事情就是先建立一个社交模型:

变量衍生与模型结果

从上图可以看出,在建模过程中腾讯构造了1,200个基础变量,在此基础上创造了1万个衍生变量;通过探索及IV分析确定了1,500个备选变量;通过训练,利用52个变量开发了9个中间模型;然后利用中间模型结果,使用逻辑回归方法(LR)构建了最终评级模型。

模型整体效果

从上图可以看出,模型的KS值达到34.1%,具有较好的区分能力。(注:在客户申请查看微粒贷额度时,腾讯要求客户签署征信查询电子授权协议,然后去查客户的人行征信报告,并将人行征信数据应用于评级模型,因此最终评级模型的KS值还会有显著提升。)

微粒贷应用

最后刘黎春介绍征信模型运用到微粒贷中的具体应用流程,上图为产品截图。打开QQ如果能够看到微粒贷入口,说明是在腾讯筛选出的白名单里面。只要你点击了申请开通,它会马上给你算一个额度出来,如果你要借款,这个也是非常快,只要你绑定了你的银行卡,应该在两分钟之内会把你的借款打到你的账上。其实这个相对于去传统银行借款的话,它这个效率是有一个质的飞跃。但其前台产品表现得越简单,它背后的技术可能是越复杂的技术。征信模型作为微粒贷背后技术就是为了筛选具有良好信用的用户,为这些用户提供贷款服务。

声明:本文系网络转载,版权归原作者所有。如涉及版权,请联系删除!

原文发布于微信公众号 - 智能算法(AI_Algorithm)

原文发表时间:2017-01-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

问答 | 如何看待某手机品牌语音助手无法识别机主语音,误解锁操作?

13310
来自专栏新智元

【开源之战】在搜集人类语音数据上,谷歌与火狐展开正面交锋

【新智元导读】巨头都在争相开源,那么彼此之间会不会形成竞争?近日,火狐浏览器的所有者 Mozilla 开源了一个语音数据库,与谷歌所做的数据库高度类似。这篇文章...

31030
来自专栏机器之心

资源 | Mozilla开源语音识别模型和世界第二大语音数据集

49480
来自专栏数据科学与人工智能

知识图谱的应用

导读 知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各...

1.3K80
来自专栏大数据文摘

学界 | 视频卡到天荒地老?MIT最新算法Pensieve让你观影畅通无阻

18420
来自专栏逸鹏说道

架构漫谈(四):如何做好架构之架构切分

前一篇已经讲了如何识别问题。在识别出是谁的问题之后,会发现,在大部分情况下,问题都迎刃而解,不需要做额外的动作。很多时候问题的产生都是因为沟通的误解,或者主观上...

29970

机器学习自学指南

你有许多方法和资源来学习机器学习:阅读书籍、学习课程、参加比赛和各种可用的工具。在这篇文章中,我想使这些活动更为体系化,并列出一个大致的顺序,以说明在普通程序员...

30480
来自专栏量子位

谷歌开源了量子算法框架CIRQ,拥抱NISQ新时代

NISQ,是嘈杂中型量子 (Noisy Intermediate-Scale Quantum) 的简称。

11730
来自专栏大数据文摘

职场 | 还在狂攒MOOC证书?用它们做简历C位可能是个错误!

失败的面试各有各的因果,但还是有一些共性问题可以让求职者以此为鉴,有些问题看上去不是那么致命,但是随着数据科学行业落地的日渐成熟,面试官对真正优秀数据科学家的甄...

14200
来自专栏大数据文摘

在Twitter“玩”数据科学是怎样一种体验

15830

扫码关注云+社区

领取腾讯云代金券