数尊CEO许正:大数据在金融风控领域的思考与探索

数据猿导读

当前传统信贷业务模式可归结为两类:资金驱动模式和场景驱动模式。而这两类模式现在必须要向第三类模式转型,也就是技术驱动模式。

作者 | 许正

我是数尊CEO许正,数尊在成立之初,定位是围绕金融风控领域进行大数据应用。今天我想要分享的主题就是“大数据在金融风控领域的思考与探索”。

首先,风控是依托于金融信贷场景的。说到信贷,大家会想到信用卡、个人住房贷款、银行的营业网点等,可能还会想到当我们要申请新业务的时候,必须填写的一些冗长的表格,这同时也是信贷给予我的印象。在十年前我拿着一张211、985大学毕业的硕士学历证明在某大行申请了我的第一张信用卡,等了半个月只申请到一千块钱的额度,这个事情使得我对个人传统信贷留下了非常深刻的印象。

传统信贷模式正在遭遇的一系列问题,我认为有以下四点:

1.技术问题。众所周知,我们整个信贷领域的征信体系仍不够完善。

2.效率问题。我们贷一笔贷款需要等待非常长的时间,客户体验相当不好。

3.产品问题。一直以来我们的传统信贷大多数集中在房贷、车贷上面。

4.市场问题。我们跟发达国家相比,贷款的渗透率还存在比较大的差异。

当前传统信贷业务模式可归结为两类:资金驱动模式和场景驱动模式。我认为这两类模式现在必须要向第三类模式转型,也就是技术驱动模式。

资金驱动模式以银行、消费金融公司为代表,重点体现在信用卡、个人消费贷款的业务上,具有资金成本低的特点,但是这种模式也存在一个很大的问题,就是效率低、体验差。

至于场景驱动,类似于今天的京东白条、蚂蚁花呗,还包括我上周出差的时候经过一片闹市区,是在电子商城附近,发现每个卖手机的门店都打着消费分期的标语,3C消费分期也是场景驱动的典型代表。他们的优势是获客成本极低,体验也相比资金驱动的模式要好一点。但是他们的问题在于整个体系的封闭性比较高,范围比较窄,扩展起来不是那么容易。

这两个模式要想有健康的发展,都或多或少需要向第三种模式转型,就是技术驱动模式。

关于技术驱动我们总结了一下它的本质:

1.从封闭到开放。我们都知道传统的金融是加引号的嫌贫爱富,服务的是金字塔相对顶端的高端客户。拿当初我申请信用卡的例子而言,其实不是银行不想给我放贷,因为它实在不知道许正这个人,就算是硕士毕业生又能如何,就值得给他一万、十万的贷款额度吗?银行做不到。技术驱动让客户的下沉成为可能,让金融信贷服务的客户从更封闭的客户群体转变到更开放的群体。

2.从粗放到精细。传统信贷的粗放体现在并没有基于客户风险的差异化定价和差异化服务,“好”客户的利率并没有更低、也没有享受更快捷或更便利的金融服务。技术驱动让这些差异化成为可能。

3.从产品为中心到客户为中心。各行各业在互联网时代都在提以客户为中心,但我们今天其实还在拿特定的产品去套客户,而不是给特定的客户提供特定的产品,这也是技术驱动模式下可以转变的。

技术驱动的含义包括以下几层:

第一层,数据是核心。数据已经成为金融业务的新边界。体现在三个方面:场景边界、群体边界、效率边界。也就是说如果我们有大量场景的数据、客户的数据,我们的金融服务就可以触及到场景和这些群体所在的地方,同时带给他们极致的客户体验和高度的流程融合。

第二层,深度学习已有必要条件,金融算法正在升级。这里有一张卷积神经网络之父的片子,想要表达的是卷积神经网络的方式区别于传统的方式,不需要做数据的清洗、特征变量的提取,就可以得到一个很好的模型结果。眼下很多金融科技公司都提到用一些这样的技术新方法去解决金融体系里面的效率和模型效能提升的问题。

第三层,催熟了人工智能,推动金融基础设施升级。近期大家如果有去过银行营业网点的话,可能会发现有一个类似于智能机器人的存在,在机器人的屏幕上可以完成人脸识别等信息的收集。事实上,现在各类实体或者虚拟的机器人,是可以取代一些偏助理性质的人力工作的。

下面讲讲技术驱动的坑:

第一个坑,孤岛数据的融合。首先强调的是我们是做风控的,不是做营销的。风控、营销的本质差异在哪里?营销可以管中窥豹,如果你在京东上面买了一本跟数学相关的书,那么我大概可以从这个行为判断出你是一个数学爱好者或者周围有数学爱好者。但是如果让我们仅仅通过这一个维度的数据,就判断你是一个好人,这可能很难,我们必须要收集你在每一个角落的数据,360度都是一个好人的时候才能说你是一个好人,所以对风控而言最大的挑战,就是不能像营销一样可以随心所欲地管中窥豹,必须要收集更可能全的数据才能洞悉一个人,才能给一个人下结论。

但是,这360度的数据,包括金融数据、消费数据、行为数据等等,从小数据到大数据、从静数据到动数据、从薄数据到厚数据,收集起来绝不是那么容易的。

第二个坑,杂而散乱的金融体系外的数据标准化。各数据的饱和度不一、精度不一、状态不一、标准不一,会是数据精确应用的障碍,这些问题我们需要通过建立一个可靠和有效的标准来处理。

第三个坑,对算法经济的盲目崇拜和错位应用。我们有没有想过一个问题,为什么在银行的风控领域,我们使用的算法一直以来都是以逻辑回归为主的传统算法?难道银行不知道人工智能、机器学习吗?在金融体系里面,包括巴塞尔在内的各种协议都要求变量的可解释以及透明,包括我去年在美国感触很深的一点就是,种族、性别、年龄虽然是很好的变量,但是不能用,因为这是对人的歧视。现在金融体系只能停留在利用传统的逻辑回归加机器学习而形成的整合式应用的方法。

再有一点,反欺诈有其相对应的模型,A卡、B卡也有对应的模型。我们会看到有一些公司说我的模型效果很好,Ks超高,但那又如何,场景不一样、客群不一样。所以不要在这个领域里面对新鲜的算法盲目崇拜甚至直接移植,还需要更多的从业者一起去探索和再创新。

讲了这么多,大家可能会觉得我们这行没有前途。但是有一句话讲得好,金融的本质是风控。我刚才开头讲的传统信贷一系列的困境,都需要风控来解决,谁在今天陪着金融机构一起把技术转型做好,谁就是最后的赢家,未来伟大的金融机构必定是技术驱动的。

前面讲的是我们对于该领域的思考,后面则是我们的探索。基于思考我们把数尊定位为一家第三方大数据智能风控服务提供商。

以下是我们的产品和价值体系:

顶层我们定义为是一个DAAS,以决策为服务。这怎么理解呢?可能有人会说,你给我一个身份证号,我给你一个风险评价,这算是一个决策服务吗?我认为不全是。因为我们每一个场景、每一个客群、每一个具体的细分的问题是不一样的,所以我们需要“决策即服务”有很强的定制性。这靠什么支撑呢?靠基础来支撑,像我们的数尊宝、数据连、数尊塔。数尊宝是为了整合外部的数据,数据连是为了定义数据标准,而数尊塔则是为了把基于数据的规则、模型沉淀下来,以这三块为基础构成了我们完整的DAAS服务的构架。

这个DAAS服务是以数据、模型为基础的决策服务。开放性数据的输入,包括订单数据、申请行为的数据,以及外部各式各样的征信数据,这些在市场上面都能够找到。通过API接口的方式,在决策系统里面运转,包括策略集、规则、决策流,最终API接口输出的是用户差异化的体验流和差异化的风控结果。

DAAS是靠什么承载的呢?

这是我们系统的界面,重点展示的是我们可以便捷配置的决策流,不同场景、客群对于决策流的需求是不同的。不管左边输入什么数据,中间处理的决策流有自己针对这个场景特色化的考虑,最终能够生成针对性的结果。

DAAS里面的规则、模型从哪里来?

举一个简单的单变量的规则,也是大量金融机构都在用的变量,即在网时长的变量。这个变量虽然简单,效果却非常好,区分度很高,很多机构都将它直接作为硬性拒绝规则的标准。

里面难道都是简单的单变量吗?不是的,也会有一些评分卡,比如我们与某客户联合建模生成了一个Ks为0.41的模型。大家注意下这个0.41,它只是在某一个单一数据源建模生成的,它不会很高,但已经是相对珍贵了。这样的评分卡也是承载在上一张片提到的决策流里面。

DAAS的未来在哪里?

1.面向多信贷场景风控方案的知识库。我们希望不断积累,有能力为各类客群、场景、产品提供包括规则、模型、决策流、决策集在内的稳健的整体风控解决方案。

2.智能引导个体借贷差异化业务流程。智能的反欺诈、智能的异常识别和预警、智能的联动前端实现差异化借贷流程,让每个借款人都有独特而高效的业务体验。

今天想要跟大家分享的就这么多,我们会持续以第三方的立场,在大数据的路上,安静地做好我们应该做的事情,让金融更加美好。

谢谢!

原文发布于微信公众号 - 数据猿(datayuancn)

原文发表时间:2017-03-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【机器学习】机器学习面试考察点

从事数据挖掘工作,尤其是在互联网行业,主要需要三个方面的能力,即机器学习和数据挖掘的理论知识、编程开发与数据结构算法的基础和业务理解与沟通表达的能力。 ? 上面...

28150
来自专栏专知

【重磅】美国人工智能前沿峰会日程预告:吴恩达、田渊栋、任小枫等25位AI专家分享最新成果

【导读】人工智能前沿峰会( AI Frontiers)将在美国圣塔克拉拉会议中心11月3号到5号举行。这次大会邀请来自谷歌、Facebook、微软和亚马逊等人工...

43240
来自专栏钱塘大数据

吴军:数学为人生之题解出漂亮的答案

如果用当下比较流行的说法来概括吴军的身份,他便是会摄影、会写作的计算机科学家中最爱发微博的投资人——几乎很难用一句话涵盖“吴军博士”(吴军的微博昵称)会做什么、...

12750
来自专栏AI科技评论

喊话黄仁勋: 在TPU这事上谷歌高调吗?

AI科技评论按:谷歌毕竟就只是发了一篇描述一个数年前就开始的项目的内部结构和一些性能参数的论文和一篇提炼了其中一些内容的博文而已,但前两天TPU的发布却让黄仁勋...

34160
来自专栏大数据挖掘DT机器学习

大数据工程师飞林沙的年终总结&算法数据的思考

从前东家离职已经一个多月的时间了,在这一个月,前前后后也和几家公司做了技术交流,自己也第一次静下来这么久来思考总结。今年是我毕业的第五年,也正巧赶上年底,就把这...

44060
来自专栏AI科技评论

对大脑的逆向工程是不是走向强AI的唯一出路?

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,谷歌,DeepMind,Uber,微软等巨头的人...

315100
来自专栏大数据挖掘DT机器学习

为什么“高大上”的算法工程师变成了数据民工?

算法与算法工程师 在知乎里回答“做算法工程师是一种怎样的体验?”的答案(其中的思想并非原创,而是山寨自新加坡某大学一门Quantitative Investme...

94390
来自专栏AI科技评论

如何成为一名数据科学家?Yann LeCun的建议也许能给你答案

AI 科技评论按:本文为雷锋字幕组编译的技术博客,原标题 16 Useful Advice for Aspiring Data Scientists,作者为 J...

27940
来自专栏吉浦迅科技

当HPC遇到AI

作者:Shahin Khan, OrionX 翻译:GPU世界 高性能(HPC)和人工智能(AI)的结合正创建一个充满活力的新市场:“高性能人工智能”(HPA...

40290
来自专栏大数据挖掘DT机器学习

如何系统地学习数据挖掘?

读者问:虽然是本科毕业,但是在看数据挖掘方面的算法理论时经常感觉一些公式的推导过程如天书一般,例如看svm的数学证明,EM算法..,感觉知识跳跃比较大, 是我微...

558130

扫码关注云+社区

领取腾讯云代金券