金融风控领域的工业级大数据应用: 如何跨越AI与业务经验结合前的鸿沟?

机器学习、深度学习等对金融业务有何帮助?背后究竟又是怎样去变革提升当下金融体系的?在本月举办的复旦科技创新论坛上,CreditX氪信创始人兼CEO朱明杰就金融风控领域的工业级大数据应用进行了阐述。

朱明杰表示,当下人工智能和金融的话题有些过热,我们应该冷静地看到,将AI技术移植到金融风控场景的道路其实面临着诸多磨合的困难,新业务的冷启动、大量非结构化数据加工以及前所未有的上千维度特征融合处理,包括线上的反欺诈识别,这都是横在AI与业务经验逐步结合前的鸿沟。

以下为CreditX氪信创始人朱明杰博士的演讲速记,在不影响原意的情况下,部分有删节:

新金融业务的冷启动是什么?

冷启动的问题其实主要是指新金融领域缺少样本,我们知道金融机构积累坏账样本的周期是比较长的,另一方面每一个坏账也都是血淋淋的教训,坏样本积累非常珍贵。

AI在这方面的一个解决尝试是采用互联网搜索领域常用的半监督学习方法,通过少量专家人工标记构建训练数据集,快速构建初始机器学习模型来对信贷主体进行风险和信用评估,后期通过不断迭代优化模型以达到最优的效果。此外,在大型金融场景中也可以通过Domain Adaptation的技术,比如我们积累了在不同金融业务领域的经过大数据集训练好的深度学习网络,就可以作为相似领域相同问题但只有小量标记样本用于建模时的特征生成器。

新金融业务面临的海量数据有哪些?

在这一点上,由于新金融业务客群进一步下沉,传统征信数据缺失非常严重,因此为了做到更全面可靠的金融风控,机构往往需要在申请信息之上补充大量诸如消费、运营商、社交、互联网行为甚至影像等等,然而这些海量超高维,稀疏,低饱和,多重共线的数据,传统的风控特征工程往往束手无策。

如果金融机构有大量无标签的数据和少量有标签的数据,其实我们已经可以通过深度学习的非监督或有监督算法,学习稳健,泛化能力好且饱含信息的特征用于分类任务。这里重点谈一下非监督的算法,包括受限玻尔兹曼机,深度置信网络等,包括目前尝试的是最先进的一些生成式算法譬如生成式博弈网络,算法启发于博弈论,由生成网络和判别网络两个网络组成,生成网络生成数据目的是欺骗判别网络,判别网络为判别数据的真假而得到奖赏或者惩罚。随着两个网络的不断博弈,生成网络可以学到很好的特征从而生成足以以假乱真的数据。

新金融风控正面临维度灾难

我们知道国内外目前成熟的风控系统很多都是评分卡体系,但基于之前的海量外部数据,其衍生的特征量很多时候都是上千上万维度的,远远超出了评分卡体系所能处理的能力范围,也就形成了维度灾难。那么对这些千维万维的特征该怎么很好地应用到新金融风控呢?

事实上,不同的数据类型,它的最优模型选择也是不同的,基于这种思想,我们去针对机器学习特征和专家人工特征构建最优的规则模型、机器学习模型、深度学习模型来吸收这些全量特征,就可以很好地化解这一问题。此外,在此之上我们进一步通过模型集成技术进行风险评分的输出,目前已经在与领先机构的风控场景中取得出人意料的效果提升。辟如在实际大型的消费金融场景中,这种集成模型无论在在稳定性或泛化能力上的表现都优于其他已知方法,最大ks值上也比传统逻辑回归提升近70%,从0.19能够达到0.32甚至更高。

新金融业务频频被瞬息万变的互联网群体欺诈攻击

最后,谈一下金融反欺诈。之前关心互联网金融的朋友应该都知道,现在网上薅羊毛的现象很严重,尤其是新上线的互联网金融业务,常常是第一个月就被网上羊毛党群体轮番攻击,这其实也就是线上反欺诈的问题,由于这些羊毛党都有专业的申请信息填写、个人数据伪造的经验,传统基于规则的风控很多时候根本无法识别。

基于大规模图学习的反欺诈网络很好地解决了这一问题,一方面我们能通过复杂网络来识别群体欺诈风险,另一方面我们也可以把基于图的半监督算法应用于预测“好”/ “坏”人的分类模型,即在有少量标签节点的图结构中,根据传播算法,预测无标记节点的标签类别。

举个简单例子,在申请网络中其实每一个申请人、手机号、设备、IP地址都可以是一张图中的结点,而诸如申请人拥有设备、手机号呼叫手机号等有向联系都可以是图中的边,边的权重为关联的紧密程度。在我们构建的图中,那些有违约与否标记的申请人是原始种子结点,通过使用基于图的半监督算法,把是否违约的标记传播给无标签的申请人,这样我们就可以在少量有标签的样本上构建出极为庞大的风险网络,并打造形成我们的违约预测模型。以下是在实际场景更为复杂的网络中,基于图结构的局部风险特征、欺诈Pattern的展示,尤其是基于图挖掘算法提取的全局风险特征,目前通过FraudPageRank、community detection、SocialAffinity等风险指标已经可以实现网络全局风险的实时识别。

时下,新金融正来到转型升级的十字路口,一方面AI被寄予极大厚望,另一方面将互联网级别的AI应用于金融领域也存在很多急需突破的挑战。相信随着需求驱动技术的快速发展,机器学习将在金融风控的工业级应用中发挥越来越大的价值,但如何真正释放数据的价值,我想我们的征途才刚刚开始。

CreditX氪信是一家机器学习风控解决方案服务商,CEO朱明杰为微软亚洲研究院博士、德国马克思普朗克研究所博士后,携程大数据部门负责人。曾在MSRA、Yahoo Labs及eBaySearch Science担任重要职位,拥有丰富的数据挖掘、互联网搜索和机器学习的研究开发和产品工作经验。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2016-12-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

博客 | 玩转「马里奥」的算法能搞定「口袋妖怪」吗?

现在,你很可能已经听说过机器人玩游戏的水平超过人类了吧。这些机器人的一种设计方法是给它们明确地编程,设定一组输入和一组输出之间的对应关系;或者也可以让它们自主学...

974
来自专栏镁客网

为预测用户出行需求,ofo开始使用AI实现智能调度

1370
来自专栏AI科技评论

动态 | 不止生成猫咪照片,GAN还在帮助天文学家生成史上最清晰的星系图像

AI科技评论按:本文由图普科技工程师翻译自《Neural networks promise sharpest ever images》,AI科技评论独家首发文章...

2939
来自专栏AI科技评论

中科院百人计划专家深度解析:银行业务光凭“刷脸”真的靠谱吗?

雷锋网按:本文内容来自云从科技创始人、中国科学院百人计划周曦博士在硬创公开课的分享。在未改变原意的基础上进行了编辑整理。 明明可以靠脸吃饭”这句话不再只是一个网...

3696
来自专栏机器之心

观点 | Yoav Goldberg撰文再回应Yann LeCun:「深度学习这群人」不了解NLP(附各方评论)

选自Medium 机器之心编译 作者:Yoav Goldberg 参与:黄小天 昨日,机器之心发布了一篇题为《从 Yoav Goldberg 与 Yann L...

37013
来自专栏量子位

在鉴定名画真伪这件事上,专家可能要被AI代替了

原作 Jackie Snow Root 编译自 Technology Review 量子位 出品 | 公众号 QbitAI 鉴别画作真假的难度非常大,还特别烧钱...

2764
来自专栏大数据文摘

AI教父Geoff Hinton和深度学习的40年

因为伤了背,Geoff Hinton已经站着工作了12年,似乎巧合地迎合了现在“站立工作”的这股风潮。

1062
来自专栏量子位

LeCun:现在还没有真正的AI系统,机器与生物系统差远了

? 可能我们现在提到的AI都是假AI。 近日,Facebook首席人工智能科学家Yann LeCun在纽约大学坦登工程学院的AI研讨会上谈了谈AI的历史和方向...

3299
来自专栏专知

【NIPS2017】深度学习真的不需要理论指导了?图灵奖得主讲座无人问津,贝叶斯之父Judea Pearl落寞身影背后引人深思

【导读】最近NIPS 2017 "Test of Time"论文大奖获得者Ali Rahimi 在长滩现场的演讲中把机器学习称为“炼金术”(Alchemy)引起...

3647
来自专栏腾讯高校合作

犀牛鸟人物丨专访刘偲老师:图像之美像素级语义理解研究

2353

扫码关注云+社区

领取腾讯云代金券