先知:人工智能助力Fintech反欺诈

本文内容节选自第六届全球软件案例研究峰会宜人贷数据科学家王婷分享的《先知:人工智能助力Fintech反欺诈》实录,本文主要分享互联网金融反欺诈,通过人工智能与人工调查的结合,实现智能反欺诈的效率和准确性提升。(音频+PPT+文稿)。

编辑:Cynthia

编者按:11月9-12日,第六届全球软件案例研究峰会在北京国家会议中心盛大开幕,现场解读2017年「壹佰案例榜单」。宜人贷数据科学家王婷带来《先知:人工智能助力Fintech反欺诈》的案例分享。

【内容简介】作为中国金融科技第一股,宜人贷发布科技能力共享平台(Yirendai Enabling Platform,简称YEP共享平台),旨在以强大的金融数据能力、反欺诈智能和线上客户获取服务能力,为金融科技企业提供更强大的信用评估、风险控制和精准获客的金融科技共享平台。

先知是基于宜人贷的反欺诈云平台,面向Fintech全行业的一种反欺诈解决方案,帮助Fintech企业解决在信贷申请欺诈、金融中介识别、团伙监控/预警上面临的一系列问题。本案例分享在反欺诈云平台的构建过程中,如何利用人工智能完成以上工作。

宜人贷数据科学家王婷

《大数据和人工智能如何助力风控防御体系》

本文将介绍我们花了一年时间打磨的产品,宜人贷先知。除了人工智能以外还结合了人工调查,这是一个比较创新的且在验证后很成功的模式。

1

YEP:建立数据驱动反欺诈能力

宜人贷在年初的时候发布了YEP(Yirendai Enabled Platform)平台,它做的事情就是利用宜信11年和宜人贷5年以来积累的在线数据,通过精细化运营能力、数据能力以及反欺诈能力对外做平台化的输出。

我们搭建了结合全网数据的知识图谱,还通过机器学习的方法构建反欺诈模型,最终应用到业务流程中。对每位申请用户进行欺诈风险评估,评分区间在300-900分之间,低于400分的是高风险用户,会自动拒贷;400-600分的为一般风险用户,我们认为这些用户也有一定的欺诈风险,会结合人工调查来评估;高于600分的用户会进入到信审和放款环节。

在开发先知反欺诈云平台之前,发现欺诈风险的时间周期会比较长,这会导致个别欺诈用户到放款甚至逾期后才被发现。有了先知平台后,就可以在贷款前就通过用户各种各样的数据判断他究竟有没有异常或欺诈的风险,做到实时欺诈发现。

2

反欺诈云平台

先知反欺诈云平台包括三个模块:

实时数据采集

包括我们开发的SDK用户行为数据、用户授权抓取的消费数据、通话数据、信用卡数据、以及和行业内第三方合作的数据。

实时数据处理

实时数据处理中搭建了知识图谱的实时查询分析,还包括反欺诈评分模型、规则引擎以及团伙挖掘。

实时欺诈发现

实时欺诈发现,我们设计了欺诈调查工具,这个工具是面向调查人员,为了使得调查人员能够更便捷的获取信息和异常点,方便他们来调查用户是否有欺诈行为。这个工具包括欺诈用户预警、中介发现、团伙监控预警,帮助调查人员更高效地掌握欺诈用户的情况。

3

先知核心能力

当有大量用户申请的时候,我们通过模型的手段和图谱挖掘的手段给调查人员做提醒和实时提报。

核心的能力有四个:模型预警、规则引擎、团伙挖掘和调查工具。

模型预警这块我们利用了机器学习算法,包括Ensemble Learning,我们训练了多个模型并做了融合。其中Active Learning是结合业务场景的主动学习方法,我们会和人工调查后的结果标签做实时结合,然后做到天级别模型的更新,更新后的模型又会提报用户再由人工调查进行标注,之后再返回模型的训练,形成模型训练和人工调查的反馈闭环,实现模型准确性的螺旋提升。

对于提报用户来说,模型提报是更稳定、效果最好的,那为什么还要用规则提报用户呢?因为会有一些突发事件或业务所理解的欺诈状况,可能在模型里不能体现出来,所以需要有规则设置。另外,我们也可以做一些快速的规则尝试,任何新看到的欺诈案例,都可以转换成规则在线上实时预防这类欺诈风险,快速响应。

团伙挖掘模块我们也做了很多尝试,最终落地的有几项,中介挖掘、团伙监控、用户预警、Unsupervised Learning、Semi-Supervised Learning。

通过知识图谱中的标签和关系挖掘,可以判断用户是不是中介,通过社区发现算法进行团伙挖掘,挖掘出的团伙通过判断后还可以持续监控,用于团成员的用户预警。比如我们已经标识出一个团伙,这个团伙中有大量的中介或同行帮助用户做资料的伪造,新来的一些用户如果和中介关联得很紧密的话,这个用户是欺诈用户的风险会较高。

调查工具模块主要就是异常信息的提示和用户数据的展示,帮助调查人员快速定位到用户的数据信息和设备信息等,并告诉他这个异常的点在哪里。

4

如何快速评估欺诈风险?

整个流程是很简单的,如图所示,从数据的采集、机器学习识别风险、欺诈评分、提报用户等环节来进行快速的欺诈风险评估。

另外SDK的作用一方面是数据采集,另一方面是识别欺诈事件。比如用户下载了APP,注册账号提交贷款申请,如果我们发现这些节点或其交易流水有异常,就能够实时发现风险并提报欺诈预警。基于行为数据的反欺诈模型在我们的反欺诈体系中也是很重要的一环。

我们实现了全端的数据采集,统计到的数据包括设备数据、行为数据、地理位置的数据等,整个SDK数据在反欺诈应用得比较多,同时在反作弊、运营层面、安全层面也都在使用。

5

反欺诈多模型融合技术

我们训练了非常多的模型去解决欺诈识别问题,这其实是很典型的监督学习过程。我们根据用户的标注(欺诈用户或正常用户)筛选出训练样本,通过特征工程的方法提炼出用户的特征,特别是跟欺诈相关的特征,之后利用机器学习的模型做训练,使得对于好坏用户的区分度更高。

这里用到的数据包括用户的信用数据、消费数据、通讯数据、社交数据和行为数据等,越在金字塔上层的数据对于刻画用户的金融属性越相关,但覆盖度越低,越下层的数据虽然离金融属性远一些,但是每个用户都有,可以覆盖到全部用户。

另外我们也用到了图谱挖掘的技术,知识图谱建立起来以后,这个用户的一度联系人里是不是有欺诈用户或黑名单用户,如果有那么这个用户的风险概率会相对高一些。利用这些图谱特征的挖掘我们也训练了基于社交关系的反欺诈模型,对于欺诈用户的评估准确性也很高。

上图是我们做的模型融合案例,绿色的这条线是用GBRT作为分类器,红色线是做完模型融合之后的效果,纵轴是KS(金融里常用的评估指标)。可以看到红色训练模型融合之后的效果比单模型的区分度会好很多,而且从置信的角度(最上面和最下面的虚线),利用模型融合的技术之后,模型稳定性会更好。

对于金融来说KS可以不用特别高,但模型一定要稳定,因为如果不稳定的话误判的概率会更大一些。

6

结合人工调查自动化模型学习

先知平台和人工调查的结合非常紧密,大家都知道,对于反欺诈模型来说最大的问题是样本的不平衡。比如好坏用户比可能是几十比一,在这个量级下做模型的训练对于非平衡数据的处理是非常难的,而且对训练模型和样本积累有很高的要求。另外一个问题是样本收集周期过长,因为贷款用户需要在观察几个月的还款表现之后才能通过是否逾期来判断是否是好、坏用户。

和人工调查结合的好处是,我们提报出来的用户可以当天进行人工调查,获得实时欺诈标注,不用经历之前那样长的样本收集周期。

现在人工能够帮助我们实时标注这个用户是不是欺诈样本,这样我们就从通常6个月的样本收集时间变成了一天甚至更短。这样训练模型的频率会越来越高,对好坏用户的快速迭代和快速训练,能够使得我们的好坏用户的区分程度也越来越大,最终模型的准确率也越来越好。

作为宜人贷YEP对外输出的重要组成部分,先知体现了宜人贷在金融科技领域的智能反欺诈能力,以人工智能+人工调查的结合模式,2017年已挽回潜在欺诈损失2亿元以上。通过机器学习反欺诈模型提报的欺诈认定率约达60%。

以上内容节选自王婷老师的分享,加入“buzz”圈子,听案例的完整分享

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180102A0B4K200?refer=cp_1026

相关快讯

扫码关注云+社区