互联网金融风控中的数据科学

摘要

随着互联网行业的高速发展,互联网金融应运而生。它是传统金融行业与互联网精神相结合的新兴领域。互联网"开放、平等、协作、分享"的精神往传统金融业态渗透,对人类金融模式产生根本影响。宜人贷数据部数据科学家王婷根据自己在行业的实践经验和专业知识,从三方面来分享互联网金融风控中的数据科学。

视频内容

背景

有了互联网之后,大家可以在线上进行理财借款。但是从线下转到线上会出现不同的问题和挑战,比如风险,我们会面临各种各样的信用风险和欺诈风险。

传统金融面临的信用风险比较大,主要是还款能力的问题。而在线上进行欺诈普遍是利用一些黑科技,国内的欺诈手段非常的复杂。

传统风控都是使用一些基于规则的风控手段。线上随着用户量和数据量越来越大,我们会使用一些数据科学技术进行线上反欺诈中规则的提取或智能欺诈风险发现。

互联网金融服务面临的风险

互联网金融——个人对个人的信用贷款

互联网金融除了借款人群还有出借人群,也就是我们常说的理财。它会给我们提供资金,这些资金会转化成债权去借给需要借贷的人群。

在这过程中宜人贷的理财APP可以很方便地在移动端进行操作,背后的流程简易,使用户体验好,完成了出借到借款的全方位信息服务。

宜人贷:极速信任——自动化信用评估。

网络信贷对速度的要求非常高,到银行或线下门店办理贷款可能需要几天甚至几周的时间;但在线上的APP端提供完资料后,经过分钟级自动化的审核,当日就能收到贷款。网络信贷就是在服务那部分不能被线下服务所满足的需要快速借贷的人群。

在线上,从客户获取到信用评估、交易促成以及客户服务,在整个流程中我们获取到的数据、场景或者人群都和传统金融有着很大区别。银行采取的是信贷员模式,而在互联网金融中,我们是以一种线上信贷工厂的模式,快速经过系统的风控体系审核,就可以批贷。这其中欺诈风险控制成为我们最大的一个挑战。

互联网金融行业中的风险

信用风险:主要问题是用户的还款能力。业界常用的解决方法是通过收集收入水平、消费水平、负债情况等对用户进行风险评分。但在国内没有权威的征信机构来提供这些数据,对于互联网金融公司来说,收集这样的数据难度非常大。而且传统评分卡的有效特征挖掘非常困难。

欺诈风险:欺诈风险包含了伪冒申请和欺诈交易。传统的应对方法是使用人工审查、信用黑名单或是基于规则的一些方法。这样做的缺点是效率太低,,没有权威的黑名单,欺诈手段更新太快,不能自动发现异常。

知识图谱在金融风控中的应用场景

互联网金融中的风控是一种机器学习的过程

互联网金融中风控和机器学习一样要定义Y目标和X变量。

Y目标和普通机器学习Y目标的区别就在于正负比例非常悬殊。好、坏用户的定义,好用户和坏用户的占比远远高于10:1,在使用机器学习训练的时候会造成较大偏差影响。

X变量会进行特征工程的处理。传统方法是进行人工特征工程,当我们引入图谱特征挖掘技术后,可以使用知识图谱技术和图挖掘技术,有效提取欺诈风险的特征。对于X变量有一个风险控制数据金字塔。最顶层的信用是对用户评估最有效的数据维度。自上往下的信用、消费、通讯、社交、行为,变量的有效性逐渐削弱,而从下往上数据的覆盖度逐渐减小。

知识图谱在金融反欺诈中的优势

传统反欺诈大多从客户资料出发,看客户是否触碰了黑名单、消费记录是否有异常。

利用知识图谱进行反欺诈,还会关注用户的关联关系,例如客户的一度、二度关系是否触黑,消费的关联商家是否异常。还可以快速发现一机多人的情况,以及识别组团欺诈。

构建金融知识图谱:FinGraph

FinGraph包含了10种实体、数亿节点。从系统底层的数据整合层面进行信用数据、金融消费数据、行为数据、社交数据、网络安全、第三方数据等一些数据的整合,然后进行特征工程、模型开发、异常监控。知识图谱的应用场景有反欺诈、智能搜索、贷后管理、营销分析以及运营支撑等等。这一套体系不仅可以服务于反欺诈,还能服务于互联网金融中的运营层面。

反欺诈分析实践:人以群分

数据显示,与坏用户有大量关联的借款用户的坏账率是未关联用户的2.9倍。这样的特征可以直接用来做规则的变量。

从整体借款群体的角度,用PageRank算法探索哪些用户与大量借款用户有关联关系。PageRank值越高,用户资质就越差。对特征进行分组处理后,可见PageRank高分段用户的坏账率是低分段用户的3.3倍,可以帮助我们去甄别一些欺诈或资质较差的用户。

反欺诈分析实践:识别组团欺诈风险

在整个网络中应用社区发现算法将人群进行聚类,把分群后的群体根据好坏用户比例打上标签,实时评估每个用户的组团欺诈风险。

欺诈案例调查的挑战:失联用户找寻

利用网络挖掘手段发现坏用户和哪些用户的行为相似,可以聚在同一个类别中,然后在社区内使用最短路径算法来发现失联用户与一个正常还款用户的关系链。

风控建模中的数据科学

在整个风控中,它是一个标准的机器学习流程。除了样本和数据与普通互联网机器学习不一样之外,其它基本都是一致的。

唯一和传统机器学习不同的是,金融模型或产出的特征需要有很强的解释含义。

大规模金融服务中的实时架构

FinGraph是实时风险监控的重要支撑

我们搭建了一套实时数据采集的平台,包括flume集群、kafka集群,到图数据库实时读写,以及包含一些离线风险特征的、在HBase和Codis中的存储。应用于风控规则、反欺诈服务和实时欺诈监控。数据在采集、传输、存储时能达到99.999%的可靠性。基于实时数据采集平台和图数据库,可实时捕捉风险特征,控制欺诈风险。

FinGraph是线上风险控统中关键的一环

总结:数据科学在互联网金融风控中发扬

图挖掘技术可以把风控工作,从局部考量提升到全局考量。结合了上亿节点和十亿关联关系知识图谱的能力,可以区分出高风险欺诈人群。也能利用图挖掘技术实时发现一些组团欺诈风险。

数据科学已经逐渐渗透到离线建模流程中的多个环节。知识图谱也成为线上风控系统中的关键一环。

今天要分享的就是这些,谢谢大家!

原文发布于微信公众号 - IT大咖说(itdakashuo)

原文发表时间:2017-08-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏互联网杂技

达利欧:一切解读都不及自己用16页ppt彻底讲清《原则》

近日,全球最大对冲基金桥水基金创始人瑞·达利欧携作品《原则》来到中国,首次发表了题为“我的生活和工作原则”的演讲,用16张PPT彻底讲清楚《原则》,场景实验室创...

11830
来自专栏新智元

2016 年人工智能最重要的发展:面向所有人的深度学习

【新智元导读】过去一年人工智能和深度学习最重要的发展不在技术,而是商业模式的转变。过去6个月,所有巨头都将自己的深度学习IP开源。Data Science Ce...

33970
来自专栏大数据文摘

车品觉:CEO们关心哪三个数据

31890
来自专栏量子位

Google搞出的AlphaGo,打开了机器学习的神秘之门

两个机械臂,尝试打开两扇关闭的门。两个机器臂向前伸出,然后全都错过门把手。重来,再试一次,结果撞到把手上,门框铛铛作响。于是再试一次。再一次。几个小时的试验和犯...

36060
来自专栏DT数据侠

当机器都会“学习”了,你还想不学习么? | 数据科学50人· 谢梁

如今,我们每个人都在谈论“数据科学”,《哈佛商业评论》杂志甚至将数据科学家定义为“21世纪最性感的职业”。在这个大数据时代,究竟什么是数据科学?数据科学家又究竟...

10100
来自专栏小怪聊职场

管理|企业如何制定KPI指标?看这一篇文章就够了!

2.5K90
来自专栏华章科技

2016 年人工智能最重要的发展:面向所有人的深度学习

过去一年人工智能和深度学习最重要的发展不在技术,而是商业模式的转变。过去6个月,所有巨头都将自己的深度学习IP开源。Data Science Central 网...

7020
来自专栏数据科学与人工智能

回归算法在数据比赛使用场景

本文整理了14个天池、DataCastle、CCF竞赛中可使用回归算法处理的问题场景。 1 生活大实惠:O2O优惠券使用预测 随着移动设备的完善和普及,移动互联...

40260
来自专栏量子位

最已阵?Facebook要在内部打造AI人才兵工厂

唐旭 李杉 编译整理 量子位 出品 | 公众号:QbitAI 21世纪,AI领域的人才越来越贵了。 对于某些公司来说,这倒不是什么问题。像百度说了,有从美国回来...

26260
来自专栏ATYUN订阅号

谷歌推出新的AI技术,旨在打击网络儿童性虐待内容

谷歌今天宣布推出新的AI技术,旨在帮助识别网络儿童性虐待材料(CSAM)并减少评论者接触到此类内容。

11620

扫码关注云+社区

领取腾讯云代金券