平安壹钱包陶玮:AI在风控领域的整体实践

9 月 16 日,「2018AI 先行者大会」在杭州浙江东方豪生大酒店顺利召开,峰会共邀请了 30 余位 AI 领袖、首席科学家、技术精英,他们把自己的故事从幕后搬到台前,根据最新技术方向,与大家分享。

今天,小智特邀大会演讲嘉宾之一,平安壹钱包大数据研发团队 AI 应用负责人陶玮老师为小镇镇民做分享。基于现阶段 AI 技术的积累和探索,陶玮老师将从 AI 在风控体系中的用途、如何使用 AI 模型与如何支撑 AI 方案落地 3 个方面,谈谈目前 AI 在风控行业的整体实践,以下。

1

AI 在风控体系中可以做些什么

AI 介入风控之前,我想强调一件事:就是我们要定位好,AI 在风控领域是一个什么样的角色,它不是救世主,把之前的内容一股脑推翻来做,AI 只是一个让它(风控)变得更好的服务角色。

风控有很长的发展时间,也有比较成熟的规则体系,是不断总结出来的结果。比如像黑名单这种东西,很明确,一旦发现有东西异常,后面一扔,就能解决。

但人工智能可以带给我们大量自动的规则学习,同时带给我们更加强大的表达能力,而不仅仅是一些线性模型。其次,随着金融业务的发展,风险模式也在不断变化,带来了新的对抗。

首先我们看看 AI 在风控体系中可以做些什么?

无论是银行还是金融产品,包括他们旗下的商城、支付,每个功能具体的应用目标都不太一样。但大致的归纳起来,AI 在风控体系中的具体应用场景主要分为反作弊、反欺诈和反洗钱。

反作弊是利用业务漏洞、技术漏洞造成公司损失的行为。例如薅羊毛现象,使得运营投入资金被截留,无法触达真正的用户;又或者业务系统之间通信被抓包破解。

反欺诈主要指账户盗用,在银行领域比较常见的是银行卡盗刷,危及客户资产安全。这个部分相对会比较慎重,做完拦截之后,需要人工第二次复审。

而反洗钱则主要依据国家政策法规进行处理,比如像大额资金的离岸监控。

风控系统大致的运作模式是:系统接收来自各个应用系统的数据和请求,比如登陆验证、交易验证等,根据风控已有的模型作出判别。

针对反欺诈和反洗钱,如果触发拦截将会把该事件推送给相关的业务人员,进行分析和确认。

风控行业的整体架构

进一步细化风控系统,数据将分四路处理,一路直接进模型出结果;一路找出关系写入知识图谱,作为供业务人员参考的数据积累;一路动态调整规则/模型;一路进入大数据平台,用于模型训练和知识图谱的强化;AI 可以在最后一路上大有作为,即帮助形成风控规则。

数据四路处理关系图

规则是风控的基础,也是风控的核心。任何一个领域都需要知识积累,风控业务人员也是在“斗争”中摸索出规则,这些规则都是经过实践考验的,且这些规则对模型训练中的样本和特征选择都是很好的先验知识。

规则的另一点好处就是便于调节,操作灵活。例如黑名单拦截和手机号注册时间校验,可以是 3 个月,也可以是 6 个月,取决于你想约束的尺度。

2

如何使用 AI 模型

面对一个未知场景,风控系统如何才能分辨出哪些是作弊行为,哪些是正常行为,核心在于数据。

通过模型训练,在抓取能描述行为的信息后,会做一个聚类操作。

反作弊模型训练的一套经典流程

针对聚出来的几大典型行为,行业内一般会选择继续确认是正常还是异常,给数据打标,以此作为监督学习的样本进行分类训练,最终得到模型。

上图是行业内的一个典型案例,选择了 DBSCAN 这种连通域的方案作为聚类模型。

在分类模型的选择中,上述操作对比了线性回归、随机森林、GBDT 等,得到了 RF 和 GBDT 要远好于 LR 的结果,且 RF 分类模型出来的结果确实非常理想。

简化特征维度到可展现的层面,思考为什么“RF”分类模型结果会这么好。

对于距离的度量和比较,上述操作用“LR”的方法是在用一组平行线来切分一个平面,在高维场景下就是用一组 N-1 维的平行的超平面来切分一个 N 维空间,这个显然是不能得到好的结果。

而“决策树”根据不同节点进行分叉,就如上图的分割线,能很好地契合聚类的结果。如果“LR”的 N 分类按先分 2 类,再在 2 类的基础上再分一类……也能画出上图中右边分割线的效果。

所以这样来说,聚类之后再接分类模型的意义就不大了,可以直接跟聚类中心点进行距离度量或者使用“KNN”。

我们之前关注的是单个独立的行为,慢慢走到了数据分析的瓶颈。回过头来看,我们发现作弊行为实质是本着效率第一的原则,直击最核心的接口。

综上,我们转变思路考察行为链。而“RNN”和“LSTM”这样的深度学习模型恰好能做这种链式依赖学习,且正确链路的访问是可以从各系统得到的。

上图从开始页面 A 到最终页面 F 要经过好几个页面,而作弊行为往往会绕过之前的页面而直接就访问 F 页面的接口。

当然,这种场景下最大的问题是正负样本的标注,正样本好标,拿正常用户的行为就可以了。负样本需要人工标注,导致负样本量偏少,这个会影响模型最终的结果。

按照经典的样本增补方法是在点与中心点的连线上做差值,但这种不适合用于这种连续行为。不过,有利的一点是我们能得到系统跳转的一张图,可以根据这张图来生成异常路径,从而生成负样本。

在反欺诈领域,行业内一般会利用图模型来描述关系。简单来说,将 IP 作为勾连用户的纽带,共用一次 IP 就表示发生一次联系,最终通过统计来计算用户与用户之间的关联紧密度。

通过社区发现算法,可以将整张图切分成各个相连的部分,计算每个部分之间的关联度。关联度过高就会需要引起注意。当然勾连用户的纽带不仅仅是 IP,也可以是设备号等信息。

3

如何支撑 AI 方案落地

模型的背后是特征,特征的背后是数据和分析师,而数据又会依赖应用系统的产生,这是一个系统的工程,而 AI 是最后一步。

在我看来,目前 AI 远未到取代人类思考的地步,它需要人来完善认知,需要大量的样本(知识)。

比如,同样是研究客户,商城运营会使用平均客单、购物频率、商品类别、品牌等信息来描述用户,他们认为这些是描述用户购买习惯的特征;而客户运营则会使用客户从首页到最终成交总共浏览了多少个页面,喜欢从哪个入口登录等,他们认为这是反映客户性格的特征。

应用的技术实现对我们也很重要,比如之前提到的行为链,用户的操作牵涉到前端页面后后台系统,这些来自不同系统的数据要连成链,就需要一个统一的技术方案和各部门的支持配合。

所以,这对我们的工作提出了更高的要求,各项技术都要懂一点,或者至少要能找到靠谱的人合作。

更多内容

关注AICUG

转自: 中国杭州人工智能小镇

✄-------------------------------------------

10月20日硅谷站沙龙,敬请期待~~~

【加入社区】

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180928B0MS8Y00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券