【独家】移动互联网大数据助力金融风控(课程精华笔记+PPT)

[导读]为了让清华大学大数据能力提升项目的学生在基础学习和科研的基础之上,更好地了解大数据技术行业领域中的应用,清华-青岛数据科学研究院支持开设了金融大数据方向《量化金融信用与风控分析》课程(课号:80470193)。

本课程由清华大学交叉信息研究院助理院长、清华大数据能力提升项目教育指导委员会委员徐葳老师开设,并且聘任加州大学伯克利分校计算机博士黄铃和美国卡内基·梅隆大学高性能计算研究教学中心创始人、联席总监种骥科博士联袂任教。

在讨论课上,同学们会深度接触互联网金融行业中建立信用和风控模型的理论和实践案例,并了解关键学术挑战和应对挑战的解决方案。同学们还将亲手设计实现信用和风控模型,通过讲座了解世界上最先进的信用分析和反欺诈的方法,优秀项目成果还有望投稿一流的学术会议。

本文来自该课程中的第四次讲座内容。

注:本文为精华摘录,后台回复关键词“清华大数据”,可下载本节课程PPT全文。(限时七天,不想错过更多内容,就请持续关注数据派THU!)

中国信用体系正处于建设完善阶段,大量人群不在覆盖范围内,难以享受信用服务,金融机构对信用用户的人群下探推动了行为大数据在风控过程中的使用。移动互联网用户行为数据作为自然人的指端延展具有数量大、维度多、动态好等特点,正在逐渐成为白户人群的信用信息替代品。本次清华大数据“技术·前沿”讲座,嘉宾陈雷从移动互联网数据的采集、初步加工、特征因子工程、模型与数据评估等方面完整阐述了TalkingData在金融风控领域应用上的数据价值探索与心路历程。

陈雷

TalkingData FinTech总经理

陈雷拥有20多年IT行业的业务及技术咨询和服务经验。现就职于中国最大的独立第三方移动数据服务平台TalkingData,任FinTech总经理,负责金融科技大数据应用产品。

之前陈雷曾经服务于Oracle, IBM, DWL等企业,历任Oracle中国区大数据技术总监,大客户技术总监, IBM 首席架构师等职务,负责电信、金融、零售、物流等多个行业的业务和技术咨询工作。陈雷毕业于浙江大学、约克大学,拥有多项职业技术认证和技术专利。

PPT+课程精华笔记

一、风控、征信、反欺诈行业与业务背景

通过几个报道对整个行业现状做一些了解,我们就可以理解为什么现在风控如此之火,征信、反欺诈为什么尤其重要。

1. 银行业务的下沉

过去银行只在线下发放实体信用卡,而现在中国有很多家的银行都在尝试虚拟信用卡。

虚拟信用卡的推出对市场意味着什么呢?过去我们办理实体卡往往是需要一个线下的过程,而虚拟卡是完全在线上完成。这是银行在攻占整个的消费分期以及往下层的金融市场,我们可以看到很多家银行在进入这个市场。

2. 从投资角度看消费金融的火热

现在很多的VC都在投资消费金融领域的团队,为什么VC如此看好这个领域?因为这里面可以有很多想象的空间。

3. 现金贷遭受严格监管

比如说现金贷,年化利率最高可以达到600%。

如此高利率的原因主要有以下几点:

第一,这些现金贷面向的客户群体,质量较低,是属于急需用钱类型的。在这种情况下可能会不择手段,风险系数很高。

第二,这些平台没有足够的风控能力,同时面临着大量的欺诈团伙,造成坏账率高,只能用高利率才能抵消风控不足的成本。

4. 个人征信牌照的暂停

中国目前为何还没有发出征信牌照?央行的解读给所有的征信公司泼了一盆冷水:目前所有的征信公司都没有达到要求,引发行业哗然。

行业趋势总结

中国金融企业的金字塔:顶端是五大行,其次是股份制,再往下是城商行、信用社,之后是信托、担保,最下面的是p2p、现金贷等。最下面的市场监管越来越严,期望能改变劣币驱逐良币的现象,与此同时,主流金融机构的业务与用户正在下探。这些趋势意味着金融企业将会越来越重视风控,这可能是未来的一个风口。

二、机会与挑战 探索隐藏价值

作为大数据行业的从业者,我们看到行业的变化带来了很多挑战与机会。

人行的征信体系,据统计大概4.7亿人有征信记录(银行账户、信用卡等),市场上存在大量的白户人群没有被人行征信覆盖,征信过程中缺少数据的支撑。

信用越来越场景化,需要对用户做精准匹配,而银行交易数据覆盖面窄,回流周期长,在使用时可能已经效果很低。 风控不仅仅是点,需要覆盖到用户的整个生命周期,从用户触达、授信、消费、离开等全流程提供风控支持。

于此同时市场上数据混杂,各种灰产、黑产导致各种数据安全与数据质量问题。6月1日实施的个人隐私保护法规,对数据交换、数据使用的监管更加严格。

诸多的机会与挑战给风控的从业人员与企业提出了更高的要求。

从科技公司角度看风控能力:

第一块是数据,数据是风控的基础,能拿到什么样的数据很重要;

第二块是工具,风控与反欺诈的需求对实时分析与响应提出了很高的要求,提供相应的技术工具的支撑;

第三块是应用,根据不同的商业模式和业务流程,会存在多个应用维度,应用时更是需要将技术与人工相结合,机器学习能解决一些问题;更多时候需要将各种数据集合到一起,让风控专家来看,会得到很多机器学习不能获得的信息与洞察。

接下来我们看一下对金融数据的理解,在风控领域,数据的使用遵循这样的金字塔结构。

第一行是人行的征信数据。

第二行是消费的数据,代表了消费能力,偿还能力等。

第三行是运营商数据,虽然不一定与金融强相关,但包括多种多样用户的行为数据。运营商数据获取并不容易,需要对接33家运营商机构。(中国移动有31家机构,还有中国联通、电信)

第四行是社交数据,最大的是腾讯,由于BAT体系相对封闭,这部分的数据获取难度也极大。

第五行是行为数据,过去大家认为行为数据与金融是弱相关,但通过实践我们发现这部分数据还是很有意义的。行为数据的覆盖量大, 维度多且复杂,给数据处理的方式与能力提出了新的要求。

用户数据应用的能力正在从传统的扁平化向互联网立体信息转化。过去用户数据是扁平化的标签。现在有了大量立体化的数据采集手段可以更加立体化的描述一个用户的行为。比如大家使用的手机在应用过程中都会产生大量的应用数据,这些数据会被收集用于分析,随身设备中的传感器,比如手机里的陀螺仪,记录了大家的行走、运动行为。同时线下也有大量的数据收集技术,比如商场里的wifi流量探针,判断商场人流量。有很多这样的数据孤岛,如果打通了,就可以形成线上线下行为的立体化认知。

数据是每家公司一项很重要的资产,TalkingData提出了数据三重门的数据经营理念。 帮助我们的客户全方面理解自己的数据潜能,把传统交易数据的采集推进到交互门的数据采集。建立自有数据与公开市场门数据的交换能力, 真正把企业数据当作重要资产经营起来。

TalkingData也正在依托过去五年多时间通过运营积累的大量的数据,与我们的用户合作共同探索数据价值,同时依托自己在大数据领域的影响力,建立起大数据的生态圈,在合理合法的前提下,结合生态数据源加工、处理并利用数据,发掘数据价值。

数据的处理的5个级别:

基础数据,数据初步加工后的信息,信息经过整合联接,形成知识,知识之上形成洞察,最后成为智慧。数据的特征加工就是这5个层次的数据应用过程。

数据特征处理示例:

手机的出口IP,可以通过归因与地理位置匹配,形成一个用户的漫游情况。IP更可以使用时间来形成更复杂的认知。 例如一个晚间WI-FI IP出口可能是一个家庭, 白天则可能是个工作场所。

设备与IP的关系通过时间与空间的交叉关联,可以帮助我们发现两个设备之间的逻辑关系。下图中,我们看到两台设备在同一时间在两个相距甚远的两个地方同时出现,我们猜测这两台设备可能属于同一个人。下图为设备时空特征关联的知识图谱。

三、基于数据之上的风控应用

1. 营销反欺诈

这是一张很经典的图,最左边是用户,最右边是金融机构,中间有两个括号,一个是市场(market),一个是产品(products)。金融公司制定的产品(product),通过市场(market)触达及转化目标用户,通过自己的渠道为用户服务,实现目标用户向客户的转化。

在这个中间过程中,就存在很多欺诈的可能,比如流量作假,骗取公司的市场费用;假app流量及活跃度,欺诈投资人的投资;产品推广及运营则会吸引团伙来薅羊毛,骗取公司的运营费用和经营成本。

下图展示了一个营销反欺诈能力的框架。

首先需要整合多维度的数据,包括:物理地址、app信息、交易信息和跨app信息等;接着抽取特征,做特征工程方面的工作;在此之上做聚类分析,识别出数据样本的特征模型, 最后通过分类与回归算法对样本用户进行分类与预测。知识图谱技术作为一个高效的互动工具,辅助业务人员进行数据探索,实现人与人工智能的高效结合。

2. 用户反欺诈

用户欺诈主要是针对信贷类产品,对用户欺诈的防治可以发生在用户的获取、授信、 交易,及贷后的每一个核心环节。用户反欺诈,希望能做到风控前置,在用户进来之时,就能识别欺诈。根绝欺诈很难,有效的方式是提高欺诈集团的欺诈成本,让其无利可图。

反欺诈服务完全是数据驱动,需要获取很多的信息,包括:设备数据、客户数据、运营商数据、关系人信息、银行信息等。

典型的欺诈异常包括:设备异常、账号异常、行为异常和交易异常等。

反欺诈系统是一个典型的规则驱动的系统, 已知规则形成规则集,直接使用,比如三要素验证、OCR人脸识别、验证银行卡、运营商等等。

更多的欺诈特征因子, 通过使用非监督机器学习技术做异常检测,并形成对欺诈行为的综合评判。图数据作为重要的社交图谱能力及技术帮助业务人员发现更加复杂的信息关联。

3. 用户授信辅助

用户授信辅助主要发生在金融产品的营销环节、贷前审批环节及贷后管理环节。授信能力的前置,可以有效判断用户的信用能力,对用户实现精准营销推送,提升转化率。

TalkingData深度发掘自有移动互联网行为数据,通过多种特征工程,机器学习等技术,形成了一个稳定的行为数据机器学习模型, 达到了很好的行为评分结果。这些能力已经投入实用,为用户的授信提供辅助决策支持。

目前大数据人才,尤其是数据科学家非常短缺,这类人才既要懂编码,还要懂数据分析之道,对行业知识也要有深刻的洞察力,为此,TalkingData推出“数据科学经营夏令营” 活动,包吃包住,还有硅谷游学机会,欢迎各位同学参加,点击文末“阅读原文”了解入营细节。

问答精选

Q:金融行业,比如银行要求可解释性,这块你们是如何处理的?

A:在模型中我们应用了近千个行为数据因子,由于因子过多,饱和度参差不齐,我们首先对特征因子进行了降维处理,筛选了两百多个因子入模型。同时我们输出了对Y值影响较高的数据因子供业务专家判读。这些因子的数据表征与专家认知基本匹配,为金融行业的客户提供可解释性。

量化金融信用与风控分析

课程号:80470193

课程简介

金融与互联网行业的深度结合带来了金融信贷模型的变革,这些变革对于普惠金融、个人和企业信贷带来了很多便利和新的市场形式。然而,新的互联网数据源也给征信模型的设计带来了新的科研问题,同时,互联网中广泛存在的欺诈行为也给这一新的信用模式带来了挑战。该课程目的在于让学生理解这一领域的科研和实践最新进展,为学生开展这一方向的深入研究打下基础。

本课程包括的模块有:1.信贷模型的架构与设计;2.反欺诈模型的架构与设计;3.行业实践案例。在这一课程中,学生需要平均每周阅读2篇本领域最新论文,并且实际动手设计两个项目,包括一个基于LendingClub信贷数据的信用数据建模项目和一个自由选题的团队研发项目。

任课教授

种骥科博士,现任宜信宜人贷首席数据科学家。曾任美国卡内基·梅隆大学教授与博士生导师,开创了卡内基·梅隆大学高性能计算研究教学中心,任联席总监。种骥科有多年互联网、大数据及金融创新经验。。在加入宜人贷之前,曾任职于美国Simply Hired招聘平台,创建了数据科学部,并应邀为白宫科技办公室参谋大数据技术产品设计。种骥科曾就职于美国Silver Lake 私募公司任Kraftwerk基金数据科学架构师,负责大数据技术应用。种骥科持有加州大学伯克利分校电子工程和计算机科学系博士学位,卡内基梅隆大学电子和计算机工程系硕士及本科学位,并持有9项专利。

黄铃博士,AHI Fintech创始人、CEO,加州大学伯克利分校计算机博士。黄铃是DataVisor 公司创始成员和大数据总监 (2014-2016),曾在美国英特尔研究院任资深科学家七年(2007-2014)。黄铃在人工智能、大数据分析和金融科技相关领域有近十五年的研究和开发经验,在世界顶尖会议上发表近50篇论文,总引用超5000次。当前研究兴趣包括:自然语言金融投研,大规模用户画像,风险评估和欺诈检测,基于深度学习的图像分类,目标检测和内容的理解。

讲座嘉宾

5/08:吴中,Datavisor全球技术总监

5/15:陈薇,排列科技CTO,前LendingClub Head of Data Science

5/22:顾凌云,冰鉴科技CEO,前ZestFinance Head of Risk

5/29:陈雷,TalkingData FinTech总经理

后续讲座,请持续关注数据派THU的活动通知。

本文为精华摘录,后台回复关键词“清华大数据”,可下载本节课程PPT全文。(限时七天,不想错过更多内容,就请持续关注数据派THU!)

整理:郑顺

校对:闵黎

编辑:刘文清

原文发布于微信公众号 - 数据派THU(DatapiTHU)

原文发表时间:2017-06-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

德勤调研报告显示,人工智能似乎正在创造新的就业机会

德勤(Deloitte)本周发布的一项研究表明,早期采用人工智能(AI)技术的企业在获得经济收益的同时,正在创造新的就业机会。 ? 接受调查的企业总体上对此看法...

2497
来自专栏DT数据侠

从“芯”领略人工智能 | 数据科学50人·吴强

吴强博士,毕业于普林斯顿大学计算机科学专业,现任地平线 CTO 兼工程院院长、南京研发中心总经理。他曾先后任职于 INTEL、AMD、Facebook 等科技巨...

1712
来自专栏镁客网

华为、小米极力推崇!AI开源为何在国内大行其道?

卡内基梅隆计算机科学院院长安德鲁·摩尔(Andrew Moore)曾提到过这样一组数据:现在,在提交给大型人工智能会议的论文,50%都来自中国,而在十年前,这个...

1282
来自专栏AI科技大本营的专栏

专访 | 德国大神Hans Uszkoreit:语言才是AI的关键,深度学习无法解决NLP的核心问题

德国人工智能研究中心科技总监Hans Uszkoreit博士认为:语言技术是人工智能的核心部分,但当前的深度学习方法还不足以解决NLP领域的核心问题。 在AI...

3547
来自专栏大数据文摘

美国调查显示未来10年公众或逐渐放弃隐私

1775
来自专栏大数据文摘

抛弃爬下来的灰色数据,有门槛的风控怎么做?

2327
来自专栏DT数据侠

从“芯”领略人工智能 | 数据科学50人·吴强

吴强博士,毕业于普林斯顿大学计算机科学专业,现任地平线 CTO 兼工程院院长、南京研发中心总经理。他曾先后任职于 INTEL、AMD、Facebook 等科技巨...

1702
来自专栏机器人网

这些年,聊天机器人产业遇到的坑…

? 我自己在某厂做了两年语音个人助理,后来自己出来创业,首先就否定了这个方向,或者它的变种(如问答系统、智能音箱、客服机器人、聊天机器人、陪伴机器人等等,各...

3926
来自专栏华章科技

吴甘沙:大数据的六大人工智能变现方式

大数据技术与移动互联技术和云计算技术一样,都属于颠覆性的信息技术。但是,大数据并非是高纯度的石油而是含金量非常低的矿石,数据量大、种类繁杂、价值密度低、以及时时...

782
来自专栏新智元

【我的AI研究让老爸丢掉饭碗】先搞定狭义AI,再去担心超级智能

【新智元导读】作者PhD时的研究是帮助银行做交易算法,利用人工智能,金融交易的自动化导致大批交易员失业,这其中竟然包括作者的老爸。本文以此为引子,讨论了狭义AI...

3609

扫码关注云+社区

领取腾讯云代金券