大数据应用于P2P风控领域

一、大数据风控——互联网金融的命脉 近几年,大数据已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会其他各个领域;数据成了有价值的公司资产、重要的经济投入和新型商业模式的基石。 有人曾把大数据比喻成“新时代的石油;业界也有句话叫,得数据者得天下。现如今,在大数据时代下,数据比以往任何时候都更加根植于生活中的每个角落。试图用数据去解决问题、改善福利,并且促成新的经济繁荣等等。以上这些在互联网金融业尤为突出。

(一)大数据风控已成为互联网金融核心环节 早在1980年,著名未来学家阿尔文·托夫勒就在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮”。不过,直到2009年前后,“大数据”才成为互联网信息技术行业的流行词汇。2013年,随着互联网金融的空前热门,也才真正意义上将“大数据”推到了高潮。 如果探究互联网金融与大数据流行之间的关联,背后有一个很关键的因素,就是互联网金融一直无法解答一个核心命题—风险控制。 互联网金融的核心环节还是风控,行业的健康成长也有赖于此。互联网金融不能简单的将传统金融服务模式搬上线,其核心竞争力不是营销获客能力而是大数据风控能力。 那么,如何利用好大数据进行风险评级和风险控制将是今后必须面对的问题。

1、互联网大数据的积累已经让风控进入2.0时代。通过数据的积累,可以实现客户开发和数据采集,然后经过后台的风控模型运算得出结果,最终达到控制风险目的。

2、互联网金融平台除与外部机构合作进行大数据风控外,平台也在积极搜集自有平台的数据。因此,抛开中国人民银行的征信数据外,平台与平台间的打通、交流和数据共享也成为重要的一环。

3、未来可以通过大数据法则,用查询征信记录的方式解决很多问题。基于互联网科技发展起来的大数据可以对信用决策起到重要补充。 事实上,通过大数据管控金融风险的案例在美国已经被广泛采用,但由于国内互联网金融行业仍处于野蛮生长阶段,更多企业将竞争焦点集中在前端如何抢夺用户,而不是后端如何保障用户权益和资金安全上来。这也导致了近年来多家P2P公司跑路,给投资人造成巨大大损失。

(二)大数据征信优势凸显 近年来,中国互联网金融发展迅猛,但问题频发,引入大数据征信成为破解互联网金融风控难题的关键。近日,有媒体报道“6月央行将验收颁发个人征信牌照”,阿里、腾讯等位列其中。这些互联网金融公司具备数据来源广、类型多样化等优点,再通过大数据计算后,更能全面反映个人信用情况。 互联网征信可通过互联网技术以及海量数据优势和用户信息,从财富、安全、守约、消费、社交等几个纬度来评判,为用户建立信用报告,形成以大数据为基础的海量数据库。—这便是大数据的优势所在。 虽然大数据征信的优点突出,但其劣势也很明显:数据源的真实性、庞大数据的整合难度,短期内信用评价数据精准性较低以及获取数据的合法性等问题。

(三)大数据风控有效性的表现 在国外,大数据金融领域的应用相对成熟。比如,美国的ZestFinance。这家企业的大部分员工是数据科学家,他们并不特别地依赖于信用担保行业,用大数据分析进行风险控制是ZestFinance的核心技术。他们的原始数据来源非常广泛,数据工厂的核心技术和机密是他们开发的10个基于学习机器的分析模型,对每位信贷申请人的超过1万条原始信息数据进行分析,并得出超过7万个可对其行为做出测量的指标,而这一过程在5秒钟内就能全部完成。 比如,利用社交网站的大数据进行网络借贷的Lending Club。Lending Club于2007年5月24日在Facebook上开张,通过在上面镶嵌的一款应用搭建借贷双方平台。利用社交网络关系数据和朋友之间的相互信任聚合人气。借款人被分为若干信用等级,但是却不必公布自己的信用历史。 比如,为网上商家提供金融信贷服务的公司Kabbage。Kabbage于2010年4月上线,主要目标客户是eBay、Amazon、PayPal等电商。它的奇特之处在于,其通过获取eBay等公司的网店店主的销售情况、信用记录、顾客流量、评论、商品价格和存货等信息,以及他们在Facebook和Twitter上与客户的互动信息,借助数据挖掘技术,把这些店主分成不同的风险等级,以此来确定提供贷款金额与贷款利率水平,风险过高则拒绝,风险高低与利率成正比,与贷款金额成反比。 从国内来看,大数据风控最有条件的仍然是阿里和腾讯。阿里推出了面向社会的信用服务体系芝麻信用,芝麻信用分是芝麻信用对海量信息数据的综合处理和评估,主要包含了用户信用历史、行为偏好、履约能力、身份特质、人脉关系五个维度。芝麻信用基于阿里巴巴的电商交易数据和蚂蚁金服的互联网金融数据,并与公安网等公共机构以及合作伙伴建立数据合作,与传统征信数据不同,芝麻信用数据涵盖了信用卡还款、网购、转账、理财、水电煤缴费、租房信息、住址搬迁历史、社交关系等等。“芝麻信用”通过分析大量的网络交易及行为数据,对用户进行信用评估,这些信用评估可以帮助互联网金融企业对用户的还款意愿及还款能力做出结论,继而为用户提供快速授信及现金分期服务。 腾讯作为另一巨头,掌握着大量的社交信息相关数据,基于其及时通讯软件,能够抓取到更多的社交数据:地区、年龄、性别、社交关系、学历、关注领域等方面。随着微信的越来越全面,微信支付的普及,腾讯也即将推出自己的大数据征信。微众银行推出的“微粒贷”产品,其风控核心是,通过社交大数据与央行征信等传统银行信用数据结合,运用社交圈、行为特征、交易网、基本社会特征、人行征信5个维度对客户综合评级,运用大量的指标构建多重模型,以此来快速识别客户的信用风险。微众银行还同时进行身份识别确认、短信确认、网络环境确认、移动设备确认,来避免可能存在的信用欺诈行为。 阿里和腾讯分别解决了还款能力和还款意愿方面的评估,这两者都是最核心的风控要素。这样的数据评估对网贷行业的风控促进意义非凡。可以看出,阿里和腾讯之所以成功,原因在于两点:一、数据可以做到即时更新,即数据是鲜活的;二是平台本身对用户有约束力。这两点是大数据运用于风控成功的原因,也被人们称为闭环的数据。

二、大数据风控存在的劣势 当前,大家对于数据应用的广泛前景已经毋庸置疑,利用大数据技术来做互联网金融机构的风险评级和风险控制,在理论上几乎无争议,但在实际行动中却困难重重。 根据《中国P2P网贷行业2015年5月月报》显示,P2P网贷行业历史累计成交量已突破6000亿元。而在近期《2015年第二期网贷评级报告》显示,P2P网贷行业整体坏账率在上升。有些P2P平台的坏账率已经上升到20%以上。截止到2015年5月底,P2P网贷行业累计平台数量达到2607家(含问题平台),问题平台数量占总平台量的四分之一。 总结当前对于大数据风控的质疑,主要存在有以下几个方面:

(一)数据来源的真实性 一是社交数据的真实性问题。美国Lending Club和facebook合作获取社交数据,中国宜信也曾大费周折的收集借款人的社交数据,最后两者得出的结论都是社交数据根本就不能用。美国很多大数据征信公司的信息错误率高达50%,垃圾进、垃圾出。 二是交易数据的真实性问题。当前许多电商平台的刷单现象非常严重,这将导致交易数据的严重失真。随着网购的火爆,有关电商平台“刷单”的报道屡见报端。近日,京东商城因为“刷单”问题引起社会关注。国外一家投资咨询机构发布报告称,京东销售额存在虚报,也就是传说中的“刷单”。电商“刷单”有两种方式,一种是商家找所谓的消费者进行“刷单”。卖家买快递单号,其收件人和寄件人与实际的买家、卖家不一致;另一种是快递公司发空包,但快递公司并未完成配送,而帮助商家完成平台上的物流信息。

(二)数据对于现实反映的有效性 一是网络信息很难还原现实信息。在我国现阶段的互联网发展中,并没有对金融信用与社会信用的相关性进行细致研究。个人信用体现在多方面,包括朋友信用、爱情信用、事业信用、其他社会信用和金融信用等。而每个方面不一定与金融信用紧密相关。即使一个人有很好的朋友信用,也不代表其金融信用同样很好,不能单凭日常生活的信用定位个人的违约风险。 二是金融信用与社会信用的相关性不确定。大数据主要来源于互联网,而人们在网络中的表现并不能完全反映其真实的一面。相同的人群在不同场合呈现的特征是不一样的,尤其是人们在线上、线下割裂的状态,其行为方式往往会出现强烈的反差。例如有些人不善交际,却将自己做的美食展示在微博上,吸引到大量关注,粉丝暴增。因此,对于同一个人,根据单一维度数据对其进行判断的意义是很有限的,不同维度的数据会反映出极为不同的特征,这时候全数据就显得异常重要。因此网络并不能确切地证明某人的社交圈子,也就是说互联网的数据很难还原用户现实中的信息。 三是数据的滞后性。我们所使用的数据总是滞后于行为的,那么过去是否一定能决定未来呢?按照传统的标准正态分布状的金融学模型,2008年的金融危机大概250亿年才会爆发一次,地球都没有那么长的寿命,怎么就让我们赶上了呢?为什么打开新闻,遇到了50年不遇的旱灾,100年不遇的水灾,历史上从来没有过的雾霾天气,等等,这些怎么都让我们赶上了呢?这种黑天鹅事件即使在大数据时代,也仍然是没有办法预测的,因为这些数据都是为了未来某个黑天鹅事件做的准备。

(三)数据收集和使用的合法性 在数据收集和使用的过程中也面临着合法使用的问题。 一方面,当前数据的收集和使用在很多时候都没有征得本人的同意,这导致了数据的滥用和隐私的泄露。以至于提出下一个公民应有且必需的权力是“数据权”的观点。其认为如何高效、适度地开发和使用大数据,不仅仅是一个技术问题,也是一个社会问题。 另一方面,越来越多的理论界和实务界的研究者都倾向于认为数据将成为个体的财产和资产。姜建清(2014)在2014年的达沃斯论坛表示,“个体的数据其实就是个体财产的一部分,就像你在银行里的存款一样,没有经过本人同意是不应该被滥用的”。世界经济论坛(2012)发布的《大数据,大影响》报告认为,数据已经成为一种新的经济资产类别。随着数据重要性的提升,数据列入企业资产负债表只是时间问题,数据将和土地、劳动力和资本一样,成为一种生产要素(Viktor Mayer-Schönberger,2013)。

三、如何解决大数据风控所面临的障碍

(一)多维度的收集数据,互联互通 建立多维度的数据集合,打破数据的孤岛。美国征信系统的完善是因为美国政府对其拥有的大数据资源的开放程度日益透明化。而我国现阶段一些权威的政府数据能否向民间开放,是大数据时代互联网金融发展面临的首要挑战。只有建立一个开放的数据规则,才能有利于未来大数据产业生态的建设。而不是各个平台通过自己的渠道,记录不同客户集体、不同维度、不同时间序列的数据并混合起来应用使得大部分数据因为没有特定规则而产生了“噪音”效果,导致征信模型失效。我国出现150余家平台跑路的现象,原因之一也与大数据信息的不透明紧密相关。数据的封闭使平台捕捉的项目公司信息偏离了大数据的特性,不能及时预测风险,连带地导致投资者对网络借贷乃至互联网金融的创新失去信心,成为行业发展瓶颈。其二,我国的大数据风控系统还没有实现互通互联,阿里、银联、平安、腾讯以及众多的P2P公司,都是各自为政,P2P公司拿不到央行的数据,几家大的互联网平台在相关大数据的分享上彼此也未互通有无。

(二)形成长期稳定的联系 获取真实数据最好的途径就是要切入客户的交易环节,尤其是稳定可持续的交易环节,即供应链。一方面,经过了几十年的发展,当前的供应链都有一套完整上下游进入和退出机制,这些数据肯定是真实的,核心企业没有动机去造假。另一方面,这些数据和数据维度对于供应链中的企业评价是可靠的,银行可以以此为基础,加上自身的风险控制经验,构建一套全新的基于数据的信用评价机制。 从交易费用理论来看,构建交易的混合治理结构,将客户纳入到网络中,正是有利于防止机会主义。从信息经济学的角度来看,通过数据质押,推动信息的透明和对称,则可很大程度上缓解道德风险的问题。当然,极端情况的出现自然无法避免,因而在数据质押对于信用风险的预测和管理基础上,还有许多其他制度上的安排可以弥补风险,比如说保险,比如说传统抵质押。 在国内金融行业,成功运用大数据做风控的只有阿里小贷等有限几家。它们主要是通过卖家累积的海量交易信息及资金流水,在几秒内完成对商家的授信。而在P2P网贷行业,一些平台则以用大数据做风控审核这样虚无缥缈的定义来吸引投资者,但实际上其模式为应收账款质押融资或货物抵押融资,并未真正应用大数据。因为依赖大数据做风控,主要依赖及时更新的数据和对客户的约束力来实现其有效性,这两个因素也被称为“闭环数据”。国内的P2P平台缺乏闭环的交易数据,对借款人的约束力不够强硬,使其风控难以有效地和大数据结合起来,难以单凭大数据来评估借款人的违约风险。

(三)线上线下相结合 在物联网下,不仅要获取交易环节的数据,更重要的是获取生产环节和使用环节的数据。比如说,可以收集企业机器运行数据,可以收集客户汽车驾驶数据,可穿戴设备的身体状况数据,等等。

(四)数据运用的制度建设

1、法律制度建设 2014年10月10日,最高人民法院颁布了《关于审理侵害信息网络传播权民事纠纷案适用法律若干问题的规定》(以下简称《规定》)。《规定》首次明确了个人信息保护的范围。从整体来看,此次《规定》是在网络和信息化时代对有关人身权益的民事侵权纠纷的处理规则。它的最终目的是为了避免随意侵犯他人的人身权益的行为,此次《规定》的一个重要意义就在于有助于形成一种倒逼机制,让侵权方不敢再肆无忌惮、大张旗鼓地收集、利用、泄露他人的个人信息,从而造成对他人人身权益的侵害。 对个人信息的使用是一把双刃剑,用得好是平台供应商、用户和商家的‘多赢’,用得不好则是‘多败’。作为网络数据分析的提供者和使用者,也很希望对网络上个人信息的收集和使用进行规范。作为可以从个人信息收集中获利的一方,法律制度的不健全或许可以带来一时的利益,但法律制度的健全及由此而来的秩序的规范则会带来更大的经济效益和社会效益。

2、会计制度建设 针对大数据资产的会计计量方法,根据取得方式不同可考虑采用两种计量方法:一是企业通过收集信息、整理、加工等形成的大数据,宜采用历史成本法。二是,企业被动获取信息形成的大数据,宜采用现值法计量。考虑到信息时代大数据的时效性因素,大数据资产的使用寿命确定不宜过长,摊销方法应当能够反映与其有关的经济利益的预期实现方式,并一致地运用于不同会计期间。期末账面价值在资产负债表中无形资产项目反映,同时在会计报表有关无形资产的附注中,逐项披露大数据资产的相关信息。

注:本文摘自银通智略报告《金融混业荟萃》(2015年7月)。

PPV课其他精彩文章:


1、回复“干货”查看干货 数据分析师完整知识结构

2、回复“答案”查看大数据Hadoop面试笔试题及答案

3、回复“设计”查看这是我见过最逆天的设计,令人惊叹叫绝

4、回复“可视化”查看数据可视化专题-数据可视化案例与工具

5、回复“禅师”查看当禅师遇到一位理科生,后来禅师疯了!!知识无极限

6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布

7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载

8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募

9、回复“每日一课”查看【每日一课】手机在线视频集锦

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-08-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏轮子工厂

技术人员的发展之路

2012年的时候写过一篇叫《程序算法与人生选择》的文章,我用算法来类比如何做选择,说白了就是怎么去计算,但是并没有讲程序员可以发展的方向有哪些。 所以,就算是有...

814
来自专栏腾讯高校合作

微信全球MBA创新大赛Roadshow首站登陆斯坦福,掀起创新风暴

本文转自微信全球MBA创新大赛官方公众帐号WeWinwithWeChat “微信全球MBA创新大赛——创意中国2015”(We Win with WeChat...

3393
来自专栏知晓程序

「跳一跳」推出皮肤道具!腾讯,你果然是个卖皮肤的公司……

1244
来自专栏人称T客

2014IT趋势:BYOD迎来元年 企业移动化驶入快车道

过去这一两年来,员工自带设备(BringYour Own Device,BYOD)上班的趋势越演越烈,随着2014年到来,国内外市场研究机构依然把移动设备列入必...

2814
来自专栏程序员互动联盟

程序员该如何安排工作时间

这周又是早九点,晚八点。上周上上周....... 早九晚八,累的跟狗似的。 不禁要唱唱时间都去哪了,还没好好感受年轻就老了 一、停下脚步 ? 让我们停下来审视一...

3709
来自专栏人称T客

2014IT趋势:BYOD迎来元年 企业移动化驶入快车道

过去这一两年来,员工自带设备(BringYour Own Device,BYOD)上班的趋势越演越烈,随着2014年到来,国内外市场研究机构依然把移动设备列入必...

3354
来自专栏新智元

徐小平对话雷鸣——AI 创业仅有科学家是万万不行的

【新智元导读】昨天,备受瞩目的“北大 AI 公开课”第一讲揭幕:北大人工智能创新中心主任,百度创始七剑客之一雷鸣对话真格基金创始人、新东方联合创始人徐小平。两位...

3677
来自专栏企鹅号快讯

分析程序员到底是不是吃青春饭

很多人都说程序员就是吃青春饭,程序员就是熬夜加班的象征。让大家感觉程序员都是一种体力劳动,而不是一种智力劳动。就和外面搬砖一样,而不像医生等行业一样越老还越吃香...

2018
来自专栏罗超频道

李逸飞,抄底网页游戏的大玩家

文:罗超 摘要:在页游市场中,李逸飞的37游戏便是其中一个强悍代表——在业界拥有“页游之虎”的美名。37游戏得此美名在于,37游戏总裁及联合创始人李逸飞对整个...

2918
来自专栏华章科技

为什么说大数据一定会从ABC里最先掉队

2010年,工业和信息化部与国家发改委联合发布《关于做好云计算服务创新发展试点示范工作的通知》,云计算元年开启。

902

扫码关注云+社区

领取腾讯云代金券