【数据分析】大数据征信面临的问题及如何找到突破口

从开展大数据征信业务的三个阶段——数据采集、模型建立、后期应用——来看的话,企业要做好大数据征信在每个阶段其实都有着很大阻碍,一句话来总结这些阻碍那就是中国是一个有特色的国家,照搬国外行不通。典型的如银行有风控模型,但一直没有大规模在全行内使用。简单来说,三个阶段中,大数据征信不得不考虑的问题如下:

  • 数据采集:社交数据适用性;数据够不够多,够不够全;法律问题
  • 模型建立:简单的模型是否可行;模型中融合的变量够不够多;坏账的不可预测性
  • 后期应用:输出结果需要反复验证,不断修改;输出结果是动态的,不能是事后分析数据,能够在线实时互动;模型可塑性强,能适时添加新变量

▎数据是否够全面

其实数据是否够全面这个问题会促使思考者在开展大数据征信业务前去罗列出他已经所拥有的和还缺失的数据源。这个问题的答案当然很好回答:数据越多越好。哪怕是我们后面会说社交性数据不一定适用于中国国情,但有就比没有强,好比其他数据通过模型验证借款人符合条件,但社交数据中发现他搜索过很多次信用卡如何套现,那这时他的征信评分应该打个折扣,至少需要再去验证他套现的可能性到底有多大。

但要做到数据的全面性又非常困难,这是一个不争的事实。比如虽然芝麻信用的数据库量级很大,但它也不能称得上严格意义上的全面性。因为高端人群中可能用支付宝的比例并不大,就这部分人群的信用数据,银行和传统金融机构的积累更有说服力。

说到这里,我们可以去看下央行授权的那8家征信机构是怎么面对这个问题的。首先他们的一致观点是:金融数据依然是最有效的变量。所以八家机构无一例外都在寻找金融业客户,前海征信、中诚信征信、鹏元征信三家完全专注于金融业,其他行业客户微乎其微。其中小贷公司、P2P平台、消费金融公司是主要争夺目标。

  • 前海征信已经接入50余家信贷机构,接入公测的机构包括宜信、拍拍贷、好贷网、分期乐、神州融、点融网等。其中有的机构合作较深,例如搜狐旗下的搜易贷已经改造了整体系统,将前海征信的产品嵌入了他们的风控流程。
  • 中诚信征信的“信用联盟”已有70余家机构,包括积木盒子、融360、华夏典当、开开贷等民间金融机构,此外还有上百家此前就有合作的中小银行。
  • 芝麻信用尽管业务重点并非金融,但也和积木盒子、玖富、点融网、融360等P2P平台取得了合作。

另外需要提到的一点就是他们之间的合作是互相的:一方面个人征信机构为P2P平台提供通用分作为参考,同时提供反欺诈、催收等相关服务。另一方面,P2P平台对个人征信机构贡献数据。

由此可见,数据是否够全面是所有征信企业都要面临的一个问题,这也是开展大数据征信业务首先要考虑的问题。可以大胆的预测:后期大数据征信业务开展的好的,绝对拥有者丰富的数据来源,积累了大量的数据。因为大数据征信的本质是找到数据背后的关联,数据体量越大,种类越多,某种潜在的关联才有可能被挖掘,从而更能接近本质,即更能反映被评估人的本质。

▎社交数据的适用性

社交数据作为现在被炒得火热的一个互联网词汇,我们认为在大数据征信业务中作用没有那么大。不可否认社交数据有作用,它能反应出一个人的爱好、交际圈、能力,干了什么,如果是实名注册的社交媒体,还能追踪到他的活动范围和对一些事物的真实想法。

但不可否认的,我国的实名注册体系还不够完善,网上随意可搜到的身份证信息,随意可买到的其他人的银行卡等,都给实名认证带来一定的困扰;另外就是网络中的语言会有随意性和虚伪性,有时不能反应一个人的本质,甚至会是完全相反的作证,这些都需要对社交数据真实性去验证,以免出现数据“垃圾进,垃圾出”,即输入的数据是失真的,那么数据输出的结果也必然失真。

其实从另一个方面讲,大数据征信可用的数据源已经非常多了,各种结构化和类结构化数据都能更真实的反应出评估对象的信用情况。比如交易信息、法律记录、租赁信息,银行数据,这几个维度的数据综合在一起已经能构成一个足够大数量级的信息库。

当然社交数据不意味着完全丢弃,至少现在的情况来看,可以不被作为重点。以后随着我国各项制度的完善,人们使用的社交媒体更加完善,网络社交环境更加纯净,社交数据绝对是大数据征信信息渠道的重中之重。

▎潜在的法律问题

之所以说是潜在的法律问题,是因为目前来看大数据征信还没有什么法律障碍。本来被各界所关注的“第三方对第三方”问题,即数据搜集企业不应该再开展征信业务,现在也随着阿里巴巴、腾讯、拉卡拉等企业的入局而变得没什么意义。未来这种潜在的道德风险不得不考虑。

但我们这里要说的法律问题是消费者或者说被征信者要提出的个人权益诉求。一方面是个人信息和隐私保护问题,有天消费者突然发现他的个人信息和记录被一些商业机构用于商业获利,并给他带来了不良影响,可能他会拿起法律武器;另一方面就是征信报告和信用评分没有经过消费者同意,而被金融机构、电商、p2p等使用,给他带来了生活、工作上的麻烦,比如导致他无法贷款,无法成为电商高级会员而享受到各种服务,那结果他可能会找给金融机构、电商提供信用评分的大数据征信企业,为什么在未经他本人同意的情况下提供出他的信用情况。这些都是潜在的法律问题。

所以我们认为大数据征信企业即使是向第三方购买的数据,也应进一步的询问清楚数据来源。更重要的是,要在征得被评估人本人同意的情况下,或者机构表明被评估人同意的情况下,再行出售评估报告或者评分等级。另外有一点也不能忽视,就是要实时更新被评估者的信用情况,以免出现被评估者已经发生了很大改变,信用情况已经转好,但由于数据更新不及时,导致评估结果依然是老旧的,给被评估人带来各种不便。

这里我们以美国的做法为例,给读者一个好的借鉴。美国在1970年通过《公平信用报告法案》以后,通过几十年的摸索和实践,基本上解决了个人征信中的法律问题。《公平信用报告法案》以法律的形式具体规定个人信用信息局、信息使用者和信息提供者的责任和义务。要求个人信息局公平、合理、准确,保护个人信息和隐私。法律指出消费者有了解自身信用文档的权利;信息局对外透露个人信息须有信息主体本人书面同意或其他具体合理用途;当信息主体本人提出信息不准确不完整时,信息局和信息提供者必须调查并给与答复。该法案还规定,个人信用档案中超过一定年限的负面纪录必须删除。例如,破产记录只能保留7年。

至于信用评分使用的信息,法律界有一致的解释。《公平信用报告法案》适用于个人信用评分使用的所有信息。这就是为什么美国最大的征信机构FICO只使用信用信息局的信息来评分。

在《公平信用报告法案》通过之前,很多信息局的信息中,除了直接从债权人处获取的属于具体事实的消费者信用记录,还有一部分被定义为“消费者调查报告”的非事实信息。它的目的是了解一个消费者的性格、信誉、个性特征及生活方式等;其信息是通过“调查访谈”认识或者知道被调查者的人群,比如被调查者的邻居、朋友、同事或者合伙人等。《公平信用报告法案》对这种调查行为和信息进行了详细定义和具体限制,把它摒弃于公平信用报告之外,目的是使信用报告符合三大原则:准确性,透明性,相关性。

▎模型的建立和反复验证问题

首先来看一个对大数据征信不利的事实。上文提到8家获得央行授牌的征信企业为了获得更丰富的数据和众多网贷、第三方支付企业合作,但实际情况时目前敢于将个人征信机构的信用分真正用于风控模型的寥寥无几。这些网贷平台现阶段只会用老数据和他们的信用分做比对,观察数据库匹配程度有多高,对形成坏账的解释程度有多高。他们的观点是八家机构的通用分都是对一个人整体信用打分,这个概念十分模糊。通用分的数据变量非常繁杂,针对P2P贷款提供的信用判断不够精准,不能按照分数计算出放贷金额。所以现阶段个人征信机构最大的价值是反欺诈和催收。

所以从现在的实际情况和国外的发展经历来看,数据源的问题解决之后,模型的建立、模型的反复验证、模型的适用性是接下来要考虑的问题。在分析这些问题时,我们顺便将这些问题的解决方式也一起分析。

1.数据够多是模型建立前提

模型的建立更多的是模型和数据的融合问题。模型好比是在真真假假、或有或无的数据海洋里“做游戏”。只要池子里的变量多到一定程度,模型给出的分数就会趋于稳定。举个简单的例子,如果仅买一只股票,收入就全都取决于这只股票的涨跌;但如果分散投资1000只股票,从统计学角度,即使其中一只股票暴跌,也不会对你的整体资产走势产生影响。

同理,当变量足够多时,即使其中个别变量错误或缺失,也不会对最终结果产生实质影响。所以,只要数学逻辑正确,采用的变量越多,模型就越准确。或许建模时会面临数据缺失的问题,但数据缺失即是信息。在传统模型中,数据缺失意味着盲区,意味着要用模拟数据去“填补”,否则就无法建模。但从另一角度想,数据缺失本身就可以得出很多有用的结论,因为数据缺失可能是真的缺失,也可能是故意缺失。例如,假如在“月消费、坏账、所用通信网络”几个选项中,如果全部数据缺失则是真的缺失;如果前两项有数据,但通信网络一栏为空白,说明是申请人故意隐匿信息,从而有欺诈的嫌疑。正常情况下,电信运营商应该可以查到一个人所用的通信网络,如果查不到就有问题。

2.多套模型共同工作解决适用性

这一点或许是和金融机构使用的评估模从模型数量而言,传统征信评分通常采用一个模型,而采用多个模型,从不同角度进行计算,即可以解决结果准确性问题,也可以增加模型适用范围。

例如我们建立了十个模型来开展征信业务,这十个模型从不同角度衡量申请人的分数,其中两个是进行身份验证防欺诈的,一个是预测提前还款概率的,其余都是评判还款意愿和能力的。最后还会用一个决策模型将十个模型的结果整合在一起,得到最终的结果。毫无疑问模型越多,准确率越高。

当然多套模型工作有个基础,那就是要依靠科技手段,主要是IT技术来实现多套模型的同时工作,人工的话工作量太大,也不太可能实现。比如针对某企业的贷后预警管理。做风险预警,各种信号最为重要,这要求整个模型对各种信号的反应及时且灵敏。这可以通过机器学习来实现,不论收集数据还是提取信号,都是机器自动学习的过程,在三五秒内作出决定,没有人工参与。例如,通过机器学习发现,在月收入经过验证的情况下(总有一些渠道可以大概获知一个人的收入状况),收入越高,违约率越低。然而,在月收入没有经过验证的情况下,自己填写月收入7500元的人违约率是最低的,填写7500元以上则数字越大违约率就更高。另一个例子,对于传统金融机构而言,月收入可能是预测一个人还款的最重要因素。但经过机器学习,发现其实收入高低并不说明问题,收入减去支出的净收入加上地理因素,才能对还款产生预测能力。

所以有时候不同信号之间的互动可以产生非常有趣的结果,困难之处在于如何利用数学找到信号之间的关联。

3.模型反复验证问题

这是任何一家大数据征信企业都必须面临的一个问题。客户必然是先将自己的过去的数据用征信企业模型运算,看评估结果与真实的结果是否一致,或者相差多少。不满意的话,征信企业可能就会很麻烦,需要拿走修改模型,更可怕的情况是在这一个客户这里适用非常好,但换了一个地方再另一个客户那里却完全不起作用。其实面对这个问题,大数据征信企业本身就要有思想准备,做好反复折腾的打算。这里要明白做大数据征信的意义,两个方面:在同样通过率的情况下降低坏账率,或在同样坏账率的情况下提高通过率。

另外就算是模型当初获得了市场好评,但也要做好及时更新的打算。因为征信数据实时鲜活。更新模型能加入更多、更新的数据,使数据和模型更好的融合。这也符合大数据的两个主要特点:存量、热数据。模型不再是离线的事后分析数据,而是在线实时的互动数据。如果某个人有违约行为记录,会立刻被刻画进来,使当前业务的快速决策更加有效。

▎大数据征信企业定位问题

大数据征信企业不仅要关注信用评估,更要关注基本的征信产品和服务。信用评估只是征信产品和服务的一种,信用报告和信用监测是更基础的征信服务,其重要性不亚于信用评估。就信用报告而言,所提供的个人消费者的信用信息更加全面、客观和真实。用来进行信用评估的内容往往就是根据信用报告的基本数据进行挖掘、分析而得到的。

正确在征信行业价值链中的定位,而不是大而全。即使美国的三大征信机构也把很多分析和服务外包出去,征信行业的价值链条包括数据采集、加工、分析、服务等,例如美国有很多小型的征信机构提供专用的数据源,有的征信机构服务于特定人群,最为熟知的FICO(费埃哲)公司是专门提供基于征信数据的决策分析,本文中的Credit Karma则是专门向个人消费者提供征信信息服务。国内新兴的个人征信机构可以根据自己的特点和实力进行正确定位。

从商业模式和技术两个维度进行创新。案例企业CreditKarma本身并没有数据,但是却利用互联网商业模式的创新和数据挖掘技术,根据“基础的金融服务应该是免费的”理念不断丰富的征信产品和服务,开创了互联网征信新模式。

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2015-10-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

Google 在人工智能领域的高歌猛进——在机器学习上加大投资使 Google 跻身科研前列

《自然》杂志(Nature),《美国国家科学院院刊》(The Proceedings of the National Academy ofSciences),《...

3645
来自专栏机器之心

AI 社区有多排外?「外行人」观点引发争议

近日,蒙特利尔 Jewish General Hospital 的生物统计学家 Alexia Jolicoeur-Martineau 在社交网络中抱怨 AI 研...

1152
来自专栏机器人网

机器人产业热点技术、发展现状及趋势解析

走进汽车生产企业,各种焊接机器人、装配机器人组成的生产线精准高效地运行。而在各大卖场,也可以看到琳琅满目的清扫机器人、机器人玩具等。机器人已从科幻小说和电影银幕...

3738
来自专栏企鹅号快讯

十大科学突破预示科学发展三大趋势

新华社华盛顿12月21日电(记者林小春)每到年底,国际科学界公认的权威刊物美国《科学》杂志都会评选十大科学突破,这不仅是对年度科技大事的年终盘点,从中更能看出近...

1869
来自专栏华章科技

剑桥大学:156页PPT全景展示AI过去的12个月(附下载)

导读:剑桥大学Nathan Benaich 与Ian Hogarth 博士共同发布关于人工智能最近12个月进展的报告,其中包含对新技术,人才流动,工业界动向,各...

1301
来自专栏AI科技评论

视角 | 全球AI顶会研究人员的男女比例是7:1,最高和最低的地方居然是…

图片来源:www.stadiumdesignsummit.com 所有者:Xperiology

1072
来自专栏IT派

AI人才大迁徙:如何迅速成为机器学习内行?

IT派 - {技术青年圈} 持续关注互联网、区块链、人工智能领域 现在,新的一波技术革命巨浪已经近在眼前, 代表技术就是 AI、区块链和物联网。 深度学习本质...

3786
来自专栏AI科技评论

周刊 | 政府工作报告首现“人工智能”,AI进军国家战略层、李飞飞讲AI民主化四大战略

本周,国内AI圈值得关注的事情有:FPGA 2017最佳论文出炉,AI科技评论对得主深鉴科技进行了专访;人工智能”进入国家战略层,AI公司最关注的是什么?AW...

35810
来自专栏SIGAI学习与实践平台

AI时代大点兵——国内外知名AI公司2018年最新盘点【完整版】

据腾讯研究院统计,截至2017年6月,全球人工智能初创企业共计2617家。美国占据1078家居首,中国以592家企业排名第二,其后分别是英国,以色列,加拿大等国...

48910
来自专栏大数据和云计算技术

2017腾讯云峰会观后感

1、6月21日,腾讯云在深圳举行的腾讯云+未来峰会上,首次发布了 AI战略新品——AI 即服务的智能云。口号似曾相识,有点像今年Google I/O大会上宣布的...

4239

扫码关注云+社区

领取腾讯云代金券