泛谈大数据 + AI 在征信行业的应用

一、大数据+ AI的优势

1、更准确的评估用户信用

解释:能够考虑过去可能没有得到信用评分的人,或者可能被传统的基于逻辑回归的评分太匆忙地拒绝了。换句话说,AI可以查看消费者信用记录中的某些数据点,计算他们即将偿还的概率;或者考虑那些过去12个月都没有还款(基于某些原因),但是在某一个数据点,他们偿还了所有的款项的人群。

2、AI对风控的控制更加精确

解释:人为的去做风控,每一个人都会有自己的主观看法和偏差,但是用AI + 模型 + 大数据去判断风险,去控制风险,可以令风险的控制和判断更加精准。

3、极大提升传统征信行业的决策效率

解释:AI对大数据量的加工处理更高效,决策效率也很高,替代了大部分的人工操作和决策过程。

二、AI(以DL为例) 和 ML(以LR为例)在征信大数据上的区别与联系

区别:

1、DL对数据的学习更加全面深刻,而LR过于教条;

解释:DL可以通过复杂的推理,在大数据中找到不明显的东西(优势中的第一点),而往往这些特殊的、或者个别的才最重要;LR则要求我们对数据强行结构化,这种做法容易消磨原始数据的真实性。

2、DL在训练时能够兼顾多个变量之间的交互情况,而LR更多的是考虑单个变量

3、LR对借款人的可解释性更强,DL目前难以提供专业的“原因代码”(据说Equifax公司已经有了一套生成原因代码的算法)。

联系:

1、ML:任何通过数据训练的学习算法的相关研究;

2、DL:深度学习不仅仅是具备多层架构的感知器,而是一系列能够用来构建可组合可微分的体系结构的技术和方法;

3、AI是一个很大的概念,而ML则是AI的一个分支——》ML是AI的子集

4、机器学习包括了ANN(人工神经网络),而ANN是深度学习的起源——》DL是ML的子集;

5、AI == ML + NLP、图像处理、人脸识别、语音识别、知识图谱等

ML == DL + LR、贝叶斯、SVM等

图1 AI、ML、DL的联系

三、大数据+AI技术如何应用到征信行业

大数据 + ML:利用大量用户金融交易行为记录类数据,通过机器学习方法,建立模型,预测用户信用情况,给出不同形式的反馈结果;

大数据 + AI:人工智能补充ML的不足,驱动征信业的发展;

AI可以通过那些手段、方法,补充ML的不足呢?

DNN:深度训练、分析用户信贷类数据,分析多个变量之间的交互;

NLP:智能问答系统、智能机器人解决信贷者的疑问;

图象处理:扫描信贷者的证件;

人脸识别:人脸识别活体,和身份证做对比;

知识图谱:解决反欺诈问题、不一致性验证、团伙欺诈等;

知识图谱应用举例如下:

1)不一致性验证

解释:张三、李四不同公司,但是同一个电话,这就是风险点,但是我们的实名认证没有包括这个信息;

解释:张三和李四是朋友关系,而且张三和借款人也是朋友关系,那我们可以推理出借款人和李四也是朋友关系,而不是父子关系(红包关系链的问题);

2)组团欺诈

解释:张三、李四和王五之间没有直接关系,但通三者之间都共享着某一部分信息,组团欺诈的可能性较高。虽然组团欺诈的形式众多,但有一点值得肯定的是知识图谱一定会比其他任何的工具提供更佳便捷的分析手段。

四、监管(万存知局长)和业界对征信业的看法

1、信用评分——信用模型所用信息不能包括非信贷类(比如某宝所用的特征维度有:学习及职业经历、人脉关系(已经涉及隐私)等,是不可以的!)信息;

2、应用场景——主要在金融领域,特定的用途需要特定的授权;

3、个人征信——三个原则:第三方征信的独立性;征信活动中的公正性;个人信息隐私权益保护;

4、个人征信 ≠ 社会信用体系(个人理解:主要是指应用场景的范围吧,像机场快速通道、谈恋爱等,有点夸张了,也是某宝的主意)。

后记展望

人工智能听起来确实很强大,但是就目前的成果而言,只是提高了人类的工作效率,落实到具体的应用场景,我们还需要更加努力的探索和思考。特别是在金融领域和征信行业,我们更需要投入大量精力,不断尝试,不断创新,积极利用人工智能新技术,新方法,提高工作效率,提升模型精度,提升用户体验。

参考资料:

杨涛. 对人工智能在金融领域应用的思考[J]. 国际金融, 2016(12):24-27.

https://www.americanbanker.com/news/is-ai-making-credit-scores-better-or-more-confusing

http://iof.hexun.com/2016-09-25/186180278.html

http://36kr.com/p/5051729.html

http://www.360doc.com/content/17/0523/09/43402838_656388928.shtml

http://news.mydrivers.com/1/513/513732.htm

http://tech.qq.com/a/20160914/056945.htm

https://www.quora.com/What-is-the-difference-between-artificial-intelligence-machine-learning-data-mining-and-business-intelligence-How-they-are-related

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

一个资深数据人对 数据挖掘 的解读

数据分析网 http://www.afenxi.com/post/7348 在银行做了两年的数据分析和挖掘工作,较少接触互联网的应用场景,因此,一直都在思考一个...

3209
来自专栏数据派THU

刘念宏:道与术,怎样才能真正学好大数据?I 优秀毕业生专访

[ 导读 ] 清华-青岛数据科学研究院(以下简称“数据院”)自2014年4月成立以来,秉承“学校统筹,问题引导,社科突破,商科优势,工科整合,业界联盟”24字指...

703
来自专栏IT派

每个数据科学家都应该学习4个必备技能

IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 摘要: 作为一个数据科学家你必须要掌握的四个必备技能,值得每个想要成为数据科学家和已经成为...

4189
来自专栏企鹅号快讯

为什么神经网络会把乌龟识别成步枪?现在的 AI 值得信任吗?

概要:人工智能的快速发展的确值得欣喜,但快速发展的背后还有各种不完善的地方。 人工智能的快速发展的确值得欣喜,但快速发展的背后还有各种不完善的地方。比如,前不久...

1686
来自专栏华章科技

送书 | 别泡枸杞,别晒步数!7招搞懂健康数据,有型有颜等TA来撩

导读:你的日常活动正在产生大量数据!但其中很多数据也正在被你浪费。你以为数据与健康的关系,就是在朋友圈里晒晒步数?其实,并不需要复杂的技术,这些数据就可以帮你完...

352
来自专栏数据派THU

基于问题导向与成果产出的教学模式:《大数据与城市规划》特色课程

[ 编者按 ]2015年12月,清华大学推出“大数据能力提升项目”,旨在促进大数据人才培养,服务国家大数据发展战略。项目由清华-青岛数据科学研究院(以下简称:数...

673
来自专栏钱塘大数据

七种数据展示方法,让你讲好数据故事

导读:数据可以帮助我们用不同视角叙述不同类型的故事。我们通过由 Freedom House(一个独立的监测机构)整理的数据来探讨一下每一种分类。这些数据将每个...

32911
来自专栏华章科技

您的位置信息如何被利用?——基于位置信息的应用和地理信息匹配算法

最近有段视频很火,《CCTV重磅新闻:美国超级间谍潜入中国!就在你身边》!描述了借助iPhone手机的定位功能,记录了您的所有行踪。

653
来自专栏数据科学与人工智能

【数据挖掘】互联网和金融,在数据挖掘上究竟存在什么样的区别?

---- 在银行做了两年的数据分析和挖掘工作,较少接触互联网的应用场景,因此,一直都在思考一个问题,“互联网和金融,在数据挖掘上,究竟存在什么样的区别”。在对这...

2249
来自专栏京东技术

京东AI研究院在CVPR 2018 LIP 全球竞赛中荣获两项冠军

1473

扫码关注云+社区