【案例】大拇哥财富——互联网金融个人评分模型

数据猿导读

随着互联网技术的不断发展,传统金融业务也从线下不断转移到线上,很多原先在线下的金融机构开始在互联网上开展经营活动。由于线上和线下的经营方式的差异,在对客户背景了解方面,互联网金融机构面临着新的挑战。

本篇案例为数据猿推出的大型“金融大数据主题策划”活动(查看详情)第一部分的系列案例/征文;感谢 颀灵鹰泽 的投递

作为整体活动的第二部分,2017年6月29日,由数据猿主办,互联网普惠金融研究院联合主办,上海金融行业信息协会、中国信息通信研究院、大数据发展促进委员会、上海大数据联盟、首席数据官联盟、中国大数据技术与应用联盟、上海张江发展战略研究院、人大人科创协办的《「数据猿·超声波」之金融科技·商业价值探索高峰论坛》还将在上海隆重举办【论坛详情】【上届回顾(点击阅读原文查看)】

在论坛现场,也将颁发“技术案例奖”、“应用案例奖”、“实践案例奖”、“优秀征文奖”四大类奖项

来源:数据猿丨投递:颀灵鹰泽

本文长度为5500字,建议阅读11分钟

随着互联网技术的不断发展,传统金融业务也从线下不断转移到线上,很多原先在线下的金融机构开始在互联网上开展经营活动。由于线上和线下的经营方式的差异,在对客户背景了解方面,互联网金融机构面临着新的挑战。例如,在客户反欺诈方面,由于与潜在客户没有见过面,仅仅是根据用户提交的身份信息进行核实。因此,当前互联网金融机构都很重视反欺诈。

另外,由于对客户的背景了解较少,并且由于互联网的特点,这些机构面对的客户的分布范围比较广泛,脱离了原先的受限的地域范围,而且用户数量也比线下有了极大的增长。因此,互联网金融机构目前在对个人信用评价方面有确实存在的需求。

周期/节奏

2016年9月,北京颀灵鹰泽数据科技有限公司与金融机构合作开发颀灵鹰泽数据评分模型,项目组成立,建立评分技术团队。

2016年10至11月,项目团队开始准备评分模型数据,主要包括数据合并和数据清洗。

2016年12至2017年1月,开始评分模型设计工作和细分分析工作。

2017年1月至2017年2月,开始评分模型的的开发工作、模型验证等工作,并对评分模型进行IT开发。

2017年2月至今 与大拇哥财富开展家居消费贷款和装修消费贷款合作,将颀灵鹰泽个人信用评分模型应用于上述消费场景,帮助大拇哥财富快速开展上述两项消费贷款业务。

客户名称/所属分类

北京汇鑫融金融信息服务有限公司(大拇哥财富)/大数据技术服务

任务/目标

互联网金融机构在实际业务中需要对借贷对象进行综合信用评价需求,例如大拇哥财富在开展消费贷款时,需要了解客户的详细信用状况并根据信用状况给予相应的授信额度。另外,互联网金融机构开展的这些消费贷款需要在较短的时间内完成业务,因此需要解决信用评价的效率问题。

北京颀灵鹰泽数据科技有限公司计划在与部分金融机构开展合作的基础上,结合多方面的数据,如学历信息、消费行为数据、运营商信息和信用黑名单等,开发出颀灵鹰泽个人信用评分模型,为互金机构快速了解借贷对象的信用状况提出帮助,助力大拇哥财富公司开展家居消费贷款业务和装修消费贷款业务。

挑战

在评分模型建立过程中,我们在实施时仍然有以下技术难点:

1.颀灵鹰泽个人评分模型的数据有多个不同的数据来源,例如个人申请评分利用的是客户申请信息,综合行为评分来源颀灵鹰泽合作的金融机构和其他第三方数据公司。在这些数据中可能存在一些因各种原因导致的错误,因此,为保证后续的分析工作具有良好的数据基础,保证分析结果的有效性,在正式进行模型开发之前需要仔细考虑如何进行数据分析、数据质量检查。

2.在评分模型的建立过程中,预测变量的设计、生成和计算是整个评分开发过程的重要组成部分,是评分模型进行预测的信息基础。合理的预测变量设计是评分模型成功的关键。评分建模人员需要了解评分袁术数据的含义,并对业务有较深的理解,这对评分建模人员要求很高。

3、评分模型建立后,需要确定其测量其区分好坏客户的能力(区分能力的指标KS值),并保持模型稳定性(模型稳定性指标PSI),如何在两者之间进行平衡,是一个需要综合考虑的问题。一方面,KS值越高,模型的区分能力越好,一般模型的区分能力需要在30%以上,但如果模型的稳定性差的话,可能需要调低KS值,以保证模型的稳定性,两个指标如何调整,需要有评分建模人员有丰富的经验。

实施过程/解决方案

个人信用评分模型的建立过程主要可以分为以下数据准备、模型设计、细分分析、变量设计、模型开发几个阶段。

1、数据准备阶段

数据准备工作包括方案设计、数据合并和数据清洗,总体框架为:

其中,最重要的是数据质量分析方案设计。数据质量分析方案设计需要根据数据分析的目标、当前的数据情况,确定整个数据质量分析需要分析的内容,包括是否需要进行数据合并及应该如何合并,需要进行哪些数据逻辑检查等等。

方案设计是一个随着对数据的了解和对数据的分析而不断更新和完善的过程,因为在分析过程中,会根据数据分析的发现来补充需要分析的内容,而不是全部分析工作在初始分析阶段就能够全部确定,特别是针对存在错误的数据而进行的问题分析,会随着不同的错误情况而不同。数据质量分析的完成也意味着质量分析方案设计的最终完善。

数据合并是数据质量分析过程中的一个普遍环节,由于颀灵鹰泽评分模型的数据来源较多,在进行数据质量分析及后续数据处理时,需要将多个数据源信息按照一定的关联逻辑,例如客户层级的标识,合并汇总到一个统一的数据信息表上,从而可以更加有效的进行汇总后数据信息的加工与分析。

数据清洗是在数据质量分析过程中通过对数据进行进行逻辑检查与挖掘分析后,对其中一些数据存在的特殊情况进行处理,以满足后续建模工作的需要,例如对于某些缺失值与异常值的处理,可按照缺失值与异常值的产生原因设定不同类型的人工标准赋值。

数据质量分析的基本流程和方法见下图:

2、模型设计阶段

在模型设计阶段,将根据数据清洗和整理后得到的建模数据集,结合数据质量分析报告及双方的相关业务经验,确定颀灵鹰泽个人信用评分模型开发及模型验证所用数据,以及模型的各种排除规则、表现定义、样本数据时点等,这将直接决定用于评分模型开发的好、坏、不确定样本。

颀灵鹰泽评分模型设计环节重点考量以下要素:

  • 模型的性质:风险、收益、其它。
  • 数据来源:信用报告数据、其它数据;
  • 应用领域:贷款发放审批业务、账户管理等。
  • 数据时间:观察点、表现点、表现期、观察期;
  • 排除规则:不可评分数据条件、可评分但不适用于建模的数据条件;
  • 表现定义:好、坏、不确定定义;
  • 关于法律合规与公众接受度的考虑;
  • 评分分值标准

3、模型细分分析

颀灵鹰泽个人信用评分模型将样本群体细分成多个子群体,从而可以分别进行模型开发,其主要考虑如下需求:

  • 对于不同子群体设置不同业务策略的需要;
  • 数据多样化对于不同子群体人群的适用性;
  • 在潜在的各子群体中,可能存在较为深层的预测趋势的差异;

通过模型细分,可比对系统总体建立单一模型更能提升系统的预测能力。

4、预测变量设计

在模型的开发过程中,预测变量的设计、生成和计算是整个评分开发过程的重要组成部分,是评分模型进行预测的信息基础。颀灵鹰泽评分模型以FICO评分方法为基础,参考FICO评分模型的预测变量,其反映的信贷特征信息主要包括如下五大类别:

(1)还款历史:包括客户历史上所有账户的还款拖欠情况等信息;

(2)债务情况:包括客户所有账户的债务以及相关信贷产品的使用情况等信息;

(3)信贷历史:包括客户使用各种信贷产品的时间长度和信用历史长度等方面的信息;

(4)信贷需求:包括客户申请新信贷产品方面行为的特征信息;

(5)信贷组合:包括客户所有账户中的涉及到的各种类型的信贷产品组合方面的信息。

5、模型的开发

鹰泽评分模型的开发阶段主要有以下几项工作:

(1)开发准备工作

在确定需要开发的模型数目、细分的逻辑之后,需要根据具体的细分逻辑,将开发时点获取的总体数据集切分成相应的各个细分人群,并在其上抽取相应的细分模型建模所需的数据样本。

(2 )变量分箱和降维

由于模型开发初始时,变量的数目很多,因此首先需要进行变量降维,在变量降维之后产生的变量集的基础上,对变量进行细分箱,粗分箱,变量初步筛选,和变量转换。

(3) 模型优化和变量选择

变量的选择的目的是从变量池内所有可能的备选变量中确定最具预测能力的特征变量组合,并排除掉对好坏预测没有贡献度的变量。对模型的表现定义分配数值,好账户为0,坏帐户为1,开始逻辑回归算法的迭代过程,确定最终的变量系数。

(4) 评分标准化

在得到了基本符合条件的多变量回归模型后,需要将逻辑回归结果转化成用户易于理解的分数。

结果/效果总结

北京大拇哥财富公司是一家在业内小有名气的互联网金融机构,其负债端主要是各种理财产品,资产端主要是汽车贷款、房屋按揭贷款和消费贷款。随着大拇哥财富互联网业务的不断发展,线上业务所占比例逐渐增加,对于业务风险控制的需求也越来越迫切。颀灵鹰泽个人信用评分模型适用于大拇哥财富的业务场景。

因此,大拇哥财富选择和颀灵鹰泽开展合作,将上述的评分模型应用在大拇哥的消费贷款场景中。

大拇哥财富与某大型家居卖场合作,在卖场内开展家居消费贷款业务和装修消费贷款。在客户申请消费贷款时,判断其是否能够通过审批及审批额度是关键。在传统的消费贷款业务中,客户获批消费贷款时间大概是一至三天,如果中间发生某些状况,审批时间可能长达一周。

另外,还需要客户提供一些必要的证明材料,可能还需要再与消费者面谈一次。

为了提高了客户获取贷款的效率,大拇哥财富与颀灵鹰泽在此业务上开展合作。在家居卖场,客户选好想买的家居商品或确定好装修方案后,如果想要办理家居消费贷款或装修消费贷款,只需向卖场销售人员提供少量信息,卖场销售人员在电脑或手机上,打开大拇哥财富软件,将上述信息录入系统。系统将自动进行客户身份识别、信用风险识别等。

这其中的信用分析风险识别就是将客户信息输入个人颀灵鹰泽个人信用评分模型,进行评分运算,计算出该用户的信用评分。鹰泽信用风险评分模型的评分数值与其对应的好坏客户数量比、信用违约概率之间存在相对固定的对应关系。大拇哥财富根据评分和信用违约概率,就可以确定出该客户是否可以通过消费贷款审批以及其可享受的贷款利率。

在消费信贷过程中应用颀灵鹰泽个人信用评分模型,使的原先的审批时间大大缩短,一般从申请贷款,到贷款审批发放的时间,大约为一个小时。用户也不用提交太多的证明材料,客户的体验效果很好。

截止2017年4月底,通过与颀灵鹰泽开展评分模型合作,大拇哥财富累计发放家居消费贷款和装修消费贷款235笔,累计金额3539万元,贷款违约情况符合大拇哥财富之前的预期。

企业介绍:

北京颀灵鹰泽数据科技有限公司是由曾在人民银行征信中心和京东金融工作的庄传礼博士建立的数据科技公司,主要是服务于汽车金融公司、消费贷款公司、互联网金融机构等小微金融机构,提供个人和企业信用评价服务。

颀灵鹰泽现有两个个人信用风险评分模型,一个是鹰泽信贷申请评分模型,一个是鹰泽综合信用评分模型。这个两个评分模型是以FICO评分方法为基础,利同个人基本信息、金融信息、公共信息等多维度的数据训练而成。通过构建的个人信用评分模型计算出来,计算出反应借款人信用风险状况的一个分值,分值范围在0-100之间,分值越高,则表明个人信用越好。

1、评分模型介绍

(1)鹰泽申请评分模型是基于百万量级客户申请信息进行构建的,其KS值(好坏客户数量比)达到49%,而国内银行同类申请评分模型的KS值普遍为30%左右。

(2)鹰泽综合信用评分模型的预测变量覆盖了信用历史、当前负债、信用申请、信用类型以及信用历史长度等五个主要范畴,具有通用性、科学性和稳定性的特点。该模型的KS值达到56%,而国内银行同类信贷行为评分模型KS值普遍为40%左右。

2、应用场景

鹰泽申请评分模型和鹰泽综合信用评分模型的应用场景十分广泛。其中鹰泽申请评分模型可以用于个人信用卡、个人贷款申请审批;鹰泽综合信用评分模型则适用于信贷业务的整个生命周期,可用于放贷机构贷前、贷中和贷后管理的各个业务环节,如信贷审批、风险定价、额度管理、风险预警等。

(1)信贷类:P2P、小贷、消费金融风险预警

P2P、小额贷款、消费金融等服务行业,大都属于无抵押信用贷款范畴。消费者的还贷能力和还贷意愿,可从客户的信用中得到直接反映,信用维度包含历史交易记录、个人身份特征、家庭信用情况等方面。具体包含以下几方面:

  • 反欺诈:身份验证、黑名单验证
  • 还贷能力鉴定:职业信息、公积金、社保信息判断
  • 家庭信用状况:评估家庭整体风险(配偶信用查询)
  • 用户价值度识别:高价值用户--如灰名单用户识别

在信贷业务的整个生命周期中——贷前、贷后、催收等环节,颀灵鹰泽评分模型可与不同场景结合使用。

(2)贷前审核

贷前审核过程中,信贷业务员,除了审核客户提交的基本信息、审核材料外,还可借助客户“鹰泽分”的结果,对以下环节产生影响:

  • 简化流程:业务员确认客户身份等基本信息后,再根据该客户的“鹰泽分”,确定是否继续审核该用户其他材料,以达到快速过滤部分不合格客户。
  • 确定信用额度、灵活定价:系统根据客户的“鹰泽分”,制定客户的贷款额度及贷款利率。
  • 审批结果确认:结果公司资金总量的宽裕度、以及客户的“鹰泽分”,确定是否批准客户的审批。

(3)催收管理

催收管理过程中,通过“鹰泽分”的查询,对以下环节产生影响:

优化催收策略:催收计划或优先级制定过程中,加入客户“鹰泽分”维度,以细化催收策略。

合理分配催收资源:如果客户“鹰泽分”低于某一数值,可将资产作为坏账变卖。

(4)CRM精准营销

集团型企业如保险公司,根据数据挖掘初步判断客户潜在需求后,为实现更精准的营销,可在向客户推销产品前,查询该客户的“鹰泽分”,并根据客户的分值情况做好不同的销售策略:

  • 如果用户分值较高,减少对此类用户的打扰,适当时机向此类客户推荐高价值产品;
  • 如果用户分值居中,增加对此类客户的关注度,适当时机向此类客户推荐产品;
  • 如果用户分值较低,减少对此类客户的关注度。

两种信用评分使用方式可以分为三种情形:一是作为风险计量工具,单独用于评估借款人的信用风险水平;二是和放贷机构内部评分结合使用,形成评分矩阵,从更多的角度对借款人的信用风险状况进行评估;三是作为放贷机构内部评分模型的一个变量参与评分计算,提高内部评分模型的性能。

原文发布于微信公众号 - 数据猿(datayuancn)

原文发表时间:2017-06-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能快报

利用深度学习加速癌症研究

美国橡树岭国家实验室(ORNL)发布消息称,深度学习技术已被用于加速癌症研究。 尽管近几十年来在检测和治疗方面取得了稳步进展,癌症仍然是美国的第二大死亡原因,每...

3626
来自专栏AI科技评论

业界 | 码隆科技最新发布ProductAI

机器如何懂时尚?这是码隆科技上一款产品希望解决的问题,那一次他们推出了StyleAI,希望用图像识别结合深度学习来破解时尚密码。 10月24日,该公司更进一步,...

3705
来自专栏机器之心

业界 | 蚂蚁金服首届ATEC开发者大赛人工智能大赛圆满落幕,一文详解最佳解题方案

杭州·云栖大会期间,首届「ATEC 蚂蚁开发者大赛人工智能大赛」在 ATEC 展馆落下帷幕。

1582
来自专栏CDA数据分析师

R 语言数据分析师养成计划——从零开始的 14 个任务

作者 CDA数据分析师 1992年,肉丝(Ross Ihaka)和萝卜特(Robert Gentleman)两个人在S语言(贝尔实验室开发的一种统计用编程语...

3137
来自专栏机器之心

京东金融城市计算论文入选IJCAI 2018,郑宇解读地理传感器时间序列预测问题

2265
来自专栏人称T客

SaaS估值新模型SANE的介绍| 报告

T客汇官网:tikehui.com 撰文 | 卿云 由于Twilio(NYSE:TWLO)当时IPO,将其从此分析中将其排除。为了减轻数据中的生存偏差,早期数据...

3235
来自专栏玉树芝兰

“啤酒尿布”模型管用,说不清因果又怎样?

一个模型,可以准确做分类预测。而且反复在新的、没有训练的数据上尝试过,好用,那不就好了?

731
来自专栏PPV课数据科学社区

干货分享 | 千人专家朱晓天:大数据与人工智能在金融领域的应用

12月9日,以“数智金融-大数据的创新与应用”为主题的第二届中欧大数据金融论坛在深圳举行,国家千人计划金融领域特聘专家、北京大学汇丰商学院金融实验...

3565
来自专栏镁客网

第一批被AI累死的人

一眼望过去,一排排的电脑屏幕上,都是类似的画面。也许是因为窗帘的遮光效果太好,略显昏暗的办公环境加上电脑屏幕上被放大的各种物体细节,颇为惊悚。

1233
来自专栏机器之心

魔都要用最先进的神经网络预测交通?前排围观

你是否曾有过这样的经历——有时遇上一个红灯,接下来的每个路口就全是红灯;有时却是一路的绿灯?这并非个人的运气好坏,而是背后一套交通灯系统运行的系统在起作用。

1574

扫码关注云+社区

领取腾讯云代金券