【应用】信用评分:第2部分 - 信用评分卡建模方法

笔者邀请您,先思考:

1 如何进行信用评分卡建模?有哪些建模方法?

信用评分:第2部分 - 信用评分卡建模方法

伟大的设计通过简单化来呈现其丰富性。(M. Cobanli)

作为数据科学家,我的责任是设计和开发一个准确,有用和稳定的信用风险模型。我还需要确保其他数据科学家和业务分析师能够评估我的模型或重复相同的步骤并产生相同或类似的结果

在模型开发过程中,我尝试从业务中找到答案,以解决一些问题。这些答案有时需要主观判断。只要我能记录我的问题和相应的答案,这种主观主义就没有错。很显然,如果我不断将这些问题和答案添加到列表中,那么就有一个难以遵循的巨大列表的结局的危险。我也可能会以一些重复的问题或甚至矛盾的答案而终结。

我怎么能确定:(1)我不会错过对重要问题的回答; (2)我的模型将成功通过同行评审或审核流程;或(3)我的同事将能够复制模型结果?

为了满足以上几点,我需要:

  • 系统步骤 - 方法论 - 我将遵循以确保最佳实践;
  • 一个支持结构 - 理论框架 - 我将开始填补我的答案;
  • 对信用风险模型的描述提出了重要的特征 - 模型设计 - 证明了商业利益,例如创造更高的利润。

一旦我确定了这些重要的元素,我就可以开始在我的理论框架的正确方面填充我的问题,并着手设计和构建模型。 该过程可能如下所示:

  • 问题1:我如何从区分“好”客户和“坏”客户? 他们是否有支付60,90或180天 - 逾期付款?
  • 答案1:这是我的模型设计的一部分。 我会从业务中寻求答案,我会在“操作定义”下记录它。
  • 问题2:当模型预测“坏”/“好”客户时,结果期应该多久?我应该确定那段时间的日期还是长度?
  • 答案2:这也是我的模型设计的一部分。 再次,我需要与业务部门核实他们期望模型预测的结果。 我将在“性能窗口”下提交这个答案。 一旦我确定了定义和结果期,我就可以从我的数据中得出结果变量,这些数据将构成我框架的一部分。
  • 问题3:谁应该被纳入分析? 我是否需要排除欺诈性客户或处于“好”和“坏”状态之间的人?
  • 答案3:在我的模型设计中,我需要添加一个包含所有假设的列表,以便我可以要求企业确认。
  • 问题4:区分“好”客户和“坏”客户的主要特征是什么?
  • 答案4:这是我理论框架的一部分,特别是识别自变量。 我将进行数据挖掘,以建立客户特征与结果变量之间的关系。 例如,“有固定收入的客户不太可能违约”或“老客户不太可能违约”。 在科学术语中,每个特征(如收入或年龄)代表一个假设,使用逻辑回归等统计方法检验其显着性。 根据统计分析,我可以决定是否在模型中保留这些变量。

等等… 随后的部分将更详细地介绍评分卡建模方法。

开发方法论

任何商业,研究或软件项目都需要合理的方法,通常采用理论或概念框架的形式。框架的目的是描述步骤的顺序及其相互作用。这确保了所有重要阶段的实施,提供了对项目本身的理解,制定了重要的里程碑并建立了项目利益相关方之间的积极协作。

通常可以采用不止一种既定方法。数据挖掘项目是多个概念框架可用的典型示例。数据挖掘通常涉及用于商业目的的预测模型的开发。数据挖掘项目具有多学科性质,需要从不同角度进行考虑,其中包括:

  • 业务 - 用于评估潜在的商业利益
  • 数据科学 - 用于创建理论模型
  • 软件开发 - 用于开发可行的软件解决方案

每个观点可能需要独立的方法,但至少需要两个才能适应上述观点。两种流行方法的例子有Agile-scrum和CRISP-DM(用于数据挖掘的跨行业标准过程);前者用于解决业务和软件开发需求,后者则用于构建商业模式。

Agile-scrum方法是一种时间框的迭代式软件开发方法,逐步构建软件,并具有为业务提供价值的关键目标。 该方法促进用户积极参与,利益相关者之间的有效互动和频繁交付。 因此,它非常适合数据挖掘项目,这些项目通常在短时间内完成,需要经常更新以应对不断变化的经济环境。

CRISP-DM是数据挖掘过程模型的主要行业方法。 它由六个主要相互关联的阶段组成:(1)业务理解,(2)数据理解,(3)数据准备,(4)建模,(5)评估和(6)部署。

图1.CRISP-DM数据挖掘框架

预测模型的最终目标是满足特定业务需求,以改善业务和业务流程的性能。 业务和数据理解都是CRISP-DM的关键阶段。 这两个阶段的结果应该是一个完善的理论框架和模型设计。

理论框架和模型设计

理论框架是一个帮助识别(假设)预测模型(如信用风险模型)中的重要因素及其关系的建模基础。目标是制定一系列假设,并决定用于测试这些假设的建模方法(如逻辑回归)。然而,更重要的是要建立重复/验证研究结果的方法,以获得对模型严谨性更强的信心。

该框架的主要内容是:(1)如因变量(标准),“信用状态”,(2)自变量或预测变量,如年龄,居住和就业状况,收入,银行账户信息,支付记录,或坏账历史,以及(3)可测试的假设,例如“房主不太可能违约”。

模型设计应遵循研究设计方法学的公认原则,这是数据收集,测量和数据分析的蓝图,因此可以对模型进行可靠性和有效性测试。前者测试模型产生稳定和一致结果的程度,后者测试模型是否真实地代表了我们试图预测的现象,即“我们构建了正确的事情吗?”

一个好的模型设计应该记录以下内容:

  • 分析单位(如客户或产品水平),
  • 人口框架(例如,通过贷款申请人)和样本量,
  • 操作性定义(例如,“坏”的定义)和建模假设(例如,排除欺诈性客户),
  • 观察的时间范围(例如过去两年的客户付款记录)和表现窗口,即“坏”定义所适用的时间范围,
  • 数据来源和数据收集方法。

图2.利用历史数据预测未来结果

观察和表现窗口的长度取决于正在设计模型的工业部门。例如,在银行部门,与电信部门相比,这两个窗口通常较长,因为电信部门频繁更换产品需要较短的观察时间和表现窗口。

申请评分卡通常应用于新客户,并且没有观察窗口,因为客户使用申请时已知的信息进行评分。诸如信用局数据之类的外部数据主宰这类评分卡的内部数据。行为评分卡具有利用内部数据的观察窗口,并且倾向于具有比申请评分卡更好的预测能力。

从实施活动开始,可以在整个客户旅程中应用不同的评分卡,以预测客户响应营销活动的可能性。在申请阶段,客户可以针对多种预测模型进行评分,例如信用责任违约的可能性或预测欺诈性客户。将一系列行为评分卡模型应用于现有客户,以预测违约概率,以设定信用额度和利率或计划追加销售和交叉销售活动;保留活动投放的概率或预测偿还债务金额的可能性或为收集目的“自我治疗”的可能性。

信用记分卡模型开发步骤

一旦明确了理论框架和模型设计,我们就可以为CRISP-DM的下一步做好准备。 在不同情况下进行轻微修改后,信用评分卡开发流程的典型步骤如下表所示。

表1.建立标准信用风险评分卡模型的典型步骤

系列之前:信用评分:第1部分:为什么要进行信用评分?

系列之后:信用评分:第3部分 - 数据准备和探索性数据分析

作者: Natasha Mashanovich, Senior Data Scientist at World Programming, UK 原文链接:https://www.worldprogramming.com/blog/credit_scoring_pt2

版权声明:作者保留权利,严禁修改,转载请注明原文链接。

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2018-06-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

看《纽约时报》如何用数据算法打造新一代推荐系统!

通过精炼读者获取这些内容的途径,即在移动应用和网站上基于读者喜好调整文章布局,能够帮助读者找到与他们相关的内容,比如在正确的时间推送读者感兴趣的内容、重大事件的...

10720
来自专栏SIGAI学习与实践平台

非算法类人工智能从业者须知的十件事

AI大潮汹涌,吸引了越来越多的人才进入来添砖加瓦。而其中,除去核心的算法工程师、科学家外,催生了大量相关的从业人员。而无论你是销售,产品,设计,甚至是协作的AP...

13120
来自专栏ATYUN订阅号

滑铁卢大学与DarwinAI开发离线语音模型,准确率可达97%

通常,语音识别的深度学习方法依靠强大的远程服务器进行大量处理。但是,滑铁卢大学和创业公司DarwinAI的研究人员声称已经开创了一种设计语音识别网络的策略,该策...

11410
来自专栏PPV课数据科学社区

【微报告】校园行(上)之社交大数据概念理解及应用案例

一、大数据 1、大数据时代 随着智能手机的普及,网民参与互联网产品和使用各种手机应用的程度越来越深,用户的行为、 位置、 甚至身体生理等每一点变化都成为了可被...

389120
来自专栏CSDN技术头条

推荐算法概览

推荐算法概览(一) 为推荐系统选择正确的推荐算法非常重要,而可用的算法很多,想要找到最适合所处理问题的算法还是很有难度的。这些算法每种都各有优劣,也各有局限,因...

451100
来自专栏人工智能头条

《纽约时报》如何打造新一代推荐系统

17520
来自专栏AI派

个性化推荐系统中的绕不开的经典问题有哪些

推荐系统从诞生到现在,伴随产生了很多的问题,有一些问题有较好的解决方案,但是有的仍然没有通用的解决方案。介绍这些问题之前,先来介绍下推荐系统的预测手段。

32530
来自专栏新智元

【DeepMind最新Nature论文】探索人类行为中的强化学习机制

【新智元导读】DeepMind与来自普林斯顿、NYU、达特茅斯学院、UCL和哈佛大学的研究人员合作,探索了人类行为中的强化学习,为开发智能体强化学习提供了新的策...

29440
来自专栏AI科技大本营的专栏

量子计算+人工智能——这才是未来科技的最大热门!

编译 | AI科技大本营 参与 | shawn 编辑 | 明明 90年代初,当卫奇塔州立大学(Wichita State University)的物理学教授El...

44270
来自专栏数据派THU

独家|盘点5个TensorFlow和机器学习课程,程序员福利(附资源)

本文为你介绍5个有关TensorFlow的机器学习课程,来帮助你进一步了解数据科学和人工智能。

21440

扫码关注云+社区

领取腾讯云代金券