前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【应用】信用评分:第2部分 - 信用评分卡建模方法

【应用】信用评分:第2部分 - 信用评分卡建模方法

作者头像
陆勤_数据人网
发布2018-07-30 16:16:36
7890
发布2018-07-30 16:16:36
举报

笔者邀请您,先思考:

1 如何进行信用评分卡建模?有哪些建模方法?

信用评分:第2部分 - 信用评分卡建模方法

伟大的设计通过简单化来呈现其丰富性。(M. Cobanli)

作为数据科学家,我的责任是设计和开发一个准确,有用和稳定的信用风险模型。我还需要确保其他数据科学家和业务分析师能够评估我的模型或重复相同的步骤并产生相同或类似的结果

在模型开发过程中,我尝试从业务中找到答案,以解决一些问题。这些答案有时需要主观判断。只要我能记录我的问题和相应的答案,这种主观主义就没有错。很显然,如果我不断将这些问题和答案添加到列表中,那么就有一个难以遵循的巨大列表的结局的危险。我也可能会以一些重复的问题或甚至矛盾的答案而终结。

我怎么能确定:(1)我不会错过对重要问题的回答; (2)我的模型将成功通过同行评审或审核流程;或(3)我的同事将能够复制模型结果?

为了满足以上几点,我需要:

  • 系统步骤 - 方法论 - 我将遵循以确保最佳实践;
  • 一个支持结构 - 理论框架 - 我将开始填补我的答案;
  • 对信用风险模型的描述提出了重要的特征 - 模型设计 - 证明了商业利益,例如创造更高的利润。

一旦我确定了这些重要的元素,我就可以开始在我的理论框架的正确方面填充我的问题,并着手设计和构建模型。 该过程可能如下所示:

  • 问题1:我如何从区分“好”客户和“坏”客户? 他们是否有支付60,90或180天 - 逾期付款?
  • 答案1:这是我的模型设计的一部分。 我会从业务中寻求答案,我会在“操作定义”下记录它。
  • 问题2:当模型预测“坏”/“好”客户时,结果期应该多久?我应该确定那段时间的日期还是长度?
  • 答案2:这也是我的模型设计的一部分。 再次,我需要与业务部门核实他们期望模型预测的结果。 我将在“性能窗口”下提交这个答案。 一旦我确定了定义和结果期,我就可以从我的数据中得出结果变量,这些数据将构成我框架的一部分。
  • 问题3:谁应该被纳入分析? 我是否需要排除欺诈性客户或处于“好”和“坏”状态之间的人?
  • 答案3:在我的模型设计中,我需要添加一个包含所有假设的列表,以便我可以要求企业确认。
  • 问题4:区分“好”客户和“坏”客户的主要特征是什么?
  • 答案4:这是我理论框架的一部分,特别是识别自变量。 我将进行数据挖掘,以建立客户特征与结果变量之间的关系。 例如,“有固定收入的客户不太可能违约”或“老客户不太可能违约”。 在科学术语中,每个特征(如收入或年龄)代表一个假设,使用逻辑回归等统计方法检验其显着性。 根据统计分析,我可以决定是否在模型中保留这些变量。

等等… 随后的部分将更详细地介绍评分卡建模方法。

开发方法论

任何商业,研究或软件项目都需要合理的方法,通常采用理论或概念框架的形式。框架的目的是描述步骤的顺序及其相互作用。这确保了所有重要阶段的实施,提供了对项目本身的理解,制定了重要的里程碑并建立了项目利益相关方之间的积极协作。

通常可以采用不止一种既定方法。数据挖掘项目是多个概念框架可用的典型示例。数据挖掘通常涉及用于商业目的的预测模型的开发。数据挖掘项目具有多学科性质,需要从不同角度进行考虑,其中包括:

  • 业务 - 用于评估潜在的商业利益
  • 数据科学 - 用于创建理论模型
  • 软件开发 - 用于开发可行的软件解决方案

每个观点可能需要独立的方法,但至少需要两个才能适应上述观点。两种流行方法的例子有Agile-scrum和CRISP-DM(用于数据挖掘的跨行业标准过程);前者用于解决业务和软件开发需求,后者则用于构建商业模式。

Agile-scrum方法是一种时间框的迭代式软件开发方法,逐步构建软件,并具有为业务提供价值的关键目标。 该方法促进用户积极参与,利益相关者之间的有效互动和频繁交付。 因此,它非常适合数据挖掘项目,这些项目通常在短时间内完成,需要经常更新以应对不断变化的经济环境。

CRISP-DM是数据挖掘过程模型的主要行业方法。 它由六个主要相互关联的阶段组成:(1)业务理解,(2)数据理解,(3)数据准备,(4)建模,(5)评估和(6)部署。

图1.CRISP-DM数据挖掘框架

预测模型的最终目标是满足特定业务需求,以改善业务和业务流程的性能。 业务和数据理解都是CRISP-DM的关键阶段。 这两个阶段的结果应该是一个完善的理论框架和模型设计。

理论框架和模型设计

理论框架是一个帮助识别(假设)预测模型(如信用风险模型)中的重要因素及其关系的建模基础。目标是制定一系列假设,并决定用于测试这些假设的建模方法(如逻辑回归)。然而,更重要的是要建立重复/验证研究结果的方法,以获得对模型严谨性更强的信心。

该框架的主要内容是:(1)如因变量(标准),“信用状态”,(2)自变量或预测变量,如年龄,居住和就业状况,收入,银行账户信息,支付记录,或坏账历史,以及(3)可测试的假设,例如“房主不太可能违约”。

模型设计应遵循研究设计方法学的公认原则,这是数据收集,测量和数据分析的蓝图,因此可以对模型进行可靠性和有效性测试。前者测试模型产生稳定和一致结果的程度,后者测试模型是否真实地代表了我们试图预测的现象,即“我们构建了正确的事情吗?”

一个好的模型设计应该记录以下内容:

  • 分析单位(如客户或产品水平),
  • 人口框架(例如,通过贷款申请人)和样本量,
  • 操作性定义(例如,“坏”的定义)和建模假设(例如,排除欺诈性客户),
  • 观察的时间范围(例如过去两年的客户付款记录)和表现窗口,即“坏”定义所适用的时间范围,
  • 数据来源和数据收集方法。

图2.利用历史数据预测未来结果

观察和表现窗口的长度取决于正在设计模型的工业部门。例如,在银行部门,与电信部门相比,这两个窗口通常较长,因为电信部门频繁更换产品需要较短的观察时间和表现窗口。

申请评分卡通常应用于新客户,并且没有观察窗口,因为客户使用申请时已知的信息进行评分。诸如信用局数据之类的外部数据主宰这类评分卡的内部数据。行为评分卡具有利用内部数据的观察窗口,并且倾向于具有比申请评分卡更好的预测能力。

从实施活动开始,可以在整个客户旅程中应用不同的评分卡,以预测客户响应营销活动的可能性。在申请阶段,客户可以针对多种预测模型进行评分,例如信用责任违约的可能性或预测欺诈性客户。将一系列行为评分卡模型应用于现有客户,以预测违约概率,以设定信用额度和利率或计划追加销售和交叉销售活动;保留活动投放的概率或预测偿还债务金额的可能性或为收集目的“自我治疗”的可能性。

信用记分卡模型开发步骤

一旦明确了理论框架和模型设计,我们就可以为CRISP-DM的下一步做好准备。 在不同情况下进行轻微修改后,信用评分卡开发流程的典型步骤如下表所示。

表1.建立标准信用风险评分卡模型的典型步骤

系列之前:信用评分:第1部分:为什么要进行信用评分?

系列之后:信用评分:第3部分 - 数据准备和探索性数据分析

作者: Natasha Mashanovich, Senior Data Scientist at World Programming, UK 原文链接:https://www.worldprogramming.com/blog/credit_scoring_pt2

版权声明:作者保留权利,严禁修改,转载请注明原文链接。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-06-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学与人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 信用评分:第2部分 - 信用评分卡建模方法
    • 开发方法论
      • 理论框架和模型设计
        • 信用记分卡模型开发步骤
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档