笔者邀请您,先思考:
1 信用评分卡如何变量选择?
2 变量选择有哪些方法以及如何实现?
“以少胜多”是信用智能的主要理念,信用风险模型是实现这一目标的手段。 通过使用自动化流程并专注于关键信息,信用决策可以在几秒钟内完成 - 并且最终可以通过使决策流程更快而降低运营成本。 更少的问题和快速的信贷决策最终会提高客户满意度。 对于贷方来说,这意味着扩大客户群,吸纳风险较小的客户并增加利润。
如何实现简约化以及寻找什么关键信息? 答案在信用风险建模过程的下一步 - 变量选择过程中找到。
作为数据准备结果创建的挖掘视图是一个多维唯一的客户签名,**用于发现潜在的预测关系并测试这些关系的强度。 **根据客户签名中的特征创建一套可测试的假设,对客户签名进行全面分析是重要的一步。 通常被称为商业见解,这种分析提供了对客户行为趋势的解释,其目的是指导建模过程。
商业洞察分析的目的是:
业务洞见分析通过结合单变量和多变量统计以及不同的数据可视化技术,利用类似的技术来进行探索性数据分析。典型的技术有相关性,交叉表,分布,时间序列分析,监督和无监督分割分析。分群是特别重要的,因为它决定何时需要多个评分卡。
基于业务洞察分析结果的变量选择首先将挖掘视图划分为至少两个不同的分区:训练和测试分区。 训练分区用于开发模型,测试分区用于评估模型的性能并验证模型。
图1.简化评分卡模型构建过程
变量选择是在模型训练期间测试显著性的候选模型变量的集合。候选模型变量也被称为自变量,预测变量,属性,模型因子,协变量,回归因子,特征。
变量选择是一个简化过程,旨在确定最大增益预测变量(预测准确度)的最小集合。这种方法与数据准备相反,尽可能多的有意义的变量被添加到挖掘视图中。这些相反的要求是通过优化实现的;即在给定约束条件下找到最小选择偏差。
关键目标是找到一组正确的变量,因此评分卡模型不仅能够根据客户坏账的可能性对客户进行排名,而且还能够估计他们坏账的可能性。这通常意味着在预测模型中选择具有统计意义的变量,并具有一组平衡的预测变量(通常8-15被认为是一个好的平衡点),以收敛到360度的客户观点。除了客户特定的风险特征外,我们还应考虑纳入系统性风险因素来解释经济漂移和波动性。
说起来容易做起来难 - 在选择变量时,存在一些限制。首先,模型通常会包含一些法律,道德或监管规则禁止使用的高度可预测的变量。其次,一些变量可能无法使用,或者在建模或生产阶段可能质量较差。此外,可能有一些重要的变量尚未被认为是这样的,例如,由于有偏倚的人口样本,或者因为它们的模型效应会因为多重共线性而变得反直觉。最后,企业将永远有最后的话,并可能坚持只包含商业声音变量,或要求单调递增或递减效应。
所有这些约束都是潜在的偏倚来源,这给数据科学家提供了一个具有挑战性的任务来减少选择偏倚。变量选择过程中的典型预防措施包括:
认识到变量选择是整个模型构建过程中发生的迭代过程是非常重要的。
变量选择在达到“最佳点”后结束 - 意味着在模型精度方面没有更多的改进。
图2.变量选择过程的迭代性质
大量的变量选择方法是可用的。 随着机器学习的进步,这个数字一直在不断增加。 变量选择技术取决于我们是使用变量减少还是变量消除(过滤),选择过程是在预测模型内部还是外部进行的; 我们是否使用有监督或无监督的学习; 或者底层方法是否基于特定的嵌入式技术(如交叉验证)。
表1.信用风险建模中典型的变量选择方法
图3.使用双变量分析的变量选择
在信用风险建模中,最常用的两种变量选择方法是在模型训练之前基于信息值进行过滤,以及在逻辑回归模型训练期间逐步选择变量选择。 尽管两者都受到了从业者的批评,但重要的是要认识到,没有理想的方法存在,因为每种变量选择方法都有其优点和缺点。 使用哪一个以及如何最好地将它们组合起来并不是一件容易解决的任务,并且需要扎实的领域知识,对数据的良好理解以及丰富的建模经验。
系列之前:信用评分:第3部分 - 数据准备和探索性数据分析
系列之后:信用评分:第5部分 - 评分卡开发
作者: Natasha Mashanovich, Senior Data Scientist at World Programming, UK 原文链接:https://www.worldprogramming.com/blog/credit_scoring_pt4
版权声明:作者保留权利,严禁修改,转载请注明原文链接。