前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >学习周报20200621 | 风控、模型、回顾

学习周报20200621 | 风控、模型、回顾

作者头像
Sam Gor
发布2020-06-24 16:46:20
1.7K0
发布2020-06-24 16:46:20
举报
文章被收录于专栏:SAMshareSAMshare

这周因为一些原因需要整理一些风控建模的知识点,顺便在这里整理一下,一起来回顾回顾。

一、评分卡开发过程

1、信用评分卡分为:申请评分卡和行为评分卡。前者对新贷款申请进行筛选并判断其违约风险,后者则是对审批通过的贷款账户进行覆盖整个贷款周期的管理。

2、典型的评分卡开发流程包括:问题准备、数据获取与整合、EDA、数据准备、变量选择、模型开发、模型检验和评价、评分卡实施、模型检测。

3、标准评分卡基于logistic回归模型,其本质是线性回归的扩展,通过一个Link function的函数形式进行转换而获得。

4、模型验证需要满足4项基本要求:

  • 达到可接受的准确性水平
  • 必须稳健,适用于更广范围的数据集
  • 必须简单
  • 必须可解释,也就是说业务变量及其预测值方面是可解释的

二、EDA

1、EDA叫做探索性数据分析,需要做以下的探索:

  • 变量的统计特性和分布
  • 候选变量与状态变量之间、候选变量相互之间是否存在关联性或相关性
  • 检查缺失值与极值,评估对模型的影响
  • 探索每个候选变量的target分布

2、P值是用来判断假设检验结果的一个参数,如果P值很小则代表原假设发生的概率很小,根据小概率原理可以拒绝原假设。

三、常见问答简单梳理

1、滚动率、迁徙率分析是什么?如何在建模中应用。
滚动率分析:滚动率分析就是从某个观察点之前的一段时间(称为观察期)的最坏的状态向观察点之后的一段时间(称为表现期)的最坏状态的发展变化情况。

1)正常的客户,在未来6个月里,有96%会保持正常状态;

2)逾期1期的客户,未来有81%会回到正常状态,即从良率为81%,有6%会恶化(从M1变为M1+);

3)逾期2期的客户,从良率为23%,有39%会恶化;

4)逾期3期的客户,从良率为14%,有61%会恶化;

5)逾期4期及以上的客户,从良率仅为4%,有82%会继续此状态。

那么,如何结合这些滚动率的结果来设置我们的target呢?(Y变量)

此图统计的逾期用的是月末的逾期状态(有些时候也可以使用历史逾期状态,一个客户只要发生过M4+逾期,未来每个月都将该客户记为M4+逾期客户),计算逾期率使用金额(也可使用笔数)。从图中可以看出,不同月份放款的M4+在经过9个周期(9个月)后趋于稳定,也就是说成熟期是在9个月。

所以,确定Y变量可以按照下面的套路:

1)进行滚动率分析,定义坏客户,如上面所说的M4+为坏客户;

2)然后统计出M4+的Vintage数据表及Vintage图,找出成熟期;

3、表现期大于成熟期的样本可以用于建模,表现期小于成熟期的样本无法准确定义Y变量,暂时舍弃。

当然,在实际应用中,根据业务需要,Y变量的定义可以灵活变通。比如在业务刚开展不久,表现期较短,此时无法根据上述方法定义Y变量,可以暂将逾期大于10天、15天或30天的客户定义为坏等等,然后随着时间的推移不断修正Y变量及模型。

迁徙率:分析客户从某个状态变为其他状态的发展变化情况,所不同的是,滚动率侧重于分析客户逾期程度的变化,所以在做滚动率分析时需要设置相对较长的观察期和变现期;而迁移率侧重于分析客户状态的发展变化路径,如M0~M1,M1~M2,M2~M3等。

计算月度迁移率,比如,2018年7月底,M0~M1的迁移率为41110122/171325636=24%,以此类推。

2、AUC和KS的定义是什么,之间有关系?

可以参考:MLK | 模型评估的一些事

3、特征工程一般有哪些操作?

特征预处理、特征选择、特征衍生、特征提取等。用到的技术主要有连续变量离散化、分类变量哑编码、卡方分箱、特征编码、共线性检验、PCA降维、交叉验证等。

4、衍生特征的套路有哪些?

可以从三种角度出发:

1)数学运算。求和、比例、频率、平均等。

2)时间窗口。有些变量的意义只有在一段时间内才有效,所以针对时间比如说注册如期、交易日期等变量,需要计算其到现在的时间段,完成变量的衍生。

3)交叉组合。GBDT\XGBoost、LDA主题模型、用户画像分等等都可以做特征衍生。衍生出来的特征要符合实际业务含义,并且要保持稳定。

可以参考:MLK | 那些常见的特征工程

5、几种算法及其在应用场景中的差别。
  • lr,逻辑回归,本质也是线性回归,通过拟合拟合样本的某个曲线,然后使用逻辑函数进行区间缩放,但是一般用来分类,主要用在点击率预估、推荐系统等;
  • svm,支撑向量机,通过找到样本空间中的一个超平面,实现样本的分类,也可以作回归,主要用在文本分类,图像识别等领域;
  • nn,神经网络,通过找到某种非线性模型拟合数据,主要用在图像处理等;
  • nb,朴素贝叶斯,通过找到样本所属于的联合分步,然后通过贝叶斯公式,计算样本的后验概率,从而进行分类,主要用来文本分类;
  • dt,决策树,构建一棵树,在节点按照某种规则(一般使用信息熵)来进行样本划分,实质是在样本空间进行块状的划分,主要用来分类,也有做回归,但更多的是作为弱分类器,用在model embedding中;
  • rf,随进森林,是由许多决策树构成的森林,每个森林中训练的样本是从整体样本中抽样得到,每个节点需要进行划分的特征也是抽样得到,这样子就使得每棵树都具有独特领域的知识,从而有更好的泛化能力;
  • gbdt,梯度提升决策树,实际上也是由多棵树构成,和rf不同的是,每棵树训练样本是上一棵树的残差,这体现了梯度的思想,同时最后的结构是用这所有的树进行组合或者投票得出,主要用在推荐、相关性等;
  • knn,k最近邻,应该是最简单的ml方法了,对于未知标签的样本,看与它最近的k个样本(使用某种距离公式,马氏距离或者欧式距离)中哪种标签最多,它就属于这类;
  • 朴素贝叶斯(Naive Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法,对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
6、一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。

这个可以看下伟哥的《机器学习公式推导与代码实现》,强力推荐!

7、常用算法的优缺点?

可以参考:MLK | 机器学习常见算法优缺点了解一下

8、模型评估的常用方法有哪些?

1)区分度:主要有KS和GINI指标,理解KS的定义及用法

2)准确性:主要有roc曲线和AUC指标,理解AUC的定义及用法

3)稳定性:主要有PSI指标,理解PSI的定义及用法

9、模型上线后,需要持续监测的指标有哪些?
1)首先是稳定性指标(包括模型和指标的稳定性),可以用PSI来衡量;

PSI<0.1 样本分布有微小变化

PSI 0.1~0.2 样本分布有变化

PSI>0.2 样本分布有显著变化

2)坏账变化情况

以9个月内逾期60天为坏账标准,或12个月内逾期90天为坏账标准,观测模型的表现。(坏账标准具体需根据不同产品来定义) 常用的坏账监测标准:60days/9m;90days/12m;30+,而所使用的统计量为AUC、KS。

N、扩展阅读

1、一文介绍特征工程里的卡方分箱,附代码实现

概述:Python实现变量的卡方分箱(卡方分布(chi-square distribution, χ2-distribution)是概率统计里常用的一种概率分布,也是统计推断里应用最广泛的概率分布之一,在假设检验与置信区间的计算中经常能见到卡方分布的身影。)

2、数据挖掘项目:银行信用评分卡建模分析

https://blog.csdn.net/AvenueCyy/article/details/105453116

概述:也是使用Python把评分卡建模的全流程走完一遍,里面对于EDA的部分可以参考其分析思路,代码也可以参考。

3、全面了解风控指标体系

https://mp.weixin.qq.com/s/-posovos49MGleNgSXHFWw

概述:非常全面地梳理了一遍风控指标,从贷前到贷后,很适合系统了解这块知识。

4、终于有人把XGBoost 和 LightGBM 讲明白了,项目中最主流的集成算法!

5、推荐收藏 | 决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost总结

6、万字长文总结机器学习的模型评估与调参,附代码下载

7、推荐收藏 | 决策树,逻辑回归,PCA-算法面经

8、关键数据Vintage、滚动率、迁移率的讲解应用

https://www.sohu.com/a/305129117_99917536

讲解了风控必须要了解的几个关键指标的原理和应用案例。

Reference

1、一句话总结各个算法以及应用场景?

https://www.cnblogs.com/xubing-613/p/6675506.html

2、评分卡上线后如何进行评分卡的监测

https://blog.csdn.net/lll1528238733/article/details/78356803

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SAMshare 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、评分卡开发过程
  • 二、EDA
  • 三、常见问答简单梳理
    • 1、滚动率、迁徙率分析是什么?如何在建模中应用。
      • 滚动率分析:滚动率分析就是从某个观察点之前的一段时间(称为观察期)的最坏的状态向观察点之后的一段时间(称为表现期)的最坏状态的发展变化情况。
      • 迁徙率:分析客户从某个状态变为其他状态的发展变化情况,所不同的是,滚动率侧重于分析客户逾期程度的变化,所以在做滚动率分析时需要设置相对较长的观察期和变现期;而迁移率侧重于分析客户状态的发展变化路径,如M0~M1,M1~M2,M2~M3等。
    • 2、AUC和KS的定义是什么,之间有关系?
      • 3、特征工程一般有哪些操作?
        • 4、衍生特征的套路有哪些?
          • 5、几种算法及其在应用场景中的差别。
            • 6、一些基本公式的推导,比如LR、xgb之类的,这些可以自己推导一下。
              • 7、常用算法的优缺点?
                • 8、模型评估的常用方法有哪些?
                  • 9、模型上线后,需要持续监测的指标有哪些?
                    • 1)首先是稳定性指标(包括模型和指标的稳定性),可以用PSI来衡量;
                    • 2)坏账变化情况
                • N、扩展阅读
                • Reference
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档