logisticRegression建模

总结特征分箱的一些处理办法如下图的流程图:

本期文章主要阐述如何建立logisticRegression模型,其主要思想的流程图如下,其中特征分箱部分对应上面流程图:

逻辑回归中的权重问题

两类错误

第一类错误:将逾期人群预测成非逾期

第二类错误:将非逾期人群预测成逾期

以上两种误判的代价不一样!

增加逾期类样本的权重

在目标函数或者是损失函数中增加逾期权重。然后梯度下降法对参数进行估计。

评分卡模型中

逾期样本的权重总是高于非逾期样本的权重

可以用交叉验证法选择合适的权重

也可以跟业务相结合:权重通常跟利率有关。利率高,逾期样本的权重相对低

模型训练

对特征进行了单变量,多变量分析以后,剔除了一些冗余,多重共线性的变量以后。

sm.Logit:

注意这里调用的是statsmodels.api里的逻辑回归。这个回归模型可以获取每个变量的显著性p值,p值越大越不显著,当我们发现多于一个变量不显著时,不能一次性剔除所有的不显著变量,因为里面可能存在我们还未发现的多变量的多重共线性,我们需要迭代的每次剔除最不显著的那个变量。

上面迭代的终止条件:

①剔除了所有的不显著变量

②剔除了某一个或某几个变量后,剩余的不显著变量变得显著了。(说明之前存在多重共线性)

RandomForest:

sklearn中的logsiticRegressionCV:

选择在ks指标上效果最好的参数进行模型训练。

来源|CSDN

作者|村头陶员外

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180503B1BBAY00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券