Logistic做模型效果不好，要不试试我这方法？

文章来源：企鹅号 - 66号学苑

本篇文章只是我一个建模的分享思路，我只是建议，并不能代表按着我这方法一定能把模型做的好，模型效果好不好还跟前期的数据处理，抽样等等有关，建模就是一个流水线的过程，一个过程做不好，都会影响后面的效果。

在说logistic变成“提升算法”，先跟大家简单过一下现在比较流行的几个集成以及提升算法。那么集成算法以及提升算法都是以决策树最基础的。

Bagging算法：

Bagging的弱学习器之间的确没有boosting那样的联系。它的特点在“随机采样”。那么什么是随机采样？

随机采样(bootsrap)就是从我们的训练集里面采集固定个数的样本，但是每采集一个样本后，都将样本放回。也就是说，之前采集到的样本在放回后有可能继续被采集到。对于我们的Bagging算法，一般会随机采集和训练集样本数m一样个数的样本。这样得到的采样集和训练集样本的个数相同，但是样本内容不同。如果我们对有m个样本训练集做T次的随机采样，则由于随机性，T个采样集各不相同。

bagging的集合策略也比较简单，对于分类问题，通常使用简单投票法，得到最多票数的类别或者类别之一为最终的模型输出。对于回归问题，通常使用简单平均法，对T个弱学习器得到的回归结果进行算术平均得到最终的模型输出。

以上引自：https://www.cnblogs.com/pinard/p/6156009.html

比较粗暴的阐述，bagging算法就是随机采样，之后种了好多棵树，然后每棵树对观测投票，要是好客户的票数多于坏客户，那么他的预测就是好客户，反之就是坏客户。

那么进阶的bagging就是随机森林，然而随机森林做了什么进阶，请自己搜索，总结一句就是对树有了约束以及评估。

Boosting：boosting的代表算法就是adaboost、GBDT以及xgboosting,那么这三个算法共通特点就是下一棵决策树的拟合是跟上一棵是有关的，那么就因为这种有关，所以在拟合效果上比bagging更加突出。因为这里这三个算法要讲太多了，所以这里就不展开，因为本篇文章不是讲提升算法，还有在这，我不提及这个算法的优缺点，因为我学习以及实践并不是很长时间，所以有些我自己理解的误差，我就不在这里误导。

在讲思路之前，我先说下我的一个数据背景，我的数据背景是，变量很多且单变量效果不明显，但是组合变量效果还可以。那么接下来我讲的一个用逻辑回归做“提升算法”（注意我加了双引号）的思路。

1、将变量分类，按照业务或者自己的理解分类，分成几个大类。

2、每个大类我单独建立一个逻辑回归模型，效果不用想，ks肯定不会超过0.3的，要是超过了我就不这么干了，所以这时候只要模型评估指标太烂，我都会把这个大类做的小的逻辑回归的模型留下来。

3、做了好多个模型之后，这些小模型将成为一个变量，至于什么作为变量，小模型对客户的预测概率又作为这个大类的变量，拟合最终的大模型。

4、最后就是使用这些小模型的对客户预测概率作为变量再拟合一个大模型，那么这个模型就完成了。

5、相当于最终的模型拟合给予每个小模型一个参数估计，即这个小模型对于预测客户的时候的重要性。

那为什么说这样子干也算是一个提升算法，其实你想想啊，提升算法不也是建了好多个底层的决策树，我只是把决策树变成逻辑回归，然后再事先帮模型把底层的小模型给建好，然后最后的拟合，一般逻辑回归不也是用的是最大似然估计，最大似然估计也是一种梯度上升方法啊，关于最大似然估计是梯度上升。

那么我这个方法其实用到的变量也是跟像xg或者gbdt一样，变量数量几十个，但是部署上，这个要是你只要有耐心，你上线到规则引擎是可以，这针对it没有能力帮你部署pmml文件，或者it之前没有部署pmml文件的经验，又加上你这个模型急于上线，那么可以做这样子一个模型部署到规则引擎上用，小模型的建模套路跟我们的大模型的是一样的。

我个人认为，你要是本身单变量效果足够，其实不用使用到这个方法，这方法也不是我一时兴起的思路，是我使用我的底层数据，尝试了很多种方法之后，最后总结出这个方法。

我知道我这样子你们会觉得很牵强，但是没事，毕竟这个方法真真切切帮我解决了事情，分享给你们，中心思想还是觉得，我认为机器学习算法他不是固定的，因为机器学习算法也是别人根据自己的需要发明的，如果你不喜欢他这个损失函数，你也可以根据自己的业务需要更改。

来源|屁屁的sas数据分析

作者|屁屁

发表于: 2018-03-222018-03-22 18:38:49
原文链接：http://kuaibao.qq.com/s/20180322B1COLO00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Logistic做模型效果不好，要不试试我这方法？

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐