做一个好的模型,首先要有好的数据,数据的质量决定了你模型效果的上限;其次,要做好特征工程,在无法改变数据质量的条件下,特征工程是重中之重;最后,建立模型。
有三种主流的模型思想,一种是Bagging,代表模型是随机森林;一种是Boosting,代表模型是GBDT、Xgboost、lightGBM;还一种是stacking或blending。前2种模型可以调参。
相信网上有很多种调参方法,效果也有好有坏,不过我相信很多人肯定遇到过这种情况:调着调着,怎么越调越差?
好吧,大部分情况是没有调好,因为模型调优,一般会比默认情况好的。我在这里展示了一下我的模型调参效果,当然,不可能是最好,也许你的比我更好,我这仅是一家之言,欢迎交流。
我会放出数据供大家试验,数据获取方式: 公众号发送调参数据
顺便说一下,这次数据是截取了“融360预测贷款违约比赛”的一个数据集,我这边只取了前10000行样本。
这次代码不会无偿分享,如果想要的同学可以在公众号发送调参代码
祝大家元旦快乐!
========================分割线========================
先上效果图,0是调优前,1是调优后:
调优后的rfc的KS值最高,lightGBM的AUC最高,Xgboost胜在稳定和快速。调参完成后,如果还不满意,可以再模型stacking或加权融合一下。
数据:10000行,89列
1.Xgboost调参:
2.lightGBM调参:
3.随机森林:
领取专属 10元无门槛券
私享最新 技术干货