队伍名“一战成名” 最终线上排名第七。
融360与平台上的金融机构合作,提供了近7万贷款用户的基本身份信息、消费行为、银行还款等数据信息,需要参赛者以此建立准确的风险控制模型,来预测用户是否会逾期还款。
赛题:用户贷款风险预测(算法竞赛)
http://www.pkbigdata.com/common/cmpt/%E7%94%A8%E6%88%B7%E8%B4%B7%E6%AC%BE%E9%A3%8E%E9%99%A9%E9%A2%84%E6%B5%8B_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html
本文代码在公众号 datadw 里 回复 风险 即可获取。
训练数据 :https://pan.baidu.com/share/init?shareid=1950975130&uk=2921663747
密码:pcsh
测试数据:https://pan.baidu.com/share/init?shareid=1950975130&uk=2921663747 密码:pcsh
训练数据包括用户的基本属性user_info.txt、银行流水记录bank_detail.txt、用户浏览行为browse_history.txt、信用卡账单记录bill_detail.txt、放款时间loan_time.txt,以及这些顾客是否发生逾期行为的记录overdue.txt。
评分标准:
本题很多关键属性被脱敏处理,比如时间戳和所有金额的值,这个对我们进行特征构造带来很多的影响,损失了很多业务信息。不过对于参赛者都是公平的,因而我们构造了大量的统计特征,根据模型及线上反馈最佳特征大多来自用户浏览行为browse_history和bill_detail,此外发现放款时间也是个强力特征,详细见代码部分。这里只放了我个人的代码,队友的特征工程很多类似的,也有一些独特之处,这里说几个思路:bill_detail表的特征按放款时间分为放款前放款后分别统计(还可以尝试多划分几个时间窗再统计)、基于熵的分箱处理(特征离散化)、排序特征、组合特征等,有兴趣可以自己去实现。模型方面,我本人主要玩了xgboost和lightgbm,队友也基本上是xgboost、RandomForest,在玩Stacking融合的时候还上了ExtraTreesClassifier和Logistic Regression。
相关博文: http://mlwave.com/kaggle-ensembling-guide/ http://blog.csdn.net/a358463121/article/details/53054686#t18
抱着学习的态度从DC群老段子的开源代码玩起,一步步慢慢提升,年前玩到Top40,然后过年荒废了十来天,回校的时候成绩已经70开外,于是开始新一波努力。在这个过程中认识了现在的队友,边交流边提升,可以说如果我们没有组队,我们四个人都到不了Top10,因此我再次觉得打比赛还是要团队协作,这样可以互相佐证思路,实现更多的想法,完成更多的思路,学习到更多的东西。而且当你有队友以后,你会变得更加投入,每个人都有责任感。在群里争论,产生分歧,最后大家统一想法,完成提交。基本每天早上开始各自实现思路,晚上八九点开始讨论融合,十二点前完成提交,有时候因为取得突破激动的很晚才能睡着,也有最后一天最后一搏失败后的互相安慰,这种体会真的很棒。总之非常感激本次比赛的各位队友们,让我真正体会到比赛的乐趣。
多看以往的大神总结,wepon大神的github吐血推荐!!!https://github.com/wepe ,本次比赛主要参考了他们去年微额借款用户人品预测大赛冠军解决方案以及拍拍贷风险控制大赛铜奖解决方案,干货多多!
此外还有:金老师的知乎专栏:https://zhuanlan.zhihu.com/jlbookworm ,收录了各种大神解决方案和开源代码。
via http://blog.csdn.net/sb19931201/article/details/56315689