学习
实践
活动
专区
工具
TVP
写文章

参加kaggle-home credit比赛 top1经验分享

参加kaggle-home credit比赛 top1经验分享

为入门数据挖掘领域,我参加kaggle比赛积累经验,参加比赛时间21天,排名62/6660,达到top1。

image.png

背景介绍

image.png

大数据普及人们生活,因此,互联网公司提供各类应用解决人们生活所需,但是大数据也面临一些问题,为了集智,大数据挖掘者们通过大数据竞赛促进交流。

image.png

Kaggle比赛是典型的代表,可以从三个方面了解。

image.png

参加kaggle比赛,不可避免用下以下工具。

image.png

参加Kaggle比赛流程如下:

image.png

2.案例讲解: Home Credit Default Risk

1)数据介绍

该数据集包括以下几个CSV文件,关系图如下图所示:

image.png

image.png

通过可视化,可以看到该数据集存在Unbalance现象,因此有必要开展数据清洗。

image.png

如图,可以看到数据中存在Missing value:

image.png

2)特征提取-手动

举例说明,application_train.csv的相关代码如下,其他几个CSV文件。

image.png

特征维度过高,存在冗余,因此,按照特征重要性可视化。

3)特征提取-自动

举例,通过下列代码可以建立数据间关系,自动生成特征:

Import featuretools as ft

es = ft.EntitySet(id=‘clients’)

image.png

image.png

模型

可选择模型如下,LightGBM具有较强的优势:

LR

Random forest

Xgboost

LightGBM

更快的训练效率

低内存使用

更好的准确率

支持并行学习

可处理大规模数据

4)超参数微调

目前,业界用的较多的方法分别是Grid search、Random search和Bayesian Optimization。

其中,Grid search和random search简单高效, 通常后者会表现出更好性能。

在参数空间维度较高时, Grid search和Random search会产生组合爆炸, 训练回合急剧增加, 尝试更高效的Bayesian optimization。

image.png

对比效果如下:

参考资料如下:

https://zhuanlan.zhihu.com/p/29923137

https://zhuanlan.zhihu.com/p/33903267

https://www.kaggle.com/plantsgo/kernels

https://www.kaggle.com/aharless/xgboost-cv-lb-284

https://zhuanlan.zhihu.com/p/31271282

https://zhuanlan.zhihu.com/p/35363444

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180822G0GTWW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

关注

腾讯云开发者公众号
10元无门槛代金券
洞察腾讯核心技术
剖析业界实践案例
腾讯云开发者公众号二维码

扫码关注腾讯云开发者

领取腾讯云代金券