1.每天的交互行为即点击数、安装次数即转化数、转化率(如下2图):
2.每天出现的用户数量、app数量、app种类数量(如下3图):
等等,数据的初始分析让我们更好地理解数据的分布,加深对赛题的理解。
ID类特征,统计特征,基于业务的特征以及一些trick。
ID类特征:
1.年龄 2.性别 3.平台 4.联网方式
以上的特征都采取one-hot编码
统计特征:
1.用户 2.素材 3.app 4.广告主 5.广告位 6.站点集合 7.联网方式 8.运营商
以上特征分别计算点击数,下载数,下载率
基于业务的特征:
1.重复点击的情况
2.不同年龄段重复点击的下载率
一些trick:
本题是一个用户下载率的问题,下载的主体是客户,所以要做细用户的特征,但由于每一天新用户(这里的新用户是指之前没有发生过交互行为的用户)占了很大的比重,所以之前对用户做的一些统计特征会变的很稀疏,起不到什么作用。但从业务的角度,当一个用户对某个APP发 生了多次点击行为,这个用户就会有更大的可能性会下载,所以我们可以利用这种业务的情况来做一些统计特征。举一个例子,之前对用户的年龄做统计特征时,发 现各个年龄段的用户的下载率都差不多相同,但对重复点击的这种行为做统计后就可以发现,不同年龄段的人下载率就会有比较大的差异,年龄比较小的人多次点击 的下载率就比较高,年龄比较大的人多次点击的下载率就比较低。其它的一些特征也是如此。
TRAIN SET:24、25、26、27、28
VAL SET:29
TEST SET:31
单模型:
Xgboost,LightGBM,GBDT,RF,LR等等我们都尝试过。
目前来看基于我们提取的特征,单模型Xgboost效果会好点。
模型融合:
目前我们正在尝试stacking的方式,其基本思路与方法为:
训练过程:
预测过程:
最后感谢一下大赛的主办方,为我们提供了一个锻炼并提升自己的机会!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。