前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【 SPA大赛 】数据模型与特征工程

【 SPA大赛 】数据模型与特征工程

原创
作者头像
郭安静
修改2017-06-19 18:55:47
1.4K0
修改2017-06-19 18:55:47
举报

大家好!作为一队苦苦挣扎在鱼塘里的萌新,我们的队员们几乎都从未接触过此类广告点击率预测比赛。队伍经过近一个月的苦苦挣扎,踩过无数坑,尝试了各种特征,仔细研究周冠军们的分享,翻看官方群聊天记录,终于在初赛结束前夕取得了较前排的位置(离前十还较远,哈哈),在这里写下我们一路来的经历,也希望可以帮助到为比赛而感到困惑的选手们!

		

因为曾经有使用过xgboost,所以在比赛伊始,我们就尝试使用它来搭建模型,相对于其他常用模型gbdt和nn,它在训练速度上更快,并且能够获得不俗的预测效果,也不需要对离散特征onehot,处理起来更加简单。下图是三种模型优缺点对比:

[1496880977248_8821_1496909777411.png]
[1496880977248_8821_1496909777411.png]
		

相信了解机器学习的孩纸们一定都听说过一句话“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”,在选完模型之后,就是最棘手的特征工程了。首先,我们并没有使用全部的数据,我们使用数据集后几天的数据来训练,将第29天的数据作为测试,这样不仅训练更快,同时效果也不会差。

		

相信大家最头痛的一定是不知道如何使用user_installedapps.csv和user_app_actions.csv了,我们也在这两个文件上花了大量时间,但收效并不明显,我们主要统计了近5天用户的APP安装数和截至观察期内APP安装数。同时统计出用户观察期内安装的各种APP对应的category。有大神提到使用word2vec,我们还没来得及尝试,应该是个不错的选择。同时,我们使用了较多的统计特征,如近5天的APP安装率,creative转化率等等。

		

最后,也是最重要的,就是关于trick的问题,比如最近公众号上提到重复数据的处理问题,下面是23-28号发生转化的实例统计情况表,经过观察可以发现,如果用户在一天内多次点击广告,那么转化大多数都发生在第一次,所以如果将这个重复性次数作为特征标记出来,应该能给大家的分数带来大幅度提升。

		
[1496882341010_5480_1496911141540.bmp]
[1496882341010_5480_1496911141540.bmp]
		

额,如果说这本是周冠军的舞台,那么我想我们队离这个舞台实在相去甚远,在这里为大家分享经验,确实感觉水平不够!同时希望大家也多多交流,共同进步,在本次比赛中取得优异成绩!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档