SPA大赛:数据模型与特征工程

更多腾讯海量技术文章,请关注云加社区:https://cloud.tencent.com/developer

作者:郭安静

大家好!作为一队苦苦挣扎在鱼塘里的萌新,我们的队员们几乎都从未接触过此类广告点击率预测比赛。队伍经过近一个月的苦苦挣扎,踩过无数坑,尝试了各种特征,仔细研究周冠军们的分享,翻看官方群聊天记录,终于在初赛结束前夕取得了较前排的位置(离前十还较远,哈哈),在这里写下我们一路来的经历,也希望可以帮助到为比赛而感到困惑的选手们!

因为曾经有使用过xgboost,所以在比赛伊始,我们就尝试使用它来搭建模型,相对于其他常用模型gbdt和nn,它在训练速度上更快,并且能够获得不俗的预测效果,也不需要对离散特征onehot,处理起来更加简单。下图是三种模型优缺点对比:

相信了解机器学习的孩纸们一定都听说过一句话“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”,在选完模型之后,就是最棘手的特征工程了。首先,我们并没有使用全部的数据,我们使用数据集后几天的数据来训练,将第29天的数据作为测试,这样不仅训练更快,同时效果也不会差。

相信大家最头痛的一定是不知道如何使用user_installedapps.csv和user_app_actions.csv了,我们也在这两个文件上花了大量时间,但收效并不明显,我们主要统计了近5天用户的APP安装数和截至观察期内APP安装数。同时统计出用户观察期内安装的各种APP对应的category。有大神提到使用word2vec,我们还没来得及尝试,应该是个不错的选择。同时,我们使用了较多的统计特征,如近5天的APP安装率,creative转化率等等。

最后,也是最重要的,就是关于trick的问题,比如最近公众号上提到重复数据的处理问题,下面是23-28号发生转化的实例统计情况表,经过观察可以发现,如果用户在一天内多次点击广告,那么转化大多数都发生在第一次,所以如果将这个重复性次数作为特征标记出来,应该能给大家的分数带来大幅度提升。

额,如果说这本是周冠军的舞台,那么我想我们队离这个舞台实在相去甚远,在这里为大家分享经验,确实感觉水平不够!同时希望大家也多多交流,共同进步,在本次比赛中取得优异成绩!

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180112A09K5500?refer=cp_1026

扫码关注云+社区