【 SPA大赛 】数据模型与特征工程

大家好!作为一队苦苦挣扎在鱼塘里的萌新,我们的队员们几乎都从未接触过此类广告点击率预测比赛。队伍经过近一个月的苦苦挣扎,踩过无数坑,尝试了各种特征,仔细研究周冠军们的分享,翻看官方群聊天记录,终于在初赛结束前夕取得了较前排的位置(离前十还较远,哈哈),在这里写下我们一路来的经历,也希望可以帮助到为比赛而感到困惑的选手们!

		

因为曾经有使用过xgboost,所以在比赛伊始,我们就尝试使用它来搭建模型,相对于其他常用模型gbdt和nn,它在训练速度上更快,并且能够获得不俗的预测效果,也不需要对离散特征onehot,处理起来更加简单。下图是三种模型优缺点对比:

		

相信了解机器学习的孩纸们一定都听说过一句话“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”,在选完模型之后,就是最棘手的特征工程了。首先,我们并没有使用全部的数据,我们使用数据集后几天的数据来训练,将第29天的数据作为测试,这样不仅训练更快,同时效果也不会差。

		

相信大家最头痛的一定是不知道如何使用user_installedapps.csv和user_app_actions.csv了,我们也在这两个文件上花了大量时间,但收效并不明显,我们主要统计了近5天用户的APP安装数和截至观察期内APP安装数。同时统计出用户观察期内安装的各种APP对应的category。有大神提到使用word2vec,我们还没来得及尝试,应该是个不错的选择。同时,我们使用了较多的统计特征,如近5天的APP安装率,creative转化率等等。

		

最后,也是最重要的,就是关于trick的问题,比如最近公众号上提到重复数据的处理问题,下面是23-28号发生转化的实例统计情况表,经过观察可以发现,如果用户在一天内多次点击广告,那么转化大多数都发生在第一次,所以如果将这个重复性次数作为特征标记出来,应该能给大家的分数带来大幅度提升。

		
		

额,如果说这本是周冠军的舞台,那么我想我们队离这个舞台实在相去甚远,在这里为大家分享经验,确实感觉水平不够!同时希望大家也多多交流,共同进步,在本次比赛中取得优异成绩!

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

郭安静的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

动态 | 谷歌大脑医疗影像研究新进展,通过视网膜影像预测心脑血管疾病风险

AI 科技评论按:Google Brain 团队近日发现一种使用机器学习来评估心脑血管疾病风险的新方法。这种方法通过分析病人的眼睛影像,能够精确地推断出包括病人...

3636
来自专栏UAI人工智能

蒙特卡洛树搜索 Monte Carlo Tree Search

3194
来自专栏人工智能LeadAI

推荐系统 | 威尔逊区间法

我推荐一种之前在惠普做过一种排序方法:威尔逊区间法 我们先做如下设定: (1)每个用户的打分都是独立事件。 (2)用户只有两个选择,要么投喜欢'1',要么投不喜...

4936
来自专栏大数据文摘

AI大事件 | 斯坦福初创公司发力AI硬件,DeepMind删除神经元了解深度学习

1362
来自专栏AlgorithmDog的专栏

动手写一个 DQN 的棋牌 AI

深度强化学习是学术界研制游戏 AI 的主流算法。这篇文章我们将用深度强化学习早期代表算法 DQN 算法探索棋牌 AI。

1.2K9
来自专栏腾讯高校合作

异质信息网络:一种新颖的网络建模与分析方法

异质信息网络被定义为一个有向图,它包含有多种类型的对象或者关系,每个对象属于一个特定的对象类型,每条关系属于一个特定的关系类型。

1.4K7
来自专栏深度学习自然语言处理

谈谈我在自然语言处理进阶上的一些个人拙见

自然语言处理这个方向我感觉已经泛滥了,很多方向的人都开始转向该专业,当然也包括转向计算机视觉的。之前我写过一篇文章

893
来自专栏人工智能快报

人工智能训练使用视网膜扫描发现心脏病风险

谷歌及其子公司Verily的科学家们发现了一种利用机器学习来评估一个人患心脏病风险的新方法。通过分析病人眼睛后部的扫描结果,该公司的软件能够准确地推断出数据,包...

3375
来自专栏专知

【NIPS2017最佳论文三分钟视频简介】CMU「冷扑大师」不完美信息博弈研究

【导读】NIPS 2017 开幕还有几天,最佳论文已经公布,CMU教授Tuomas Sandholm 和其博士生 Noam Brown 《Safe and Ne...

3375
来自专栏专知

【深度】浅述:从 Minimax 到 AlphaZero,完全信息博弈之路(1)

【导读】本文从Minimax算法开始,一直到最新的 AlphaGo Zero 和 AlphaZero,旨在介绍完全信息博弈上人们一路走来得到的算法,以及背后的思...

3477

扫码关注云+社区