【 SPA大赛 】数据模型与特征工程

大家好!作为一队苦苦挣扎在鱼塘里的萌新,我们的队员们几乎都从未接触过此类广告点击率预测比赛。队伍经过近一个月的苦苦挣扎,踩过无数坑,尝试了各种特征,仔细研究周冠军们的分享,翻看官方群聊天记录,终于在初赛结束前夕取得了较前排的位置(离前十还较远,哈哈),在这里写下我们一路来的经历,也希望可以帮助到为比赛而感到困惑的选手们!

		

因为曾经有使用过xgboost,所以在比赛伊始,我们就尝试使用它来搭建模型,相对于其他常用模型gbdt和nn,它在训练速度上更快,并且能够获得不俗的预测效果,也不需要对离散特征onehot,处理起来更加简单。下图是三种模型优缺点对比:

		

相信了解机器学习的孩纸们一定都听说过一句话“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”,在选完模型之后,就是最棘手的特征工程了。首先,我们并没有使用全部的数据,我们使用数据集后几天的数据来训练,将第29天的数据作为测试,这样不仅训练更快,同时效果也不会差。

		

相信大家最头痛的一定是不知道如何使用user_installedapps.csv和user_app_actions.csv了,我们也在这两个文件上花了大量时间,但收效并不明显,我们主要统计了近5天用户的APP安装数和截至观察期内APP安装数。同时统计出用户观察期内安装的各种APP对应的category。有大神提到使用word2vec,我们还没来得及尝试,应该是个不错的选择。同时,我们使用了较多的统计特征,如近5天的APP安装率,creative转化率等等。

		

最后,也是最重要的,就是关于trick的问题,比如最近公众号上提到重复数据的处理问题,下面是23-28号发生转化的实例统计情况表,经过观察可以发现,如果用户在一天内多次点击广告,那么转化大多数都发生在第一次,所以如果将这个重复性次数作为特征标记出来,应该能给大家的分数带来大幅度提升。

		
		

额,如果说这本是周冠军的舞台,那么我想我们队离这个舞台实在相去甚远,在这里为大家分享经验,确实感觉水平不够!同时希望大家也多多交流,共同进步,在本次比赛中取得优异成绩!

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

郭安静的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏帮你学MatLab

《如何高效学习》读书笔记整理

书里讲的方法叫做——整体性学习 书中认为,整体性学习和机械学习本质上的目标都是实现信息的储存与提取,两者的区别在于如何实现储存与提取信息上。 机械记忆就是反复记...

3157
来自专栏小文博客

交通模型 – 元胞自动机——数学专题(一)

811
来自专栏新智元

【并非愚人节】科学家创建可自我复制的神经网络,AI像生命体一样繁殖

1513
来自专栏华章科技

程序员为什么要学深度学习?

深度学习本身是一个非常庞大的知识体系。本文更多想从程序员的视角出发,让大家观察一下深度学习对程序员意味着什么,以及我们如何利用这样一个高速发展的学科,来帮助程序...

591
来自专栏AI研习社

看过10万个视频 AI才能识别你的脑残操作 | 2分钟读论文

来源 / Two Minute Papers 翻译 / 朱婷 校对 / 李宇琛 整理 / 雷锋字幕组 AI 研习社出品系列短视频《 2 分钟论文 》,带大家用...

2785
来自专栏挖掘大数据

推荐系列02,每个职场中的你都有必要了解的推荐系统常识

接上一篇《推荐系列01:人工智能与推荐系统》,上一篇文章主要解决的什么是推荐系统以及为什么要有推荐系统的问题。这一篇我们关注的是,更细节的一些东西,把推荐系统的...

2670
来自专栏ATYUN订阅号

推荐算法的介绍,第一部分——协同过滤与奇异值分解

推荐系统是指能够预测用户未来偏好项目(item)并推荐最优先项目的系统。现代社会之所以需要推荐系统,是由于互联网的普及,人们有太多的选择可供使用。过去,人们习惯...

3365
来自专栏AI科技评论

学界 | 超大规模图计算在阿里巴巴的应用都有哪些?四篇KDD oral论文抢先看(附论文下载)| KDD 2018

AI 科技评论按:本文为阿里巴巴提供的 KDD 2018 解读稿件。这一事件在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中有相应加分。

742
来自专栏CSDN技术头条

谷歌邮件智能回复系统:基于循环神经网络构建

【编者按】Google将为其Gmail应用推出一项称为智能回复(Smart Reply)的新功能,这篇博文解析了Smart Reply的技术原理:建立在一对循环...

1895
来自专栏人工智能头条

【AI创新者】TensorFlow贡献者黄文坚:解读对比13个深度学习框架后的选择

1834

扫码关注云+社区