【 SPA大赛 】数据模型与特征工程

大家好!作为一队苦苦挣扎在鱼塘里的萌新,我们的队员们几乎都从未接触过此类广告点击率预测比赛。队伍经过近一个月的苦苦挣扎,踩过无数坑,尝试了各种特征,仔细研究周冠军们的分享,翻看官方群聊天记录,终于在初赛结束前夕取得了较前排的位置(离前十还较远,哈哈),在这里写下我们一路来的经历,也希望可以帮助到为比赛而感到困惑的选手们!

		

因为曾经有使用过xgboost,所以在比赛伊始,我们就尝试使用它来搭建模型,相对于其他常用模型gbdt和nn,它在训练速度上更快,并且能够获得不俗的预测效果,也不需要对离散特征onehot,处理起来更加简单。下图是三种模型优缺点对比:

		

相信了解机器学习的孩纸们一定都听说过一句话“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”,在选完模型之后,就是最棘手的特征工程了。首先,我们并没有使用全部的数据,我们使用数据集后几天的数据来训练,将第29天的数据作为测试,这样不仅训练更快,同时效果也不会差。

		

相信大家最头痛的一定是不知道如何使用user_installedapps.csv和user_app_actions.csv了,我们也在这两个文件上花了大量时间,但收效并不明显,我们主要统计了近5天用户的APP安装数和截至观察期内APP安装数。同时统计出用户观察期内安装的各种APP对应的category。有大神提到使用word2vec,我们还没来得及尝试,应该是个不错的选择。同时,我们使用了较多的统计特征,如近5天的APP安装率,creative转化率等等。

		

最后,也是最重要的,就是关于trick的问题,比如最近公众号上提到重复数据的处理问题,下面是23-28号发生转化的实例统计情况表,经过观察可以发现,如果用户在一天内多次点击广告,那么转化大多数都发生在第一次,所以如果将这个重复性次数作为特征标记出来,应该能给大家的分数带来大幅度提升。

		
		

额,如果说这本是周冠军的舞台,那么我想我们队离这个舞台实在相去甚远,在这里为大家分享经验,确实感觉水平不够!同时希望大家也多多交流,共同进步,在本次比赛中取得优异成绩!

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

郭安静的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

数据可视化方法、工具、核心理念及需要警惕的深坑

1595
来自专栏新智元

【AI芯展开推理战】赛灵思最新深度神经网络推理器xDNN参数曝光

目前来看,FPGA可能没有像一些人预期的那样在深度学习的训练空间中占据一席之地,但AI推理的低功耗、高频率需求非常适合可重复编程硬件的性能曲线。

1043
来自专栏新智元

美剧《硅谷》深度学习APP获艾美奖提名:使用TensorFlow和GPU开发

【新智元导读】继AI制作动画人物、创作剧本、编辑电影之后,今天,一款AI软件正式获得黄金时段艾美奖提名:热播电视剧《硅谷》中一个使用深度学习自动识别热狗的软件再...

660
来自专栏机器之心

资源 | 《Deep Learning》中文印前版开放下载,让我们向译者致敬

选自GitHub 机器之心整理 参与:蒋思源 《Deep Learning》中文版(印前版)正式发布。这本书适合于各类读者,尤其是学习机器学习的本科或研究生、深...

3567
来自专栏养码场

吆喝科技CTO的纯干货分享:直击A/BTesting和美团推荐技术关键点!

养码场的线上课程,以技术人员为核心的学习、交流、分享社群,全方位服务技术人和技术创业者。这里聚集了众多BAT/美团/京东/滴滴/360/小米/网易等知名互联网公...

864
来自专栏PPV课数据科学社区

R 家族又添新丁,5个数据科学专用包,怀着探索的心态来使用吧

李垠序编译 出处:雪晴数据网 R生态体系有其非常之美,在于它的新包贡献系统,而这也可能是R使用者显著增加的根本原因。这一特点与坚如磐石的基础包版本库(CRAN...

34110
来自专栏AI研习社

想快速部署机器学习项目?来看看几大主流机器学习服务平台对比吧

日前,kdnuggets 上的一篇文章对比了三大公司(谷歌、微软和亚马逊)提供的机器学习服务平台,对于想要启动机器学习项目的公司或是数据科学新手来说,提供了非常...

44917
来自专栏大数据文摘

AI大事件 | 李飞飞接受访谈, TensorFlow: 发布 1.4.0,深度强化学习Bootcamp-视频讲座&实验

1433
来自专栏AI科技评论

如何评价百度刚刚开源的Paddle平台?

百度今天开源了其深度学习平台Paddle,引发了挺多人工智能领域开发者的兴趣,包括一些之前一直在Tensorflow和Caffe上练手的开发者。不过鉴于深度学习...

3464
来自专栏CSDN技术头条

数据vs.算法,究竟谁更重要

【编者按】随着服务器愈加的廉价,集群计算框架愈加成熟,大家似乎已经完全把眼光放到海量的数据上,算法的精心调校似乎已成为某些领域或者某些公司才去钻研的事情。那么,...

1679

扫码关注云+社区