【SPA大赛】SPA大赛数据探索与解题思路

一、引言

本次腾讯社交广告算法大赛以移动app广告转化率预估为背景,以移动App广告为研究对象,预测App广告点击后被激活的概率:
,即给定广告、用户和上下文情况下广告被点击后发生激活的概率。由于我是一个数据挖掘比赛的新人,所以我就说一下我参加比赛的体验吧,和我们的一些结题思路吧。

二、初赛历程

(1)数据分析:

1.每天的交互行为即点击数、安装次数即转化数、转化率(如下2图):

2.每天出现的用户数量、app数量、app种类数量(如下3图):

等等,数据的初始分析让我们更好地理解数据的分布,加深对赛题的理解。

(2)特征提取:

ID类特征,统计特征,基于业务的特征以及一些trick。

ID类特征:

1.年龄 2.性别 3.平台 4.联网方式

以上的特征都采取one-hot编码

统计特征:

1.用户 2.素材 3.app 4.广告主 5.广告位 6.站点集合 7.联网方式 8.运营商

以上特征分别计算点击数,下载数,下载率

基于业务的特征:

1.重复点击的情况

2.不同年龄段重复点击的下载率

一些trick:

本题是一个用户下载率的问题,下载的主体是客户,所以要做细用户的特征,但由于每一天新用户(这里的新用户是指之前没有发生过交互行为的用户)占了很大的比重,所以之前对用户做的一些统计特征会变的很稀疏,起不到什么作用。但从业务的角度,当一个用户对某个APP发 生了多次点击行为,这个用户就会有更大的可能性会下载,所以我们可以利用这种业务的情况来做一些统计特征。举一个例子,之前对用户的年龄做统计特征时,发 现各个年龄段的用户的下载率都差不多相同,但对重复点击的这种行为做统计后就可以发现,不同年龄段的人下载率就会有比较大的差异,年龄比较小的人多次点击 的下载率就比较高,年龄比较大的人多次点击的下载率就比较低。其它的一些特征也是如此。

(3)模型搭建

TRAIN SET:24、25、26、27、28

VAL SET:29

TEST SET:31

单模型:

Xgboost,LightGBM,GBDT,RF,LR等等我们都尝试过。

目前来看基于我们提取的特征,单模型Xgboost效果会好点。

模型融合:

目前我们正在尝试stacking的方式,其基本思路与方法为:

训练过程:

预测过程:

最后感谢一下大赛的主办方,为我们提供了一个锻炼并提升自己的机会!

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

朱云龙的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏达观数据

技术干货 | 达观数据新用户推荐的三大利器

推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣。但对于新用户而言,没有任何的用户行为,如何进行最有效的推荐呢?这就衍生了用户冷启动问题。 在当下...

2843
来自专栏ATYUN订阅号

Uber开源Atari,让个人计算机也可以快速进行深度神经进化研究

Uber近期发布了一篇文章,公开了五篇关于深度神经进化的论文,其中包括发现了遗传算法可以解决深层强化学习问题,而一些流行的方法也可替代遗传算法,如深度Q-lea...

934
来自专栏人工智能头条

Google发布最新「语音命令」数据集,可有效提高关键词识别系统性能

1002
来自专栏ATYUN订阅号

一份在移动应用程序项目中使用机器学习的指南

机器学习是人工智能的核心,旨在创建一个解决类似问题的通用方法。机器学习已经被整合到我们经常在日常生活中使用应用中,比如iPhone的Siri。本文是一个包含了如...

3486
来自专栏AI科技大本营的专栏

Google VS 亚马逊 VS 微软,机器学习服务选谁好?

译者 | reason_W 编辑 | Just 对大多数企业来说,机器学习听起来就像航天技术一样,属于花费不菲又“高大上”的技术。如果你是想构建一个 Netfl...

2635
来自专栏应兆康的专栏

Andrew Ng - 《Machine Learning Yearning》 Chapter 15-19

Machine Learning Yearning. 全新版本 本书作者是Andrew NG

3567
来自专栏喔家ArchiSelf

神经网络加速器的兴起

自从投身智能硬件以来,又开始重新关注嵌入式领域的相关技术。这是“2018嵌入式处理器报告: 神经网络加速器的兴起”(http://www.embedded-co...

792
来自专栏AI科技大本营的专栏

终于能用Google的TPU跑代码了,每小时6.5美元

AI科技大本营消息,北京时间周一(2月12日)晚间,Google 宣布,在 Google Cloud Platform(GCP)上正式推出Cloud TPUs ...

33910
来自专栏互联网数据官iCDO

A/B测试的十个黄金准则

译者:李睿 本文长度为2770字,预估阅读时间4分钟。 互联网营销人员经常会用A/B测试的方法来优化广告策略,进而实现收入或转化率的提升。但是,如果并未采用正确...

3528
来自专栏AI科技评论

动态 | 谷歌也发布了Web前端机器学习库,就叫deeplearn.js

AI 科技评论按:在人工智能时代,不管是音箱、手机、汽车、app,自家产品没有用上深度学习都不好意思跟别人打招呼;另外,谷歌和 Facebook 都分别在 Te...

3346

扫码关注云+社区