【SPA大赛】SPA大赛数据探索与解题思路

一、引言

本次腾讯社交广告算法大赛以移动app广告转化率预估为背景,以移动App广告为研究对象,预测App广告点击后被激活的概率:
,即给定广告、用户和上下文情况下广告被点击后发生激活的概率。由于我是一个数据挖掘比赛的新人,所以我就说一下我参加比赛的体验吧,和我们的一些结题思路吧。

二、初赛历程

(1)数据分析:

1.每天的交互行为即点击数、安装次数即转化数、转化率(如下2图):

2.每天出现的用户数量、app数量、app种类数量(如下3图):

等等,数据的初始分析让我们更好地理解数据的分布,加深对赛题的理解。

(2)特征提取:

ID类特征,统计特征,基于业务的特征以及一些trick。

ID类特征:

1.年龄 2.性别 3.平台 4.联网方式

以上的特征都采取one-hot编码

统计特征:

1.用户 2.素材 3.app 4.广告主 5.广告位 6.站点集合 7.联网方式 8.运营商

以上特征分别计算点击数,下载数,下载率

基于业务的特征:

1.重复点击的情况

2.不同年龄段重复点击的下载率

一些trick:

本题是一个用户下载率的问题,下载的主体是客户,所以要做细用户的特征,但由于每一天新用户(这里的新用户是指之前没有发生过交互行为的用户)占了很大的比重,所以之前对用户做的一些统计特征会变的很稀疏,起不到什么作用。但从业务的角度,当一个用户对某个APP发 生了多次点击行为,这个用户就会有更大的可能性会下载,所以我们可以利用这种业务的情况来做一些统计特征。举一个例子,之前对用户的年龄做统计特征时,发 现各个年龄段的用户的下载率都差不多相同,但对重复点击的这种行为做统计后就可以发现,不同年龄段的人下载率就会有比较大的差异,年龄比较小的人多次点击 的下载率就比较高,年龄比较大的人多次点击的下载率就比较低。其它的一些特征也是如此。

(3)模型搭建

TRAIN SET:24、25、26、27、28

VAL SET:29

TEST SET:31

单模型:

Xgboost,LightGBM,GBDT,RF,LR等等我们都尝试过。

目前来看基于我们提取的特征,单模型Xgboost效果会好点。

模型融合:

目前我们正在尝试stacking的方式,其基本思路与方法为:

训练过程:

预测过程:

最后感谢一下大赛的主办方,为我们提供了一个锻炼并提升自己的机会!

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

朱云龙的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

还敢说自己是TED粉吗? 连哪个演讲最爆款都不知道!

1593
来自专栏人工智能

老师木讲架构:深度学习平台技术演进

新智元推荐 来源:OneFlow 【新智元导读】近日,袁进辉(老师木)代表OneFlow团队在全球互联网架构大会上海站做了《深度学习平台技术演进》的报告。报告包...

4688
来自专栏AI研习社

AI 开发者看过来,主流移动端深度学习框架大盘点

AI 研习社按:移动设备相较于 PC ,携带便携,普及率高。近年来,随着移动设备的广泛普及与应用,在移动设备上使用深度学习技术的需求开始涌现。

1883
来自专栏AI科技评论

这10个小工具 将引爆机器学习DIY潮流

机器学习十大不可忽视项目 前言:那些流行的机器学习项目之所以受欢迎,一般是因为其提供了一种多数人需要的服务,或是因为它们是第一个(也许是最好的)针对特定用户提供...

3327
来自专栏ATYUN订阅号

【干货】十大流行AI框架和库的优缺点分析

近年来,由于AI领域的迅猛发展,AI这一词汇已经成为一个流行语。AI曾被称为是一个书呆子和天才的领域,但由于各种库和框架的发展,使更多的人开始了他们的AI之旅。...

4247
来自专栏机器之心

专栏 | 如何对比评价各种深度神经网络硬件?不妨给它们跑个分

矽说专栏 作者:唐杉 作者简介:唐杉博士先后在 T3G(STE)、中科院计算所、紫光展锐(RDA)工作。具有 15 年以上的芯片设计经验,在 3G/4G 通信基...

3367
来自专栏IT派

十大你不可忽视的机器学习项目

前言:那些流行的机器学习项目之所以受欢迎,一般是因为其提供了一种多数人需要的服务,或是因为它们是第一个(也许是最好的)针对特定用户提供服务的。那些最流行的项目包...

3458
来自专栏用户2442861的专栏

美团推荐算法实践

推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。

2061
来自专栏ATYUN订阅号

告别Python,用神经网络编写的软件走向2.0时代

有时人们把神经网络称为“机器学习工具箱中的另一种工具”。有时你可以用它们来赢得Kaggle的比赛。但是,这种解释完全见木不见林。神经网络不只是另一种分类器,它们...

3715
来自专栏AI科技评论

斩获 ISCA 2018 中国唯一一作论文,清华大学 Thinker 团队提出 AI 计算芯片的存储优化新方法

AI 科技评论按:6 月 2 日至 6 日,第 45 届国际计算机体系结构大会(International Symposium on Computer Arch...

1214

扫码关注云+社区