【SPA大赛】SPA大赛数据探索与解题思路

一、引言

本次腾讯社交广告算法大赛以移动app广告转化率预估为背景,以移动App广告为研究对象,预测App广告点击后被激活的概率:
,即给定广告、用户和上下文情况下广告被点击后发生激活的概率。由于我是一个数据挖掘比赛的新人,所以我就说一下我参加比赛的体验吧,和我们的一些结题思路吧。

二、初赛历程

(1)数据分析:

1.每天的交互行为即点击数、安装次数即转化数、转化率(如下2图):

2.每天出现的用户数量、app数量、app种类数量(如下3图):

等等,数据的初始分析让我们更好地理解数据的分布,加深对赛题的理解。

(2)特征提取:

ID类特征,统计特征,基于业务的特征以及一些trick。

ID类特征:

1.年龄 2.性别 3.平台 4.联网方式

以上的特征都采取one-hot编码

统计特征:

1.用户 2.素材 3.app 4.广告主 5.广告位 6.站点集合 7.联网方式 8.运营商

以上特征分别计算点击数,下载数,下载率

基于业务的特征:

1.重复点击的情况

2.不同年龄段重复点击的下载率

一些trick:

本题是一个用户下载率的问题,下载的主体是客户,所以要做细用户的特征,但由于每一天新用户(这里的新用户是指之前没有发生过交互行为的用户)占了很大的比重,所以之前对用户做的一些统计特征会变的很稀疏,起不到什么作用。但从业务的角度,当一个用户对某个APP发 生了多次点击行为,这个用户就会有更大的可能性会下载,所以我们可以利用这种业务的情况来做一些统计特征。举一个例子,之前对用户的年龄做统计特征时,发 现各个年龄段的用户的下载率都差不多相同,但对重复点击的这种行为做统计后就可以发现,不同年龄段的人下载率就会有比较大的差异,年龄比较小的人多次点击 的下载率就比较高,年龄比较大的人多次点击的下载率就比较低。其它的一些特征也是如此。

(3)模型搭建

TRAIN SET:24、25、26、27、28

VAL SET:29

TEST SET:31

单模型:

Xgboost,LightGBM,GBDT,RF,LR等等我们都尝试过。

目前来看基于我们提取的特征,单模型Xgboost效果会好点。

模型融合:

目前我们正在尝试stacking的方式,其基本思路与方法为:

训练过程:

预测过程:

最后感谢一下大赛的主办方,为我们提供了一个锻炼并提升自己的机会!

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

朱云龙的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏用户画像

浅析UGC视频去重算法

在以UGC(User Generated Content 用户原创内容)业务为主的视频网站中,每天都有大量的视频被上传。用户上传的视频有数量大、重复视频多的特点...

964
来自专栏MixLab科技+设计实验室

解读:如何让机器自动答题?

冲顶大会、芝士超人、百万赢家、百万英雄……搜狗推语音搜索答题外挂。今天我来总结下利用搜索来答题的技术原理。 本质上,这是一个自动问答( Question Ans...

34810
来自专栏数据结构与算法

1018. 打电话

1018. 打电话 (Standard IO) 时间限制: 1000 ms  空间限制: 262144 KB  具体限制  题目描述 某市的IC卡电话计费标准...

2979
来自专栏PPV课数据科学社区

【推荐】飞林沙:商品推荐算法&推荐解释

这是今天看到的一篇蛮有新意的讲稿,由于不是一篇完整的论文,所以理解起来稍微有些困难,就顺着写个笔记,仅供参考。 Ref: http://www.wsdm-con...

2715
来自专栏牛客网

阿里机器学习七面面经

二面大哥是临时叫来的,没看过我的简历,就对简历中的项目进行探讨,讨论了一下实现的方式。

1063
来自专栏机器之心

入门 | 自然语言处理是如何工作的?一步步教你构建 NLP 流水线

计算机非常擅长使用结构化数据,例如电子表格和数据库表。但是我们人类通常用文字交流,而不是使用电子表格来交流。这对计算机来说不是一件好事。

633
来自专栏吉浦迅科技

【讲座】在NVIDIA Jetson上从Tensorflow到TensorRT

NVIDIA在太平洋时间3月8日上午11:00-12:00(北京时间3月9日凌晨3:00-4:00)举办了主题为“AI at the Edge: TensorF...

4456
来自专栏机器学习算法与Python学习

协同过滤原理及Python实现

作者:ACdreamers 链接:http://blog.csdn.net/acdreamers/article/details/44672305 1. 协同过...

3455
来自专栏MixLab科技+设计实验室

写给设计师的人工智能指南:推荐系统

本期更新第6篇文章, 聊聊“推荐系统”。 推荐系统核心的是推荐算法,常用有这几种: 基于内容推荐 协同过滤推荐 基于关联规则推荐 基于效用推荐 基于知识推荐 组...

2434
来自专栏机器学习之旅

应用:如何校验用户画像的准确性?

省略掉预处理设计的过程,画像校验的步骤主要集中在画像开发,画像上线,画像更新中,并且三个阶段中,每个阶段的校验方式完全不同

655

扫码关注云+社区