【SPA大赛】腾讯比赛的一些分享

各位同学大家好,我是本次参赛选手李博,现在就读于北京邮电大学,是一名研一的在校生,研究方向是数据分析和机器学习。这次腾讯的比赛参加的比较晚,因为前面在准备京东的决赛答辩。不过看了几天数据,现在我把我的一些初步分析分享给大家。

一、训练集和测试集的划分:

大家都知道,腾讯决赛数据集巨大,简直让人绝望。所以我建议大家按每天划分数据集,再分开处理,提取各天的特征,这样一方面数据控制能力强,另一方面,统计特征不会穿越,最重要的是还能跑得动。。。。

二、业务理解:

大家都知道了一些trick,我在这就不说了。我想强调的一点是,我们解决的任何问题都不能脱离业务场景进行分析,因为好的特征都来自于与业务场景的深入理解和对原始数据的细致分析,所以大家要设身处地想用户是怎么看到广告,点击广告,转化广告的。通过思考想一下自己在使用过程中,哪些东西吸引了自己去点击,哪些东西吸引了自己去转化。这样可以找到很强的特征噢~

三、特征工程:

在特征工程部分,我提几点吧:

1、因为我们要对每天进行统计,所以我建议大家把clicktime和conversiontime转化为这种形式,方便我们统计一些时间特征,也方便我们划分数据集:

2、我们看数据介绍,广告的类型是二级的,所以我们要把广告类型分开一级和二级两列(我发现很多同学都没处理这个),这样一方面模型更加合理,另一方面我们可以得到哪个一级广告热度高,每个用户分别钟爱哪种一级广告等等统计量;

3、选取特征时不要穿越就不用说太多了,大家要注意不是没利用标签就是不穿越,你的各种超前统计可能都是穿越噢~

4、我们可以把业务转化为一个简单的图模型,然后在图模型里面找一些统计量来作为特征,通过图模型也可以更加深入的理解业务场景。我做个简单的示意图:

初步分析:上图是一个用户对一个时间窗口内的app的考察记录,app之间的箭头表示用户点击之间的跳转,在整个过程中,我们可以计算每个app的入度,这样可以找到哪个app更受此用户欢迎。

图模型是一个非常强的分析工具,比如你还可以加自环,这样可以看到用户的重复点击情况等等。

当然,如果你把时序特征分析的很清晰,那么可以不用图模型,但是图模型确实是个很简单又有效的分析方法。

5、大家可以做一些数据可视化分析,找到一些分辨能力强的统计量。比如统计用户的活跃时间、app的活跃时间等等,说不定有惊喜。

6、交叉特征在这个赛题里面十分重要,不要忘记交叉特征,具体怎么做就不方便透露了(说太多队友会打死我)~哈哈

四、模型算法与框架设计:

模型的话,xgb看来是不怎么好用了,速度有点慢,反馈不及时,大热天的等的心烦。。。建议大家换lightGBM吧,比xgb效果差一丢丢,不过速度快很多,看着就爽。另外大家可以多思考一下框架设计这部分,比如融合方法,其实不仅仅局限于模型融合,还有其他的融合方法可以用来提高成绩。

说了这么多希望给大家一些提示,或者更加清晰的思路。

have fun!

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

深蓝DeePBluE的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

那个学Python的同龄人,也许已经抛弃了你

? 【AI 科技大本营导读】最近有一篇文章 “摩拜单车创始人套现 15 亿:你的同龄人,正在抛弃你” 在朋友圈刷屏,一时引起众多争议。虽然受到了一...

40411
来自专栏云飞学编程

新手学python,如何才能更快升职加薪,迎娶白富美,走上人生巅峰

最近在问答里发现好多咨询怎么学习python,或者学习难不难的问题,这里给大家提几点建议:

701
来自专栏AI科技大本营的专栏

4个关于Python编程语言的故事

今天要讲 4 个关于 Python 编程语言的故事,来看看人工智能时代爆发的 Python。

651
来自专栏人工智能头条

五月人工智能博文Top10

562
来自专栏数据科学与人工智能

【知识】推荐系统中的常用算法

目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。 一、基于内容推荐 基于内容的推荐(Content...

2429
来自专栏全栈工程师成长之路

程序员最佳学习方法(干货总结)

1767
来自专栏ATYUN订阅号

MIT适应性可解释机器学习项目旨在让机器学习模型走出黑盒

应用程序为人们提供多种自动化决策,例如识别个人的信用风险是什么,通知招聘人员雇用哪个求职者,或确定某人是否对公众构成威胁。近年来,新闻警告说,未来机器在社会背景...

461
来自专栏大数据文摘

女程序员大起底:Stack Overflow调研称女性更偏爱这些编程语言

1483
来自专栏IT 指南者专栏

究竟什么才是学习?

我一直以为,学习就应该是拿着学习的资料,花大块的时间在图书馆里面按照计划一字一句、从头到尾的进行研习。但慢慢的我发现,我对学习的理解太狭隘,我一直在错误的进行学...

2598
来自专栏挖掘大数据

推荐系列02,每个职场中的你都有必要了解的推荐系统常识

接上一篇《推荐系列01:人工智能与推荐系统》,上一篇文章主要解决的什么是推荐系统以及为什么要有推荐系统的问题。这一篇我们关注的是,更细节的一些东西,把推荐系统的...

2650

扫码关注云+社区