【SPA大赛】腾讯比赛的一些分享

各位同学大家好,我是本次参赛选手李博,现在就读于北京邮电大学,是一名研一的在校生,研究方向是数据分析和机器学习。这次腾讯的比赛参加的比较晚,因为前面在准备京东的决赛答辩。不过看了几天数据,现在我把我的一些初步分析分享给大家。

一、训练集和测试集的划分:

大家都知道,腾讯决赛数据集巨大,简直让人绝望。所以我建议大家按每天划分数据集,再分开处理,提取各天的特征,这样一方面数据控制能力强,另一方面,统计特征不会穿越,最重要的是还能跑得动。。。。

二、业务理解:

大家都知道了一些trick,我在这就不说了。我想强调的一点是,我们解决的任何问题都不能脱离业务场景进行分析,因为好的特征都来自于与业务场景的深入理解和对原始数据的细致分析,所以大家要设身处地想用户是怎么看到广告,点击广告,转化广告的。通过思考想一下自己在使用过程中,哪些东西吸引了自己去点击,哪些东西吸引了自己去转化。这样可以找到很强的特征噢~

三、特征工程:

在特征工程部分,我提几点吧:

1、因为我们要对每天进行统计,所以我建议大家把clicktime和conversiontime转化为这种形式,方便我们统计一些时间特征,也方便我们划分数据集:

2、我们看数据介绍,广告的类型是二级的,所以我们要把广告类型分开一级和二级两列(我发现很多同学都没处理这个),这样一方面模型更加合理,另一方面我们可以得到哪个一级广告热度高,每个用户分别钟爱哪种一级广告等等统计量;

3、选取特征时不要穿越就不用说太多了,大家要注意不是没利用标签就是不穿越,你的各种超前统计可能都是穿越噢~

4、我们可以把业务转化为一个简单的图模型,然后在图模型里面找一些统计量来作为特征,通过图模型也可以更加深入的理解业务场景。我做个简单的示意图:

初步分析:上图是一个用户对一个时间窗口内的app的考察记录,app之间的箭头表示用户点击之间的跳转,在整个过程中,我们可以计算每个app的入度,这样可以找到哪个app更受此用户欢迎。

图模型是一个非常强的分析工具,比如你还可以加自环,这样可以看到用户的重复点击情况等等。

当然,如果你把时序特征分析的很清晰,那么可以不用图模型,但是图模型确实是个很简单又有效的分析方法。

5、大家可以做一些数据可视化分析,找到一些分辨能力强的统计量。比如统计用户的活跃时间、app的活跃时间等等,说不定有惊喜。

6、交叉特征在这个赛题里面十分重要,不要忘记交叉特征,具体怎么做就不方便透露了(说太多队友会打死我)~哈哈

四、模型算法与框架设计:

模型的话,xgb看来是不怎么好用了,速度有点慢,反馈不及时,大热天的等的心烦。。。建议大家换lightGBM吧,比xgb效果差一丢丢,不过速度快很多,看着就爽。另外大家可以多思考一下框架设计这部分,比如融合方法,其实不仅仅局限于模型融合,还有其他的融合方法可以用来提高成绩。

说了这么多希望给大家一些提示,或者更加清晰的思路。

have fun!

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

深蓝DeePBluE的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序你好

从业务数据分析到机器学习应用的一次经历

912
来自专栏企鹅号快讯

推荐:机器学习 Python库Top 20

如今开源是创新的核心,推动着技术的飞速革新。本文会为你介绍 2016 年机器学习 Top 20 Python 开源项目,同时分析得出一些有趣的见解和发展趋势。 ...

2008
来自专栏AI科技评论

开发 | TensorFlow 1.0 要来了!它将带来哪些革命性变化?

在发布逾一周年之际,TensorFlow 终于将迎来史上最重大更新:TensorFlow 1.0。 对于不熟悉开源框架的读者,TensorFlow 是谷歌 20...

2736
来自专栏https://www.cnblogs.com/L

【推荐系统篇】--推荐系统介绍和基本架构流程

推荐系统是企业中常用的技术,所以系统的掌握推荐系统的知识是很有必要的。本专栏主要讲述手机APP下载的项目。

1675
来自专栏新智元

苹果发布: Core ML 几行代码构建智能APP(SDK下载)

【新智元导读】昨天在 WWDC 高调发布 Core ML 机器学习库后,苹果官方博客今天发布了包含 iOS 11 SDK的beta版Xcode 9,以及 iOS...

4558
来自专栏企鹅号快讯

这10个开源人工智能项目,你必须了解!

来自:开源中国 链接:https://my.oschina.net/editorial-story/blog/1592254 推荐 10 个饱受好评且功能独特的...

1949
来自专栏人工智能的秘密

安利10个有趣实用的人工智能开源项目

人工智能话题一直都是热门话题。关于人工智能的项目,不知道大家了解得多不多呢?现在我为大家介绍10个十分实用且有趣的人工智能开源项目。

4221
来自专栏AI科技大本营的专栏

我们从250个机器学习开源项目中挑出了Top 10,Github平均star979

在过去一个月中, Mybridge 从 250 个机器学习开源项目中挑选出了 Top 10。Mybridge AI 比较了这期间发布的新项目和重大项目,然后依据...

793
来自专栏域名资讯

选.COM域名更好做音乐

全球多数的知名企业在选择域名上都倾向于.COM后缀,例如Uber用股份换来的uber.com、小米2244万买的mi.com等等,甚至为了契合品牌名称的.COM...

271
来自专栏AI科技大本营的专栏

Facebook开源多款AI工具,支持游戏、翻译等

近日,Facebook 在年度开发者大会 F8 上宣布开源多款 AI 工具,除了 PyTorch、Caffe 等深度学习框架之外,此次开源的还包括 DenseP...

581

扫码关注云+社区