【SPA大赛】分享推荐类大数据的相关经验

很荣幸能够在腾云阁分享技术经验。

本人很幸运在刚刚结束的京东算法大赛中取得第四的成绩,腾讯广告点击大赛目前排名前五十,在比赛过程中学到了许多知识,同时也有一些经验分享给大家。后面也有队友李强在腾讯社交广告高校算法大赛中的分享。

首先,推荐类的赛题,成绩的关键在于特征的挖掘,因此,在比赛的前期,耐心分析数据,寻找特征是非常必要的。有些选手感觉特征挖掘难以下手,这里我一般从三个方面挖掘特征:数据分析、业务理解、特征交叉。数据分析的重要性不必多提,业务理解也能帮助更好地挖掘特征,比如京东比赛预测用户买不买商品的问题,我就从用户的活跃度、购买差异、购买能力、购买习惯等方面考虑,挖掘出的特征是非常有用的。

谈到提取特征,就不得不提特征选择的问题,有些选手单纯的根据基于树模型的特征重要性删选特征,我觉得这样是不太可取的,一方面,有的强特征相关性较强,这样如果其中一个特征重要性认为很强,其他的特征重要性就会变得很低。另外一方面有些不太重要的特征结合起来也会变成比较强的特征,因此不要很随意地抛弃不太重要的特征。不过,特征重要性可以作为特征挖掘方向的参考,比如可以通过重点研究重要性比较强的特征,找一些相类似的特征,同时也可以对某些强特征进行有意义的交叉,这样对结果都是有提升的。

另外,特征的设计一定要注意细节问题,有些细节可能直接决定着特征的好坏。

当然啦,做比赛,建立稳定的线下是非常重要的,保证线下与线上同增同减,能够帮助我们突破线上提交次数的限制,通过线下成绩的反馈,能够更好地确定特征地好坏,从而可以指引我们挖掘特征地方向。很多选手表示线下并不准,有两种原因:一种是选择的验证集不合适,一种是没有进行交叉验证,解决了这两个原因,一般来说线下还是相对稳定的。

最后,在这里对新手提一些小小的建议:首先,笨鸟先飞,既然是新手,就要早早开始参加比赛,前期竞争相对小,容易出成绩,这时如果有了好的排名,与自己排名相近的参赛队员组队,是非常不错的选择, 通过交流,能够让自己更快地学习进步。因此,我鼓励新手能够组队参加比赛,一起学习交流。新手千万不要因为自己没参加过就觉得自己不行,盲目地否认自己,我觉得,大部分赛题,对新手来说还是比较友好的,赛题比较贴近现实,更容易挖掘特征,赛程持续时间较长,给了新手充分学习的时间。我相信,只要努力去做,静下心认真学,新手也能取得不错的成绩。

一次比赛,确实能够让我们学习到非常多的知识,这对我们以后,都是非常有帮助的,而一起奋斗过的队友,也会建立深厚的友谊,这也是一笔宝贵的财富。

目前,我的队友李强在腾讯社交广告高校算法大赛取得不错的成绩,他也有一些针对此次比赛的经验要分享:

  • 线下训练集测试集划分 因为数据带有时序,那么可以用时序分割。另一种方法是挑选train数据集中的小部分作为线下测试。这里可以通过提交来验证线上线下的结果是否一致,只要同增减就可以。
  • 特征工程 比赛的关键在于特征工程,我们验证一个特征好坏的时候可以直接在线下预测集中评估,如果加入这个特征线下验证集合有所提高,那么这个这个特征是比较可信的(建立在线上线下同增减的情况下),还可以直接算特征和label的相关性来确定特征的好坏。
  • 特征的穿越 很多小伙伴往往会遇到一个情况,线下加入一个特征导致loss无限接近于0或者线下提高很大线上爆炸的情况,这时候往往是你用了未来的信息,或者用到了和label直接相关的特征,如转化时间。
  • 模型的调参 比赛前期,不建议频繁的调各种参数,一方面,调参带来的提升仅仅是小量的提升,取胜的关键不在这,另一方面,频繁根据线上成绩更改各种参数,会让自己的结果过拟合线上,这样的结果在换榜时是非常不利的。这里我选用的是固定变量法,就是固定其他参数,然后通过CV寻找最优的参数取值。如在xgboost中我们可以固定其他变量,然后可以通过cv求得最佳的迭代次数。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

IBM Watson提出人机推理网络HuMaINs,结合人机两者优势

选自arXiv 机器之心编译 参与:刘晓坤、黄小天 人机交互可以用机器的优势弥补人类决策的非理性缺陷。近日,IBM Watson 研究中心联合多家研究机构提出了...

1949
来自专栏AI研习社

博客 | 玩转「马里奥」的算法能搞定「口袋妖怪」吗?

现在,你很可能已经听说过机器人玩游戏的水平超过人类了吧。这些机器人的一种设计方法是给它们明确地编程,设定一组输入和一组输出之间的对应关系;或者也可以让它们自主学...

694
来自专栏数据科学与人工智能

简明数据科学(1):啥啥啥?这都是啥?

原文:Data Science Simplified Part 1: Principles and Process 译者:杨德杰 2006年,英国数学家、Tes...

2547
来自专栏计算机视觉战队

视频中的深度学习

视频分级介绍 视频分析是计算机视觉领域中的一项重要研究内容。它借助计算机和视频采集设备,在无人监督的情况下,自动完成人类视觉的部分功能。对人类视觉皮层机理的研...

3736
来自专栏专知

悉尼大学欧阳万里等人30页最新目标检测综述

【导读】最近,中国国防科技大学、芬兰奥卢大学、澳大利亚悉尼大学、中国香港中文大学和加拿大滑铁卢大学等人推出一篇最新目标检测综述,详细阐述了当前目标检测最新成就和...

2143
来自专栏PPV课数据科学社区

AI时代就业指南:如何成为一名优秀的算法工程师?

1、算法工程师是做什么的? 广义上是指搞软件算法的,也就是开发和应用软件算法实现工业控制和程序处理。除了机器学习之外 还包括控制算法、图形算法等,狭义上现在谈算...

4308
来自专栏AI科技评论

业界| 英特尔中国研究院深度学习领域最新成果——“动态外科手术”算法

编者注:本文为英特尔中国研究院最新研究成果,主要介绍了一个名为“动态外科手术”算法,有效地解决了处理大型网络时重训练时间长,误剪枝率高的问题。利用该算法,我们可...

2913
来自专栏数据派THU

一文总览数据科学全景:定律、算法、问题类型...

作者:Pradeep Menon 翻译:王瑞玺 校对:梁傅淇 本文约3000字,建议阅读时间8分钟。 Pradeep Menon是一位在大数据,数据科学,数据架...

1787
来自专栏机器之心

学界 | IBM Watson提出人机推理网络HuMaINs,结合人机两者优势

3165
来自专栏机器之心

从FPS到RTS,一文概述游戏人工智能中的深度学习算法

选自arXiv 机器之心编译 参与:路雪、李泽南、李亚洲 本文综述了用于打电子游戏的深度学习算法,分析了不同类型的电子游戏对深度学习系统的要求,同时也列举了一些...

3249

扫码关注云+社区