【 SPA大赛 】数据特征处理技巧

导语

作为萌新,很荣幸能参加到第一届腾讯社交算法大赛,我们的队名是“竟然有这种操作”,在这里我希望和大家分享一些比赛过程中leakage和trick处理的技巧。

其是最开始参加比赛是奔着前300名提交得文化衫去的,但当真正进入比赛后,我才感受到了竞赛场上的厮杀,目的也已不是单纯的拿件文化衫那么简单了,特别是初赛A阶段很长一段时间都保持在前50名更是给了我莫大的信心,进入初赛B阶段,队伍始终保持在前100,最终以25名进入决赛,这无疑是让我们萌新打了鸡血一样,也非常感谢在腾讯算法群里面分享和讨论自己idea的大大们(比如已跃升第三的‘中大渣渣’),我从中受益颇多,目前刚进入决赛阶段,下面聊聊比赛的trick和leakage。

关于Trick

整个初赛阶段大家讨论的最多的无疑是传说中的trick了,第一周郭大神的登顶就是靠首先发现了trick,B榜中,大佬们说这个trick能让线上成绩提升2个千分点(大几十名的差距啊有木有),事实上,就我们队来说,利用这个trick构造的6个特征把队伍成绩从0.1033拉到了0.0997,近3.5千分点(难不成和特征工程好坏成反比?)。

虽有trick相助,奈何萌新特征工程不过关成绩仍不理想。关于这6个特征,首先是和重复数据有关,细心的人应该发现了重复数据的label标注是有规律的,按时间顺序大部分标在了最后一条上,当我在舒(bian)舒(di)服(fei)服(zao)的澡堂洗澡的时候突然想到群大佬的一句话”训练集上的情况也会在测试集上出现”(划重点!),回去后秒试了一把,将数据分为3类进行标注:非重复、重复非最后一个、重复最后一个(要相信模型,通过标记让模型自己学习这个trick规律),进行炫酷的一波操作(One-Hot)后,效果不错,提了近2个千分点。第二天,想要再次从trick中发现点什么的我和队友讨论数据的规律,发现重复数据的label1不仅是标在最后一条,还有标在第一条的,甚至有少量的标在中间,于是仍交给模型学习这个规律,又经过一波炫酷操作,线上0.1006,总共提了3个多千分点。尝到了甜头,于是又开始挖掘trick的信息,注意到只利用上了时间顺序,没有用到时间差,又联想到群里大佬的“真实情况不存在信息泄露”。加上了2列时间差特征,分别是与重复第一条的时间差和重复最后一条的时间差,于是,线上成绩从0.103突破到了0.997。

关于trick透露的比较详细了,稍微发散一下应该有不错的效果,个人感觉这个trick还能继续挖掘。

关于leakage

相信很多第一次参加比赛的小伙伴们会跟我一样遇到泄漏的问题,即同了未来信息来预测当前,造成线下成绩很美好,线上成绩爆炸,我们队通过参考一些比赛获奖选手的经验使用滑动窗口解决了这个问题,如下图:

我们构造统计特征时统计clickTime前一周的统计量,来避免信息泄露,这是个比较好的避免泄漏的方法,当然还有很多其他方法,作文萌新就不赘述了=。=!

最后,希望大家在比赛中关注的不仅仅是成绩,学到的东西和经验才是最宝贵的。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

李宗阳的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SimpleAI

Why Writing?

对于计算机,一开始我是抗拒的,高考填志愿,第一志愿是金融,第二志愿是国际金融,第三志愿想来想去填了一个管理科学。。。以我高出录取线两分的成绩,我理所当然地被分到...

775
来自专栏镁客网

黑科技 | 新型“动态”窗户技术,让玻璃的透光性随意调控

880
来自专栏磐创AI技术团队的专栏

两年,从月入4K到40K,从来不是努力工作,而是不断跳槽

这两年期间,经历了4次跳槽,学习→工作实践→跳槽,是我登上每一节楼梯的方式。当然,跳槽的前提是你新学的知识+工作经验,能让面试官觉得你值得这份工作。

51
来自专栏数据的力量

如何学习统计学

883
来自专栏王晓娟的专栏

【SPA大赛】广告数据挖掘的经验分享

本文主要是作者针对SPA大赛,通过以下三个方面数据集构造方面、模型构建方面、特征工程方面总结了一些广告数据挖掘的经验分享。

4260
来自专栏字根中文校对软件

JcJc错别字检查:应试作文写作质量的计量和计算

机器可以批高考作文?至少能有效禁止背作文和套作文 澎湃新闻见习记者 程千千 2017-11-28 09:23 来源:澎湃新闻 字号 在高考评分中,作...

3319
来自专栏趣学算法

算法学习建议

知识在于积累,学习需要耐力。学习就像挖金矿,或许一开始毫无头绪,一头雾水,但转个角度,换换工具,时间久了总会找到一个缝隙。成功就是你比别人多走了一段路,或许恰恰...

1293
来自专栏WOLFRAM

Wolfram 向教育工作者致敬

新学期伊始,教师节将至,我们为耕耘在教学一线的教育工作者们,献上我们最喜欢的Wolfram资源,感谢您所做的一切,并希望您能够喜欢!

714
来自专栏大数据文摘

涨知识!你的大脑只用了5% ?Oh,NO!

1053
来自专栏悦思悦读

我是这样入门“机器学习”的

大三的时候学过一门“人工智能导论”的课,只记得课里有一些回溯和图搜索的算法,具体细节全忘了。

1373

扫码关注云+社区