【 SPA大赛 】数据特征处理技巧

导语

作为萌新,很荣幸能参加到第一届腾讯社交算法大赛,我们的队名是“竟然有这种操作”,在这里我希望和大家分享一些比赛过程中leakage和trick处理的技巧。

其是最开始参加比赛是奔着前300名提交得文化衫去的,但当真正进入比赛后,我才感受到了竞赛场上的厮杀,目的也已不是单纯的拿件文化衫那么简单了,特别是初赛A阶段很长一段时间都保持在前50名更是给了我莫大的信心,进入初赛B阶段,队伍始终保持在前100,最终以25名进入决赛,这无疑是让我们萌新打了鸡血一样,也非常感谢在腾讯算法群里面分享和讨论自己idea的大大们(比如已跃升第三的‘中大渣渣’),我从中受益颇多,目前刚进入决赛阶段,下面聊聊比赛的trick和leakage。

关于Trick

整个初赛阶段大家讨论的最多的无疑是传说中的trick了,第一周郭大神的登顶就是靠首先发现了trick,B榜中,大佬们说这个trick能让线上成绩提升2个千分点(大几十名的差距啊有木有),事实上,就我们队来说,利用这个trick构造的6个特征把队伍成绩从0.1033拉到了0.0997,近3.5千分点(难不成和特征工程好坏成反比?)。

虽有trick相助,奈何萌新特征工程不过关成绩仍不理想。关于这6个特征,首先是和重复数据有关,细心的人应该发现了重复数据的label标注是有规律的,按时间顺序大部分标在了最后一条上,当我在舒(bian)舒(di)服(fei)服(zao)的澡堂洗澡的时候突然想到群大佬的一句话”训练集上的情况也会在测试集上出现”(划重点!),回去后秒试了一把,将数据分为3类进行标注:非重复、重复非最后一个、重复最后一个(要相信模型,通过标记让模型自己学习这个trick规律),进行炫酷的一波操作(One-Hot)后,效果不错,提了近2个千分点。第二天,想要再次从trick中发现点什么的我和队友讨论数据的规律,发现重复数据的label1不仅是标在最后一条,还有标在第一条的,甚至有少量的标在中间,于是仍交给模型学习这个规律,又经过一波炫酷操作,线上0.1006,总共提了3个多千分点。尝到了甜头,于是又开始挖掘trick的信息,注意到只利用上了时间顺序,没有用到时间差,又联想到群里大佬的“真实情况不存在信息泄露”。加上了2列时间差特征,分别是与重复第一条的时间差和重复最后一条的时间差,于是,线上成绩从0.103突破到了0.997。

关于trick透露的比较详细了,稍微发散一下应该有不错的效果,个人感觉这个trick还能继续挖掘。

关于leakage

相信很多第一次参加比赛的小伙伴们会跟我一样遇到泄漏的问题,即同了未来信息来预测当前,造成线下成绩很美好,线上成绩爆炸,我们队通过参考一些比赛获奖选手的经验使用滑动窗口解决了这个问题,如下图:

我们构造统计特征时统计clickTime前一周的统计量,来避免信息泄露,这是个比较好的避免泄漏的方法,当然还有很多其他方法,作文萌新就不赘述了=。=!

最后,希望大家在比赛中关注的不仅仅是成绩,学到的东西和经验才是最宝贵的。

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

李宗阳的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏磐创AI技术团队的专栏

数据挖掘和机器学习的面试问题

【磐创AI导读】:本文主要分享了机器学习需要注意的几个面试问题。想要学习更多的机器学习知识,欢迎大家点击上方蓝字关注我们的公众号:磐创AI。

833
来自专栏机器之心

观点 | 深度学习:简单而有局限性的求解方式

选自Keras Blog 作者:Francois Chollet 机器之心编译 参与:路雪、李泽南 在人工智能,特别是深度学习破解了一个又一个难题,在很多任务上...

3036
来自专栏数据派THU

【独家】深度学习论文阅读路线图

翻译:王军福 原文链接:https://github.com/songrotek/Deep-Learning-Papers-Reading-Roadmap ...

20010
来自专栏计算机视觉战队

CVPR 2018 论文简单笔记(部分,待更新)

计算机视觉最具影响力的学术会议之一的 CVPR 将于 2018 年 6 月 18 日 - 22 日在美国盐湖城召开举行。据 CVPR 官网显示,今年大会有超过 ...

722
来自专栏PPV课数据科学社区

这是一份「不正经」的深度学习简述

作为人工智能领域里最热门的概念,深度学习会在未来对我们的生活产生显著的影响,或许现在已经是了,从 AlphaGo 到 iPhone X 上的人脸识别(FaceI...

2935
来自专栏智能算法

2016年不可错过的21个深度学习视频、教程和课程

几年之前,深度学习还是机器学习中一个不太受人关注的领域。随着最近神经网络和大数据概念的出现,很多复杂任务的实现已经成为可能。 目前,深度学习已经被应...

34612
来自专栏AI科技评论

洞见 | 香港科技大学杨强教授专注研究的这项新兴技术,说不定能造就真正的“智能”

迁移学习,简单的说,就是能让现有的模型算法稍加调整即可应用于一个新的领域和功能的一项技术。这个概念目前在机器学习中其实比较少见,但其实它的潜力可以相当巨大。杨强...

2605
来自专栏机器学习算法与Python学习

回归预测之入门

最近一段时间再看斯坦福大学几期学习的教学视频,有百度首席工程师、百度大脑以及百度研究院的负责人吴恩达教授讲述,内容深入浅出,推荐想踏入机器学习领域的童鞋观看。这...

2585
来自专栏AI科技评论

学界 | OpenAI“;巧妙”发现无监督情感神经元,可利用文本检测用户情感

AI科技评论4月7日消息,OpenAI在官网公布了一项最新的研究成果,介绍了一个可以高效学习情感表征的无监督系统,目前能够预测亚马逊评论中的下一个字符。 研究人...

3489
来自专栏人工智能头条

LIME:一种解释机器学习模型的方法

2224

扫码关注云+社区