【 SPA大赛 】数据特征处理技巧

导语

作为萌新,很荣幸能参加到第一届腾讯社交算法大赛,我们的队名是“竟然有这种操作”,在这里我希望和大家分享一些比赛过程中leakage和trick处理的技巧。

其是最开始参加比赛是奔着前300名提交得文化衫去的,但当真正进入比赛后,我才感受到了竞赛场上的厮杀,目的也已不是单纯的拿件文化衫那么简单了,特别是初赛A阶段很长一段时间都保持在前50名更是给了我莫大的信心,进入初赛B阶段,队伍始终保持在前100,最终以25名进入决赛,这无疑是让我们萌新打了鸡血一样,也非常感谢在腾讯算法群里面分享和讨论自己idea的大大们(比如已跃升第三的‘中大渣渣’),我从中受益颇多,目前刚进入决赛阶段,下面聊聊比赛的trick和leakage。

关于Trick

整个初赛阶段大家讨论的最多的无疑是传说中的trick了,第一周郭大神的登顶就是靠首先发现了trick,B榜中,大佬们说这个trick能让线上成绩提升2个千分点(大几十名的差距啊有木有),事实上,就我们队来说,利用这个trick构造的6个特征把队伍成绩从0.1033拉到了0.0997,近3.5千分点(难不成和特征工程好坏成反比?)。

虽有trick相助,奈何萌新特征工程不过关成绩仍不理想。关于这6个特征,首先是和重复数据有关,细心的人应该发现了重复数据的label标注是有规律的,按时间顺序大部分标在了最后一条上,当我在舒(bian)舒(di)服(fei)服(zao)的澡堂洗澡的时候突然想到群大佬的一句话”训练集上的情况也会在测试集上出现”(划重点!),回去后秒试了一把,将数据分为3类进行标注:非重复、重复非最后一个、重复最后一个(要相信模型,通过标记让模型自己学习这个trick规律),进行炫酷的一波操作(One-Hot)后,效果不错,提了近2个千分点。第二天,想要再次从trick中发现点什么的我和队友讨论数据的规律,发现重复数据的label1不仅是标在最后一条,还有标在第一条的,甚至有少量的标在中间,于是仍交给模型学习这个规律,又经过一波炫酷操作,线上0.1006,总共提了3个多千分点。尝到了甜头,于是又开始挖掘trick的信息,注意到只利用上了时间顺序,没有用到时间差,又联想到群里大佬的“真实情况不存在信息泄露”。加上了2列时间差特征,分别是与重复第一条的时间差和重复最后一条的时间差,于是,线上成绩从0.103突破到了0.997。

关于trick透露的比较详细了,稍微发散一下应该有不错的效果,个人感觉这个trick还能继续挖掘。

关于leakage

相信很多第一次参加比赛的小伙伴们会跟我一样遇到泄漏的问题,即同了未来信息来预测当前,造成线下成绩很美好,线上成绩爆炸,我们队通过参考一些比赛获奖选手的经验使用滑动窗口解决了这个问题,如下图:

我们构造统计特征时统计clickTime前一周的统计量,来避免信息泄露,这是个比较好的避免泄漏的方法,当然还有很多其他方法,作文萌新就不赘述了=。=!

最后,希望大家在比赛中关注的不仅仅是成绩,学到的东西和经验才是最宝贵的。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

李宗阳的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏互联网开发者交流社区

WinForm之窗体应用程序

2063
来自专栏阿炬.NET

c# datetime 格式化

2996
来自专栏闻道于事

商城项目整理(三)JDBC增删改查

商品表的增加,修改,删除,订单表的增加,确认,用户表的查看,日志表的增加,查看 商品表建表语句: 1 create table TEST.GOODS_TABL...

5885
来自专栏听雨堂

想修改CSS

      下载了一个“通用”的CSS文件,本来想偷懒的,结果发现有问题,就是它用的颜色是变量定义的,无法识别。我又找不到在哪里可以定义。 BODY{     ...

22210
来自专栏我和未来有约会

silverlight向服务器post数据类

using System; using System.Net; using System.Windows; using System.Windows.Co...

2055
来自专栏积累沉淀

Hive2.0.0操作HBase 1.2.1报错解决

首先看错  org.apache.hive.service.cli.HiveSQLException: Failed to open new session: ...

2549
来自专栏跟着阿笨一起玩NET

GB2312转换成UTF-8与utf_8转换成GB2312

2291
来自专栏菩提树下的杨过

遍历文件夹所有文件(示例)

//要引用 using System.Collections.Specialized; public StringCollection GetAllFile...

2259
来自专栏跟着阿笨一起玩NET

[C#]工具类—FTP上传下载

  不错的文章:http://www.cnblogs.com/greatverve/archive/2012/03/03/csharp-ftp.html

1551
来自专栏xingoo, 一个梦想做发明家的程序员

windows程序设计-第四章 system1.c

/*---------------------------------------------------- SYSMETS1.C -- System M...

26610

扫码关注云+社区