【 SPA大赛 】关于数据处理和特征工程的一些分享

大家好,笔者是“南七技师”队,作为一支全部由萌新组成的队伍,一路走来虽步履维艰但却收货颇丰。同时也非常感谢腾讯公司举办这次社交广告高校算法大赛,为笔者提供了良好的学习途径与机会。

下面主要分享笔者在比赛过程中的心得体会:

1. 数据探索以及数据预处理

刚拿到数据,笔者就对其进行了一些探索性的分析,包括对数据变量之间的联系和数据分布情况的统计,并对其进行了可视化。进行可视化之后,就可以对原始数据有进一步的了解,然后进行数据的些清洗工作,包括对缺失值的处理以及对离群点的去除等。

2. 特征工程

笔者在特征公共步骤进行了几次尝试如下:

1) 选用前7天的数据作为训练集、后7天的数据作为测试集,结果发现效果并没有使用全部的数据集效果好。

原因分析:数据量减小。

2) 选用所有天的上午、下午数据作为训练集,来分别预测上午、下午的结果。

原因分析:数据量减小。

3) 把所有的数据都转化合成了一张表,并且把低维度的特征进行了One-hot处理,将这些特征全部加入到了模型中进行训练,成绩并不是特别理想。

原因分析:只是单纯的加入所有的特征,并未选择有效特征。

经过几次尝试之后,笔者着手于对数据作统计分析,对于一个特征是否真的有意义是需要看特征的分布比例,在正负样本中所占的比例越大就表明该特征的对正负样本的区分度较好。同时,笔者还进行对特征的组合,计算出其中的转化率。然而,特征之间必然是会有重复的,这将会导致过拟合的现象出现,给模型造成不必要的干扰,笔者解决这种问题的方法就是逐一测试特征是否有效。

3. 技巧

在实验过程中,通过分析原始数据背后的真实意义,以及观察提交结果的反馈,总结了一些有用的技巧,如下:

1) 笔者对转化回流时间做了一些小处理。因为回流时间是从用户点击到广告系统得知用户激活App,而且转化数据是由广告主提供的,就可以计算出广告主上报到广告系统这期间的时间,这个特征也提升了有万分之五。

2) 尝试了position*connectionType,效果也有提升。

3) 通过观察数据发现,可以发现存在很多重复点击的数据,同一个广告被连续多次点击后转化只在最后一次点击上,由这个笔者构造出的特征一下子让笔者的成绩提升了千分之三。

4. 总结

由于笔者团队是个新手团队,没有参赛经历,因此开始比赛的时候第一步就是了解数据,各个字段的含义联系等等。然而过了这段时间,笔者就埋头进入了所谓的“业务”分析的方向,再也没有仔细看过数据,不断地更换模型更换参数构造各种的特征,然而取得的效果却并不和消耗的时间成正比。后经提醒,笔者将目光转移回了初始数据,这才有所斩获。这可能是新手往往会经常犯的错误吧,以后的比赛过程中还是要多多花点时间在数据上面。

最后祝大家取得好成绩!

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

方舒的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

人工智能、机器学习、深度学习,三者之间的同心圆关系

理解三者之间关系的最简便方法就是将它们视觉化为一组同心圆——首先是最大的部分人工智能——然后是后来兴旺的机器学习——最后是促使当下人工智能大爆发的深度学习——在...

794
来自专栏计算机视觉战队

简单的目标检测与分析

最近才参加完中兴的捧月比赛,感觉一开始该公司水分较大,让参赛者自己制作数据集,并且制作的数据集作为比赛最后的评审得分之一(对此有啥看法,你们懂得-----不就是...

2716
来自专栏AI研习社

AI 实时生成材质,效果直逼好莱坞大片

如果你要使用 Principled Shader 通过手动方式创建不同材质上逼真的光影效果,使用者必须对大量的材质参数进行手动微调,并且在每次设置后等待图片渲染...

872
来自专栏新智元

【AI学会“以牙还牙”】OpenAI发布多智能体深度强化学习新算法LOLA

【新智元导读】OpenAI和牛津大学等研究人员合作,提出了一种新的算法LOLA,让深度强化学习智能体在更新自己策略的同时,考虑到他人的学习过程,甚至实现双赢。每...

3586
来自专栏FreeBuf

基于时间和地域构建一个网络诈骗形势模型

电信诈骗,网络诈骗层出不穷,花样翻新,是当前公安部重点打击的对象。本文从网络中爬取相关的新闻,通过对时域和数量的统计与分析,实现对网络诈骗模型中时间参量的优化,...

2177
来自专栏大数据挖掘DT机器学习

机器学习算法工程师需要掌握的技能

实话实说,目前大部分人上各种班来学习机器学习,学习大数据,归根到底还是希望能找到一个好的工作,拿到更高的薪水,当然还有一部分原因是自己对这一方面比较感兴趣,希望...

3106
来自专栏机器学习算法与Python学习

机器学习很难上手和提升?你只差一条学习路径!

从网易云音乐的歌单、亚马逊的商品到抖音的短视频,机器学习主导的推荐系统改变了用户浏览习惯;iphone x 在刘海中祭出3D结构光,人脸识别AI便在移动终端迅速...

500
来自专栏镁客网

文艺青年居家旅行必备,Spector让你捕捉生活中的美

1002
来自专栏AI科技大本营的专栏

资源 | 机器学习十大热文新鲜出炉,这个月你该读哪篇?

翻译 | 林椿眄 编辑 | SuiSui 一直为开发者提供优质学习资源的Mybridge最近又发布了一篇资源性文章:《2018年2月机器学习10大热文精选》 ,...

3084
来自专栏量子位

详解个性化推荐五大最常用算法

允中 若朴 编译自 Stats&Bots 量子位 出品 | 公众号 QbitAI ? 推荐系统,是当今互联网背后的无名英雄。 我们在某宝首页看见的商品,某条上读...

3455

扫码关注云+社区