【SPA大赛】广告数据挖掘的经验分享

大家好,我们的团队是由来自三个不同专业的小伙伴组成,且都是萌新,这是我们团队第一次参加数据挖掘比赛。我们团队从5月10号下载数据后开始看题目,找相关资料等,就在当天晚上我在腾讯官方微信公众平台上看到了腾讯数据挖掘工程师陈成龙分享的“ kaggle 数据挖掘比赛经验分享”的干货,这份干货对数据挖掘小白的我们实在是太有用了,于是我和队友花了整整一天的时间研究了一下这份干货,随后再去看题目,这才有了一些思路。尽管我们在初赛过程中困困重重,但我们经过两周的共同的努力,目前以0.099711的成绩进入了决赛。下面我就针对具体问题介绍一下我们的做法。

1.数据集构造方面

我们在看了好几遍题目后,开始尝试用干货中提到的数据清洗策略清洗本次数据。首先是分别统计了 train.csv 中 label=1 和 label=0 的样本数量,发现这个比例是1:40,很明显是正负样本不均衡的问题。然后发现数据分布在6个.csv 文件中(train.csv和test.csv除外),这里需要做的工作就是 merge,但真正要把 merge 做好就需要找对连接的标签和采用的连接方式,我们用了左外连接。另外在 validation 划分方面,我们随机选取数据集的12%作为 validation ,因为不同的随机数种子产生的 validation 集的 logloss 会有些差异,但是要注意数据泄露的问题,比如用18-24的数据去做训练,25天的数据去做测试,这就有可能导致数据泄露,这里我们尝试改变随机数种子使得线上线下接近一致。

2.模型构建方面

我们队使用的模型是模型 xgboost,没有调参,也就是默认的参数。我们的主要精力放在寻找特征上,在决赛中我们可能考虑用 lightgbm,因为决赛数据是预赛数据的10倍,所以为了尽快看到结果,所以会选择 lightgbm。

3.特征工程方面

在广告点击率和转化率的特征中,特征可以分为三类,一是 categorical feature (无序特征),二是 ordinal feature(有序特征),三是 numberical feature(数值特征)。我们队对于特征的处理如下:

(1)使用统计频率、转化次数特征、转化率特征代替 onehot ,这里我们对 label=1的用户进行统计分析,针对用户的历史交互,安装 app 等信息,从用户的角度去思考可能决定他点击广告后发生激活的原因,由此提取出一些可能的特征,之后再进行特征提取以及验证。

(2)对训练集和测试集中的重复样本构造是否第一次点击,是否中间点击,是否最后点击,第一次和最后一次间隔特征。

(3)大量使用组合特征,主要是用户特征和广告上下文特征。

总结

在初赛过程中,我们不断地挖掘特征,检验特征,阅读 kaggle 上竞赛获奖者的开源代码等,尽管我们目前的成绩不是太好,但是我们真正学到了东西,正所谓,一次参赛,终身受益。最后感谢腾讯为我们提供的平台和服务。

最后预祝小伙伴们在决赛中取得好的成绩。谢谢。

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

王晓娟的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/1/21

1. Google Brain发布2017年总结贴,感觉今年vision方面已经没什么进展了,AutoML还是优先级最高的 链接:https://rese...

3577
来自专栏AI研习社

抠图不再麻烦,Adobe 新算法让 P 图以假乱真

你的朋友圈有被《我的前世青年照》刷屏么?大家之所以这么热情,主要是因为 AI 技术让我们的照片与模板中人物完美融合,看起来毫无违和感。

832
来自专栏大数据文摘

视频更新|斯坦福CS231n深度学习与计算机视觉课时14-卷积神经网络详解(上)

1232
来自专栏语言、知识与人工智能

文本情感分析综述

前言:本综述是语义分析团队分享的材料,现在将PPT呈现给大家。在文本情感分析这样一个宏观命题下,本文内容在细分领域上有所侧重,以梗概为主,所以可能无法做到对每一...

8186
来自专栏AI科技大本营的专栏

谷歌大脑深度学习从入门到精通视频课程[7.1]:深度学习——动机

AI100 已经引入 Hugo Larochelle 教授的深度学习课程,会在公众号中推送,并且对视频中的 PPT 进行讲解。课后,我们会设计一系列的问题来巩...

3024
来自专栏大数据智能实战

基于stanford nlp(JAVA)实现关系抽取

关系抽取是自然语言处理和理解的重要任务之一,就是从自由文本中发现实体对(人物、地点、机构、事件)及实体之间的关系。 关系抽取一般采用三元组,(实体,关系,实体)...

2585
来自专栏大数据文摘

利用Python进行深度学习的完整入门指南(附资源)

1536
来自专栏专知

CMU大学76页深度学习课程:变分自编码器(VAE, Variational Autoencoder)

【导读】近几年来,变分自编码器(VAE,Variational Autoencoder)变得同GAN以银行,成为生成模型种最流行的方法。本文整理了CMU大学DL...

772
来自专栏大数据文摘

视频更新|斯坦福CS231n深度学习与计算机视觉课时15-卷积神经网络详解(下)

1554
来自专栏新智元

【LeCun论战Yoav】自然语言GAN惹争议:深度学习远离NLP?

【新智元导读】一篇在 ArXiv 上非常火的文章《自然语言对抗生成》引发了 Yann LeCun 和 Yoav Goldberg 的激烈论战。Yoav Gold...

35412

扫码关注云+社区