专访2016CCF大数据与计算智能大赛冠军:针对广告位的作弊检测算法

大数据文摘记者 | 魏子敏

Facebook近日称,2016年第一季度,其DSP平台Atlas半年的流量质量测试结果显示,由机器人模拟和黑IP等手段导致的非人恶意流量高达75%。一石激起千层浪,这一报道在国内数字营销领域内引发热议同时,“广告反欺诈(Anti-Fraud)”的问题再次被推到舆论的风口浪尖,而如何更好的监测作弊流量也收获了广泛关注。

12月25日,为期两个月的2016CCF大数据与计算智能大赛在青岛落下帷幕。其中,荣获CCF最佳算法能力奖的北京大学“fgo非洲人”团队的参赛作品“Human or Robot?”就是专注检测作弊流量的算法作品。

2016CCF大数据与计算智能大赛”(BDCI)决赛嘉年华系列活动在青岛召开

本次大赛自启动共吸引来自全球近万名用户,6000余支参赛队伍,参赛人数7000余人,参与10个竞赛企业11道赛题的竞争。大数据文摘在赛后专访了最佳算法能力奖团队,来自北京大学“fgo非洲人”,他们的作品针对“Human or Robot?”是所有赛题中数据量级最大的一个,涉及1.5亿条数据。

大数据文摘记者专访数据集提供方、赛题评委AdMaster技术副总裁卢亿雷时了解到,这次的竞赛AdMaster提供的数据是完全真实的数据,他们希望竞赛之后的数据可以直接用于真实场景中。

“(我们提供的)数据集量级很大,复赛中有1.5亿条数据。我们不是为了参赛而参赛,希望通过这次比赛将成功案例直接应用于商业场景,也希望通过这次比赛促进广告、数字营销行业广告反欺诈的发展。”

针对于广告位的作弊检测算法

颁奖典礼后,大数据文摘记者专访了来自北京大学的“fgo非洲人”团队的郭旸泽和蒋捷,两人对数据处理和作品亮点进行了详尽介绍。(感谢郭旸泽和蒋捷提供项目PPT)

1、问题描述

互联网广告流量中存在着大量的虚假流量,这会给广告主带来不必要的经济损失,因此我们需要检测流量异常。

正常的方法应该是要识别出作弊用户,并将这些用户产生的流量标记成作弊,但是从技术以及成本的角度考虑,我们可能很难精准的标记作弊用户,因此我们决定使用逆向思维,思考虚假流量是怎么产生的。

一般来讲,非人类的流量可以大体分为两类,一类是善意的,或者说不是针对广告的,比如说搜索引擎的爬虫,这一类流量一般在UA中有明显特征,可以直接将其标注为非人类流量;而另一类流量是有目的的,比如说媒体方可能会不断地访问自己媒体上的广告以获得利益,或者某些恶意点击竞争对手的广告,这些流量的特征是他们都是针对媒体中的广告位的

因此,我们提出了一个针对于广告位的作弊检测算法,能够有效检测作弊流量。

2、问题抽象

具体的,我们将所有的用户对广告位流量抽象成了一个User-Item的二部图模型。如图所示,左边的节点代表用户,这里我们用IP作为一个用户的近似,右边的节点则是一个个广告位。

每一条边则代表了一条用户访问广告位的记录,这些边上有一些信息,比如访问的时间戳、使用的cookie等等,两个节点之间可能有不止一条边,我们的任务则是将这些边标记为作弊或者不作弊。

但是这里的问题是数据量可能很大,比方说在训练集中1.5亿条边,对每一条边进行标记可能过于低效,因此我们需要对数据进行压缩。

我们首先引入时间窗口的概念,在一个小的时间窗口内,我们可以认为同一个用户对于一个item的流量是具有同质性的,所以我们将这些流量统一标记为作弊或者非作弊,这样我们就可以简化这张图,两个节点之间最多只有一条边。

通过这种方法,我们将1e5边压缩成500w条边,我们抽取边上的若干统计特征,进行学习并分类。

3、特征提取

具体的,我们抽取了如下特征:

对于一个时间窗口内的流量,我们认为频数与集中度是符合现实的关键特征,直观的理解是如果一个用户短时间内对一个item进行大量集中的访问,那么这些流量很有可能是虚假流量。

频数具体的定义为该用户在一个时间窗口针对该item的总流量,而集中度可以用相邻流量时间间隔的分布来描述。

与此同时,我们提取了该用户所有的流量的频数与集中度来作为辅助特征,因为同一用户对不同item的访问具有关联性。

此外我们还统计用户所有流量中不同cookie出现频数的分布,一个cookie一般代表着一个client,我们认为这对于学习模型也是有帮助的。

最后,我们认为当前时间窗口是否为作弊是与其历史信息有关的,于是我们引入了上述两个粒度的历史窗口信息作为特征。

最后将这些特征放入学习器进行学习。

4、训练模型选取

对于训练模型的选择,我们尝试了random f和xgb模型,处于训练训率与预测效果的考虑,我们最终选择xgb作为学习模型。

在训练集的交叉验证中,我们的模型对于边的预测能达到约93%的准确率。

5、最小访问间隔判别方法

该模型优点是,高效已部署,并且数据的预处理阶段和xgboost预测阶段均可分布式执行,符合在商业环境中对大数据处理的要求。

其次,模型灵活性较高,时间窗口等参数可以根据实际情况进行灵活调节。

我们的创新点是针对广告位而非用户建立的流量检测系统,这一模型更符合实际场景,此外,我们的互补模型可以提高整体的检测能力。

跟正常渠道相比

通过相关大赛更容易找到数据人才

数据集提供方AdMaster技术副总裁卢亿雷对于本次赛题的冠军团队作品也很满意,此外,他认为本次进入决赛的几支队伍的作品都各有优势,也肯定了通过相关竞赛招募人才比正常渠道更有效。

卢亿雷提到,“跟正常渠道相比,这种方式更对口,在比赛过程中,与选手交流很多,可以了解到学生的全面素质,包括表达能力等,而这些在面试中是接触不到的。”

此外,来自中科院信息工程研究所S-LAB团队的参赛作品“监控场景下的行人精细化识别”荣获CCF综合特等奖和企业单项奖一等奖,北京大学“FOO&Bar”团队的参赛作品“自动驾驶场景中的交通标志检测”荣获CCF最佳技术创新奖;北京大学“诗人都藏在水底”团队的参赛作品“生活大实惠:O2O优惠券使用预测”荣获CCF最佳商业潜力奖;中国石油大学(华东)Chase团队的参赛作品“石油大数据智能处理平台”荣获万国云商特别奖。

相比之前,本次大赛赛题内容相当更丰富,涵盖用户异常行为检测、用户行为预测、用户画像、图像识别、机器学习、推荐系统、LBS、精准营销、分类、情感倾向性判断、自然语言理解、异常流量检测、计算广告、地理预测、多源数据整合、数据挖掘、市场预测等方面。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2017-01-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

什么,这些人你还不认识?!一文带你有姿势地侃深度学习大佬

16520
来自专栏机器之心

专栏 | 田渊栋:第一届FLAIR感想

36390
来自专栏新智元

深度 |《财富》万字长文回溯深度学习革命,盘点 16 大历史时刻

【新智元导读】《财富》今日刊文,深度报道阐述深度学习推动的人工智能如何在整个计算生态系统引发革命。文章从深度学习发展的历史关键点入手,介绍重大的标志性技术突破,...

35250
来自专栏CDA数据分析师

R 语言数据分析师养成计划——从零开始的 14 个任务

作者 CDA数据分析师 1992年,肉丝(Ross Ihaka)和萝卜特(Robert Gentleman)两个人在S语言(贝尔实验室开发的一种统计用编程语...

33870
来自专栏PPV课数据科学社区

《财富》万字长文回溯深度学习革命,盘点 16 大历史时刻

【导读】《财富》封面文章报道深度学习推动的人工智能如何在整个计算生态系统引发革命。文章从深度学习发展的历史关键点入手,介绍重大的标志性技术突破,讲述了 Hin...

37980
来自专栏AI科技评论

学界 | 多伦多大学开发反人脸识别系统,识别成功率降至0.5%

“刷脸”,作为一种个人身份鉴别技术,这些年在图像处理、深度学习等技术的护持下精度大幅提升,在LFW上,各大玩家在无限制条件下人脸验证测试(unrestricte...

17410
来自专栏新智元

Science专访谷歌Magenta负责人:AI创作焦点是机器学习算法

【新智元导读】Science 专访了 Magenta 项目负责人 Douglas Eck ,谈到了谷歌大脑正在进行的包括 AI 音乐、绘画、笑话生成在内的多个项...

37870
来自专栏Vamei实验室

统计Go, Go, Go

结束了概率论,我们数据之旅的下一站是统计。这一篇,是统计的一个小介绍。 统计是研究数据的学科。它包括描述数据,推测群体信息,判断假设的真伪。统计是一门实用学科。...

19490
来自专栏罗超频道

忘了黄金时代,理性看待大数据预测

在世界杯预测时准确率超高的百度大数据预测在稳步推进时遇到了一个小障碍,尚处于内测的票房预测对《黄金时代》的预测与实际结果出现了偏差,被媒体长篇报道引发业内高度...

36140
来自专栏新智元

更正 |《财富》万字长文回溯深度学习革命,盘点 16 大历史时刻

【新智元导读】《财富》封面文章报道深度学习推动的人工智能如何在整个计算生态系统引发革命。文章从深度学习发展的历史关键点入手,介绍重大的标志性技术突破,讲述了 H...

35070

扫码关注云+社区

领取腾讯云代金券