前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >专访2016CCF大数据与计算智能大赛冠军:针对广告位的作弊检测算法

专访2016CCF大数据与计算智能大赛冠军:针对广告位的作弊检测算法

作者头像
大数据文摘
发布2018-05-22 16:54:18
1K0
发布2018-05-22 16:54:18
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘记者 | 魏子敏

Facebook近日称,2016年第一季度,其DSP平台Atlas半年的流量质量测试结果显示,由机器人模拟和黑IP等手段导致的非人恶意流量高达75%。一石激起千层浪,这一报道在国内数字营销领域内引发热议同时,“广告反欺诈(Anti-Fraud)”的问题再次被推到舆论的风口浪尖,而如何更好的监测作弊流量也收获了广泛关注。

12月25日,为期两个月的2016CCF大数据与计算智能大赛在青岛落下帷幕。其中,荣获CCF最佳算法能力奖的北京大学“fgo非洲人”团队的参赛作品“Human or Robot?”就是专注检测作弊流量的算法作品。

2016CCF大数据与计算智能大赛”(BDCI)决赛嘉年华系列活动在青岛召开

本次大赛自启动共吸引来自全球近万名用户,6000余支参赛队伍,参赛人数7000余人,参与10个竞赛企业11道赛题的竞争。大数据文摘在赛后专访了最佳算法能力奖团队,来自北京大学“fgo非洲人”,他们的作品针对“Human or Robot?”是所有赛题中数据量级最大的一个,涉及1.5亿条数据。

大数据文摘记者专访数据集提供方、赛题评委AdMaster技术副总裁卢亿雷时了解到,这次的竞赛AdMaster提供的数据是完全真实的数据,他们希望竞赛之后的数据可以直接用于真实场景中。

“(我们提供的)数据集量级很大,复赛中有1.5亿条数据。我们不是为了参赛而参赛,希望通过这次比赛将成功案例直接应用于商业场景,也希望通过这次比赛促进广告、数字营销行业广告反欺诈的发展。”

针对于广告位的作弊检测算法

颁奖典礼后,大数据文摘记者专访了来自北京大学的“fgo非洲人”团队的郭旸泽和蒋捷,两人对数据处理和作品亮点进行了详尽介绍。(感谢郭旸泽和蒋捷提供项目PPT)

1、问题描述

互联网广告流量中存在着大量的虚假流量,这会给广告主带来不必要的经济损失,因此我们需要检测流量异常。

正常的方法应该是要识别出作弊用户,并将这些用户产生的流量标记成作弊,但是从技术以及成本的角度考虑,我们可能很难精准的标记作弊用户,因此我们决定使用逆向思维,思考虚假流量是怎么产生的。

一般来讲,非人类的流量可以大体分为两类,一类是善意的,或者说不是针对广告的,比如说搜索引擎的爬虫,这一类流量一般在UA中有明显特征,可以直接将其标注为非人类流量;而另一类流量是有目的的,比如说媒体方可能会不断地访问自己媒体上的广告以获得利益,或者某些恶意点击竞争对手的广告,这些流量的特征是他们都是针对媒体中的广告位的

因此,我们提出了一个针对于广告位的作弊检测算法,能够有效检测作弊流量。

2、问题抽象

具体的,我们将所有的用户对广告位流量抽象成了一个User-Item的二部图模型。如图所示,左边的节点代表用户,这里我们用IP作为一个用户的近似,右边的节点则是一个个广告位。

每一条边则代表了一条用户访问广告位的记录,这些边上有一些信息,比如访问的时间戳、使用的cookie等等,两个节点之间可能有不止一条边,我们的任务则是将这些边标记为作弊或者不作弊。

但是这里的问题是数据量可能很大,比方说在训练集中1.5亿条边,对每一条边进行标记可能过于低效,因此我们需要对数据进行压缩。

我们首先引入时间窗口的概念,在一个小的时间窗口内,我们可以认为同一个用户对于一个item的流量是具有同质性的,所以我们将这些流量统一标记为作弊或者非作弊,这样我们就可以简化这张图,两个节点之间最多只有一条边。

通过这种方法,我们将1e5边压缩成500w条边,我们抽取边上的若干统计特征,进行学习并分类。

3、特征提取

具体的,我们抽取了如下特征:

对于一个时间窗口内的流量,我们认为频数与集中度是符合现实的关键特征,直观的理解是如果一个用户短时间内对一个item进行大量集中的访问,那么这些流量很有可能是虚假流量。

频数具体的定义为该用户在一个时间窗口针对该item的总流量,而集中度可以用相邻流量时间间隔的分布来描述。

与此同时,我们提取了该用户所有的流量的频数与集中度来作为辅助特征,因为同一用户对不同item的访问具有关联性。

此外我们还统计用户所有流量中不同cookie出现频数的分布,一个cookie一般代表着一个client,我们认为这对于学习模型也是有帮助的。

最后,我们认为当前时间窗口是否为作弊是与其历史信息有关的,于是我们引入了上述两个粒度的历史窗口信息作为特征。

最后将这些特征放入学习器进行学习。

4、训练模型选取

对于训练模型的选择,我们尝试了random f和xgb模型,处于训练训率与预测效果的考虑,我们最终选择xgb作为学习模型。

在训练集的交叉验证中,我们的模型对于边的预测能达到约93%的准确率。

5、最小访问间隔判别方法

该模型优点是,高效已部署,并且数据的预处理阶段和xgboost预测阶段均可分布式执行,符合在商业环境中对大数据处理的要求。

其次,模型灵活性较高,时间窗口等参数可以根据实际情况进行灵活调节。

我们的创新点是针对广告位而非用户建立的流量检测系统,这一模型更符合实际场景,此外,我们的互补模型可以提高整体的检测能力。

跟正常渠道相比

通过相关大赛更容易找到数据人才

数据集提供方AdMaster技术副总裁卢亿雷对于本次赛题的冠军团队作品也很满意,此外,他认为本次进入决赛的几支队伍的作品都各有优势,也肯定了通过相关竞赛招募人才比正常渠道更有效。

卢亿雷提到,“跟正常渠道相比,这种方式更对口,在比赛过程中,与选手交流很多,可以了解到学生的全面素质,包括表达能力等,而这些在面试中是接触不到的。”

此外,来自中科院信息工程研究所S-LAB团队的参赛作品“监控场景下的行人精细化识别”荣获CCF综合特等奖和企业单项奖一等奖,北京大学“FOO&Bar”团队的参赛作品“自动驾驶场景中的交通标志检测”荣获CCF最佳技术创新奖;北京大学“诗人都藏在水底”团队的参赛作品“生活大实惠:O2O优惠券使用预测”荣获CCF最佳商业潜力奖;中国石油大学(华东)Chase团队的参赛作品“石油大数据智能处理平台”荣获万国云商特别奖。

相比之前,本次大赛赛题内容相当更丰富,涵盖用户异常行为检测、用户行为预测、用户画像、图像识别、机器学习、推荐系统、LBS、精准营销、分类、情感倾向性判断、自然语言理解、异常流量检测、计算广告、地理预测、多源数据整合、数据挖掘、市场预测等方面。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-01-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档