如何发现和检测Facebook上的机器人?

随着社交网络在世界各地的增长,其对理解和统计欺骗行为显得非常重要。其中一个就是“like farming”(喜欢页面,类似微博的关注和知乎的点赞)——人为的增加Facebook喜欢页面的数量。为了对抗它们,全世界的研究者都试图设计检测算法来区分真实的人类行为和机器账号生成的仿人类行为。结果却导致更为复杂的farm方法出现——其能够逃避检测工具,包括Facebook部署的。

Like Farming是什么?

Facebook页面允许拥有者公布产品和活动来与消费者和粉丝产生关联。他们可以定向的推送广告——据报道有超过4千万的小商家拥有活动页面,而其中2百万使用了Facebook的广告平台。

同时,Facebook页面喜欢者的数量已经成为衡量它是否流行的标准,“like farms”的出现让这个数量变得膨胀。Farms通过这种方式来培养页面然后销售给骗子,从而增加它们的商业价值,或者有偿的给页面所有者提供服务。在like farm服务上花钱是非常不稳定的,通常100个喜欢需要10到100美元,但也会取决于你是否想要针对特定的领域——例如,专门针对美国用户通常比较贵。

Farm是怎么操作的?

Farm操作有好几种方法,最终的影响不仅仅取决于花费,还包括检测的难度。一个明显的方法是找出骗子账户,但打开一个骗子账户非常麻烦,因为Facebook需要用户输入验证码或者输入一个短信校验码。另外一个策略是依赖于被盗的账号,比如通过弱口令或者恶意软件非法获取账号,然后控制这个真实的账号。例如,骗子可以通过在受害者主机上安装恶意浏览器扩展来获取Facebook账号,劫持Facebook应用,通过社会工程学攻击,或者在其他网站泄漏的信息中找到认证信息(从地下论坛获取)然后在Facebook上撞库。

Like farms操作者一般不会自己去盗号或者注册虚假账号,他们通常直接在黑市上购买。当然,如果欺骗只是通过虚假的和被盗用的账号生成,那么这离真相还很远。事实还上有一种共谋网络,真实的用户也会用动力去传递一些喜欢的页面。这些网络会雇佣用户去交换它们的服务或者小额支付。有很多方法可以诱导用户去添加一个页面的喜欢——比如,许诺他们一些抽奖,优惠,审查内容等等。

如何对抗Like Farming

检测难度对于骗子来说和业务影响是同样重要的。对2014年的经验进行是否为喜欢页面付费?以及通过使用蜜罐来理解Facebook的喜欢页面欺骗的分析,我们从中观察到两种主要的“操作模式”:第一种并不隐藏他们的操作,喜欢数量爆发式的增长并且形成非常不相关的社会子图,另一个组使用了更隐蔽的方法,定期模仿用户的行为并且依赖于大量的良好的连接网络结构来添加喜欢页面,每个用户只保持少量的喜欢页面。

除此之外让用户人工的维护自己页面的信用度,like farming同时还操作了一部分“没什么意义的”页面。为了隐藏他们的行为,farm操作的账号的流行页面就跟Facebook的真实广告页面一样。前者会造成困境(例如希拉里 克林顿的例子,一夜之间收到几千个来自泰国和缅甸的喜欢),然后就损害了正当商户的广告利益。这些需要新的用户去使用它们,但是like farm账户上不需要的。

我们把注意力转移到farming定量分析上,全世界的研究者已经研究了计算机算法来对抗信誉操纵。特别是Facebook联合大学的研究者——已经开发和部署了好几种工具来检测喜欢页面欺骗。其中一个,叫做CopyCatch,检测“lockstep”喜欢模式通过分析用户和页面的社会图表,同时创建图的边。

另一个叫做SynchroTrap,依赖于同步恶意账号的一类社会网络内容的常见行为,在持续一段时间内能对有相似行为的恶意账号进行聚类。这些方法可以解决一些问题,但是更隐蔽的like farm——它不依赖于欺骗/窃取的账号,就能够成功的躲避这些检测,他们将添加喜欢分散到更长的时间线上,分配到更多的仿造用户上。我们最近通过使用BoostLikes.com的研究确认了这些假设,展示了Facebook 部署的检测工具无法检测到这些欺骗。

Like farm检测工具仅仅关注与页面和用户的行为模式,这样无法捕捉到farm操纵账号的重要的特征。在我们最近的研究中,我们通过时间线特征来解决,比如用户用什么方式向Facebook提交了什么数据。为了提高检测机制的准确性,我们还发现like farm账户提交的数据单词比较少,词汇范围更小,可读性比较差。

此外,他们提交的主要针对特定的主题,生成更多的评论和喜欢页面,更少原创,更多别人的分享(比如其他用户分享的文章,视频,和URL)。因此,在这个时间线的特征的基础上,我们用机器学习方法来分类,并且对之前收集的like farm进行精确度评估,实现了近乎完美的准确度,包括BoostLikes.com的隐秘farm。

顺其自然的,这个判断必须依赖于通过数十亿的请求时间线来检测欺骗的算法是可扩展的。同时也就可以理解恶意操作者为了分散到各个用户来躲避检测花费有多大。这样看来,欺骗和反欺骗是猫和老鼠的游戏。

*参考来源:benthamsgaze.org ,FB小编老王隔壁的白帽子翻译,转载请注明来自FreeBuf黑客与极客(FreeBuf.COM)

原文发布于微信公众号 - FreeBuf(freebuf)

原文发表时间:2016-05-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算D1net

云存储(对象存储)性价比小谈

概述 这几年云存储成为云计算领域最为火热的产品之一,大家众说纷“云”,互联网的未来就是数据争抢的未来,所有数据都会优选存储在云中。 相信大家对云存储的优点都已经...

79050
来自专栏鹅厂网事

数据中心网络中的hash问题研究

"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网...

42260
来自专栏Golang语言社区

用医生的思考方式调试你的代码

“现在的编程工作就像是对你需要解决处理的部分做科学研究。” ——Gerald Sussman 设计和维护好的软件就像是一个抵制复杂度的永无止境的奋斗过程。任何足...

36260
来自专栏互联网数据官iCDO

惊觉Facebook与GA监测数据对不上?元凶原来是它……

“为什么我的Facebook账户与我的GA账户向我展示的数据不同?”“刚开始操作Facebook广告营销账户的人常常会问这样的问题。当代码部署完成时,网站代码...

16240
来自专栏Golang语言社区

用医生的思考方式调试你的代码

“现在的编程工作就像是对你需要解决处理的部分做科学研究。” ——Gerald Sussman 设计和维护好的软件就像是一个抵制复杂度的永无止境的奋斗过程。任何足...

351110
来自专栏VRPinea

VR文本输入,想说爱你不容易

34380
来自专栏灯塔大数据

了解了这四件事,帮你走出深陷的数据分析迷宫

【导读】 数据中的错误往往最初尚属于良性范畴,但随着分析流程推进而变得愈发糟糕。这就像是在解数学题,我们要从头开始再推导一遍。这项工作可能费时费力,但却能够以...

35670
来自专栏人工智能头条

如何成为一名异构并行计算工程师

54420
来自专栏机器人网

技术猿 | 台达HMC控制器在工业机械手上的应用

伴随着中国制造业的转型升级,在制造业领域需要越来越多的成熟的产业工人,但随之而来的是劳动力成本的增加,人员的安全保障,以及对操作工人的素质统一和质量的稳定性等一...

36840
来自专栏ThoughtWorks

测试金字塔实战 | 洞见

这是一篇非常漫长并且艰深的文章的节选(点击文末阅读原文查看全文),它解释了为什么我们需要测试,以及如何对软件进行测试的问题。好消息是,这篇文章提供的信息经得起时...

27230

扫码关注云+社区

领取腾讯云代金券