专栏首页机器之心大师也作弊,昔日Kaggle Grandmaster面临终身禁赛,雇主:此人今后与我司无关

大师也作弊,昔日Kaggle Grandmaster面临终身禁赛,雇主:此人今后与我司无关

机器之心报道

参与:张倩、蛋酱

Kaggle 一项竞赛的讨论页面显示,一个名为「Bestpetting」的冠军团队因作弊被 Kaggle 取消了参赛资格,团队成员还包含一位 Grandmaster。这位 Grandmaster 被永久禁赛,因为有证据表明,他是该作弊活动的关键人物

该团队通过作弊的方式获取了测试集的答案,而且为了让分数看起来更加真实,他们只用了其中一部分答案。

作为最著名的数据科学竞赛平台,Kaggle 成立于 2010 年,并于 2017 年被谷歌收入旗下。迄今为止,这一平台上已经举行了三百多场各种类型的数据竞赛。

很多公司、政府研究机构都会把自己的数据放上来,开放给全球范围内的参赛者,让他们帮助自己建模型。为了提高参赛积极性,他们也会设置一定的奖金,用来奖励模型精度最高的几个队伍,有些竞赛的奖金甚至可以高达百万美元。

于是乎,Kaggle 源源不断地吸引了成千上万的开发者来参加竞赛,许多数据科学家在 Kaggle 上投入了大量的时间和精力。在诸如机场安全、卫星数据分析这类的任务上,不乏数十年经验的优秀团队加入比赛。

在机器学习爱好者们心中,Kaggle 是一个灯塔般的存在

为了激励参赛者不断挑战新的难题,Kaggle 设置了一个排行榜,将参赛者分为「Novice」、「Contributor」、「Expert」、「Master」、和「Grandmaster」四个等级。

其中,「Novice」、「Contributor」等级最低,注册就能成为「Novice」,添加一些资料、探索一下 Kaggle 并与社区进行一些交流就能升级为「Contributor」。

但从「Expert」开始,参赛者就要实打实地拿出成绩了。要晋升到竞赛的「Grandmaster」,你需要至少获得 5 枚金牌

违反公益初衷的作弊行为

此次被曝作弊的团队参与的是一项预测宠物领养速度的竞赛。研究表明,宠物被领养的速度与它们在网上的照片、描述等信息存在相关性。参赛者的任务就是找出这种相关性,帮助宠物领养机构优化宠物的电子档案,使其看上去更加「可爱」,从而提高被领养的速度,减少「安乐死」的数量。

此次竞赛在去年三月份展开,奖金池总共 2.5 万美元,冠军团队可以获得 1 万美元的奖励。

Kaggle 信息显示,该团队在比赛中存在以下作弊行为:

1. 他们通过作弊的方式获取了私有测试数据的领养速度答案(可能是通过爬取 Kaggle 网站);

2. 这些数据和答案被编码、模糊处理并混入一个 ID 字段,伪装成他们名为「cute-cats-and-dogs-from-pixabaycom」的外部数据集的一部分;

3. 在处理数据时,他们混进来的 ID 字段被解码,答案在预测阶段可以被检索到;

4. 他们只使用了其中一部分被编码的答案,以使分数看起来更加「真实」;

5. 这些经过处理的代码被精心隐藏并混淆在许多嵌套的函数和代码层下,故意被设计成高度不可读和平淡无奇的样子。

一位 Kaggle 网友「Benjamin Minixhofer」最早发现了其中的猫腻,在尝试将这项比赛的几个优秀方案转化为生产系统的过程中,他发觉了冠军方案似乎不太对劲,随后就将这项违规行为报告给了 Kaggle 组委会,组委会也立马展开了相关调查。

在事件曝光后,这位举报者小哥撰写了一个详细文档来说明该团队的作弊行为:https ://www.kaggle.com/c/quora-insincere-questions-classification/discussion/80665

他说:「这件事破坏了 Kaggle 比赛的公平性,而且我费了半天劲想把他们的方案转化为生产系统,结果竟然是作弊。也许 Kaggle 官方不希望我发表这篇公开了许多私人测试数据的文章,但我希望参赛者们都能从中得到一些启发。」

曾经的 Kaggle Grandmaster 被终身禁赛

确认作弊行为后,Kaggle 组委会取消了冠军团队的资格,目前已经重新修改了排行榜。不过当时颁发给冠军团队的 10000 美元奖金已经覆水难收。

这件事的问题在于,「预测宠物领养速度」本是一个公益性的赛题,初衷也是挽救小动物的生命。在这样的前提下,团队仅仅为了经济利益而采取作弊手段,更令人不齿。

此前也发生过获奖者被取消资格的事情,但都是在比赛前。这是第一次在比赛结束 9 个月之后才被挖出来的作弊行为,也是 kaggle 平台创立以来,第一次有人因为作弊被彻底取消参赛资格。

被举报团队中的 Kaggle Grandmaster 同时也在硅谷一家开源软件公司 H2O.ai 任数据科学家职位。

这个「Former」也是耐人寻味。

这家公司主要的产品是一款数据科学和机器学习开源平台,叫做「H2O」,为许多世界 500 强企业提供人工智能产品解决方案。

事发后,公司已经作出了回复,称「已进入调查程序,此人与我司不再有任何关系」。

先是被禁赛名誉扫地,接着又面临被公司开除的命运,有人开始同情这位 Grandmaster,觉得这种做法未必太过严苛,惩罚的公平性也有待商榷。也有人因为 Kaggle 的严厉做法而被圈粉,觉得这么做是理所当然。而且 ta 认为,欲戴王冠,必承其重,Grandmaster 本身就对遵守规则负有更大的责任。

但也有人爆料称,这位 Grandmaster 在 Kaggle 比赛中出现不端行为已经不是第一次了。在去年的一项谷歌地标检索竞赛中,他们也有类似的行为并被取消了参赛资格。

吃瓜通道:https://www.kaggle.com/c/landmark-retrieval-2019/discussion/95136

目前,这个帖子已被删除,但从评论区我们依然可以大体还原争论的焦点所在:Kaggle 在这项比赛中出现了数据泄漏问题,该团队发现了这一漏洞并充分利用,以此为优势取得了很好的结果。

数据泄漏问题在各种数据竞赛问题中屡次出现,有些团队发现之后会将这一问题报告给组委会。如在 Kaggle 的某个 NLP 比赛中,一些团队的准确率达到了 100%(NLP 领域出现这种准确率是非常不可思议的)。有人发现了泄漏的数据集并将其合并提交了上去。

但也有团队会利用其作为秘密武器取得高分。对此,批评者一致认为这种做法是不道德的,对之后的竞赛和参赛者都没有借鉴意义,也不利于科学的进步。

对此,这位 Grandmaster 辩解称,他们没有向大众隐藏自己的方法,所以没有违反规则,而且是诚实的行为。至于为什么利用漏洞,他解释说,「如果比赛本身就有漏洞,那总会有人去利用。不用的话就会失去优势,得到令人失望的结果。所以摆在参赛者面前的只有两个选择:要么退赛,要么利用漏洞。

由此可见,这种作弊行为的不断出现不只是参赛者个人道德的问题,赛事的设计者也负有不可推卸的责任。参赛者的道德参差不齐、难以把控,只有在赛事设计上多下工夫才是解决问题的根本方法。

参考链接:

https://www.reddit.com/r/MachineLearning/comments/emus6a/n_kaggle_petfindermy_contest_first_place_winner/ https://www.kaggle.com/c/petfinder-adoption-prediction/discussion/125436

本文分享自微信公众号 - 机器之心(almosthuman2014),作者:Synced

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-01-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 重新思考扩张卷积!中科院&深睿提出新型上采样模块JPU

    语义分割是计算机视觉领域的基础任务之一,其目的是为图像的每个像素分配语义标签。现代方法通常采用全卷积网络(FCN)来解决这一任务,并在多个分割基准上获得巨大成功...

    机器之心
  • 斯坦福CS231n Spring 2017开放全部课程视频(附大纲)

    机器之心报道 参与:机器之心编辑部 CS231n近几年一直是计算机视觉领域和深度学习领域最为经典的课程之一。而最近刚刚结课的CS231n Spring 2017...

    机器之心
  • 教程 | 如何理解KL散度的不对称性

    机器之心原创 作者:邱陆陆 众所周知,多被用于量化分布间的差异的 KL 散度是不对称的。今天我们来聊一聊,两个分布的一对 KL 散度之间究竟有什么不同。 为了讨...

    机器之心
  • 索引,视图,存储过程和触发器文档

    实验案例一:验证索引的作用 1、首先创建一个数据量大的表,名称为“学生表”,分别有三列,学号,姓名和班级,如下图所示,学号为自动编号,班级为默认值“一班”。 ?...

    企鹅号小编
  • 23. 23. Python   Jso

    "{\"a\":1,\"b\":2,\"c\":3,\"d\":4,\"e\":5}"

    py3study
  • MongoDB入门系列——3.可视化工具篇

    前面我们已经介绍了MongoDB怎么安装,接下来要安装他的可视化工具——Studio 3T。

    陈琛
  • redis 学习(10)-- redis 慢查询

    MySQL会记录下查询超过指定时间的语句,我们将超过指定时间的SQL语句查询称为慢查询,都记在慢查询日志里。

    希希里之海
  • 手把手教你用Python分析电影 | 以《蚁人2》为例

    《蚁人2》自8月24日在中国大陆上映以来,已经有将近一个月。作为《复仇者联盟3》之后漫威出品的首部电影,《蚁人2》对漫威宇宙电影的剧情承转起着关键作用。9月20...

    CDA数据分析师
  • Ubuntu 13.10下使用QQ,适用于14.10

    最近发现Ubuntu提示wineqq2013版本过旧无法使用,同时wineQQ又没有更新,只好寻找新的解决方案,于是有了如下几个选择,现奉献给大家。

    汐楓
  • 使用Python标准库functools中的lru_cache实现缓存

    很简单,也很容易理解,但是不难发现这个函数在计算斐波那契数列的时候事实上进行了很多重复计算,例如:

    ★忆先★

扫码关注云+社区

领取腾讯云代金券