17岁!Kaggle史上最年轻Grandmaster诞生:高中自学3年登顶


新智元报道

来源:Kaggle等

编辑:三石、大明、张鑫

【新智元导读】Kaggle刚刚诞生了史上最年轻的Grandmaster,今年17岁的英国高中生Mikel Bober-Irizar。他的学校并没有AI和机器学习相关课程,全部知识都是从网上自学而来。Kaggle成立8年,注册用户超过100万,现仅有122名Grandmaster,Mikel自学三年达此成就,后生可畏,但也鼓舞人心,只要你愿意,网络自学也能成为Kaggle顶级玩家。

在AI和大数据圈的人,应该没有不知道Kaggle的,这是全球首屈一指的数据科学、机器学习竞赛和分享平台。去年被谷歌收购时还一度引发业界轰动。企业和研究者可以在Kaggle平台发布数据、举行/参加竞赛,通过“众包”的形式产生最好的模型。现在注册用户数量超过100万。

在Kaggle Competitions排行榜中,有一个头衔是众多用户都十分向往的,那就是“Kaggle Grandmaster”,排名0.1‰的顶级高手。

除了代表你参加过很多竞赛并且多次获得冠军,这个头衔在投简历找工作时也很具吸引力。同时,参加大企业举办的大型竞赛,还能获得奖金。

刚刚,Kaggle CTO Ben Hamner发表推文,祝贺来自英国的17岁男孩Mikel Bober-Irizar,成为史上最年轻的Kaggle Grandmaster:

史上最年轻的Grandmaster是如何炼成的

目前,Kaggle在全球范围内只有122位Grandmaster,目前排名第一的是一位8年前加入的用户。

Mikel在122位Grandmaster中,排名第31,他用的时间是3年,更重要的是,他的AI和机器学习知识全靠搜索网络资料,自学而成。

在Kaggle,要成为Grandmaster非常困难,该头衔是根据Kaggle Progression System来判定的。它是一套用户的等级排名系统,类似于在游戏中做任务,一路打怪、攒经验,换取累计积分,达到一定要求之后就可以升级。

Kaggle Progression System的等级从低到高分别为:Novice、Contributor、Expert、Master和Grandmaster。

Novice加入社区,注册即可达成。

在上述基础上,还需达成:添加用户的简历、定位、职业、组织;SMS确认账户;运行一个script、实现一个完整的submission、评论一次以及投一次票,就可以成为Contributor。

若用户已经在一个或多个专业类别中完成了大量关于Kaggle的工作,一旦达到某个类别的专家水平,该用户便可进入Kaggle Expert排名。

若能够达成以下成就,便可获得Master的等级头衔:

而最顶级的Grandmaster,需要达成如下目标,也就名副其实是某个专业领域中的“顶级大师”。

可见,达成Grandmaster目标成就的要求门槛还是相当之高,那么我们来看看这位17岁神奇boy达成了怎么的成就:

可以看到,Mikel Bober-Irizar小选手总共获得过6枚金牌,其中5枚团战金牌,1枚Solo金牌

不仅如此,这位小选手总共参加了57次竞赛,其中单人Solo共计47场(82%),团队比赛共计10场(18%)。可见Mikel Bober-Irizar是一个团战、单人多方面发展的强悍型种子选手。

纵览Kaggle Competitions排行榜,许多Grandmaster的成就是要远高于这个英国小男孩儿的,有甚者金牌数量已经达到41枚之多。

但重点在于,Mikel Bober-Irizar只有17岁,从资料中也可以看到,他于三年前加入Kaggle,也就是说,他开始玩儿编程、参加比赛是在14岁,甚至是更早!

真可以说是“骨骼惊奇,万中无一的练武奇才”了!

Mikel Bober-Irizar不仅天赋异禀,更重要的是勤奋也是异于常人。

从上述的数据来看,三年来,小男孩儿平均每年参加比赛的次数为19场,工作量可以说是相当的充足。反过来看,当今很多大学生,一年是否能够达到这样的工作量呢?

而最近神奇少年们的新闻最近也是层出不穷:从18岁少年被谷歌录用、到12岁小女孩儿编写元胞自动机程序,现在Python都已经进入小学课程了。

真的是长江后浪拍前浪,把“老人们”都拍在沙滩上啊!

并未参加过任何正式AI课程,全靠自学成才

在Mikel的LinkedIn主页上公开数据显示,Mikel Bober-Irizar 就读于英国吉尔福德的皇家文理学校(Royal Grammar School, Guildford),从高中时期起就开始活跃参与机器学习和自动驾驶技术的软硬件研发,曾在硅谷自动驾驶出租车企业Voyage任职,后在英国EduNow负责后端和服务器开发。

他是首批获得Udacity自动驾驶车工程师纳米学位认证的500人之一,该学位申请人达11000多人,入选率不足5%。

尽管只有17岁,但Mikel现在已经是三菱电机研究实验室(MERL)的计算机视觉研发实习生,主要研究图像合成和表示学习。此前还担任EduNow公司的技术主管,这是一家做课程复习资料、论文查询和学习笔记服务的公司。

以下是LinkedIn上关于Mikel教育和工作经历的详细信息:

三菱电机研究实验室(MERL)计算机视觉研究实习生

2018 年 7 月 - 至今

主要研究图像合成和表示学习

EduNow公司 技术主管

2017 年 9 月 - 2018 年 7 月

从零开始参与构建EduNow平台,主要负责后端和服务器开发

Voyage

2017 年 7 月

Voyage自动驾驶出租车的多种软硬件项目的开发

Udacity

2016 年 9 月 - 2017 年 6 月

首批500名(申请人11000名)获得该机构自动驾驶车工程师微学位(Nanodegree)的人,被邀请担任该课程5位学生领袖之一。

Kaggle挑战赛上战绩辉煌

谷歌地标检索挑战赛

2018年5月,参赛队共209支,获第1名

本次比赛对参赛者提供查询图像,对于每个查询,期望检索到数据库中包含相同地标(如果有的话)的所有图像。

比赛使用的新数据集是全球最大的图像检索研究数据集,包含超过100万张独特地标的图像。图像检索是计算机视觉中的一个基本问题,对于包含地标建筑的查询图像尤为重要,因为人们喜欢拍摄的照片中大部分都包括这些地标。

此次挑战赛与“地标识别挑战赛”(这个竞赛Mikel在483人中排第33名,Top 7%)一道进行。两个挑战赛的使用的测试集是相同的,鼓励更多的选手参与竞争。不过,两个挑战的训练集/检索集之间没有共同的地标。

Avito重复广告检测挑战赛

2016年7月,548队参赛,获第2名(Top 1%)

Avito是全球规模最大、发展最快的在线分类广告商之一,这个竞赛要求Kaggle参赛者开发一个可以自动识别重复广告的模型。由于竞争激烈,卖家经常绞尽脑汁,努力让他们的产品受到关注,这可能意味着要多次发布相同的广告,对广告文字进行略微修改,或放上从不同角度拍摄的商品照片。通过更准确的重复广告检测,Avito将让买家更容易找到诚实的卖家,与之进行下一次交易。

博世生产线故障预测挑战赛

2016年11月,627队参赛,获第5名(Top 1%)

在本次挑战赛中,博世要求参赛者利用数千次测量和测试,预测机器的内部故障,这些测量和测试是针对生产线上的每个部件进行的。这将使博世能够以最低的成本为最终用户提供优质产品。

竞赛使用的都是博世在其装配过程中每一步的真实记录数据,因此能利用高级分析来改进这些制造流程。不过,数据的复杂性和生产线的复杂性给当前的方法带来了问题。

从应用角度讲,理解算法工作原理比懂数学更重要

2017年7月,Mikel在接受采访时表示,他最初只是抱着试试的态度来参加Kaggle挑战赛的。从实际应用的角度讲,对算法的工作原理的理解要比其数学原理更重要。他所在的高中皇家文理学校并未设置AI和机器学习的系统课程,Mikel在机器学习和人工智能方面的编程技能几乎完全是自学成才。

“网上有很多免费课程,但我实际上并没有参加这些课程。当我遇到一个很大的问题想解决时,我只想在谷歌上搜到这个问题。我在网上看到了Kaggle,我就想,'为什么不试试呢?'“

“我不知道算法背后的所有数学原理,但就实际使用而言,我认为对算法的工作方式有一个合理的理解更为重要。即使我不能从头开始写算法,我仍然知道它具体做了什么,这有助于我理解算法可能有用的地方。”

Mikel在Medium上也比较活跃,今年初,新智元还报道过他关于CPU漏洞的评测文章:【最大降40%】CPU漏洞补丁对机器学习和深度学习性能影响实测

参考链接:

https://www.kaggle.com/anokas

https://www.linkedin.com/in/mikel-bober-irizar-a46b7230/

https://mashable.com/2017/07/28/16-year-old-ai-genius/#llbD_rgzriqx

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-09-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | Science评论「抵制Nature子刊」事件:为什么AI研究者热爱arXiv与OpenReview?

18170
来自专栏量子位

最强数据集集合:50个最佳机器学习公共数据集丨资源

外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,量子位为大家分享一下~

73560
来自专栏机器之心

深度 | 从规则推理到数据学习:人工智能该学习人类的思维方式吗?

16480
来自专栏机器学习算法与Python学习

最强数据集50个最佳机器学习公共数据,可以帮你验证idea!

外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,量子位为大家分享一下~

16350
来自专栏MixLab科技+设计实验室

参数化与人工智能,从计算机辅助到计算机决策,同济大学DigitalFuture演讲记录

这是他在同济大学DigitalFuture演讲稿,为我们介绍了人工智能在建筑领域的应用。欢迎大家关注他的公众号(见文末)

43920
来自专栏CDA数据分析师

收藏丨学习数据科学不可错过的优质资源

大约两个月前,我开始学习数据科学。我并没有统计学、数学、数据科学、工程学、经济学方面的学位。说实话,在学生时代,数学和统计并不是我的强项,我更擅长语言方面。

10110
来自专栏大数据文摘

11张图带你走过数据可视化的前生今世

262150
来自专栏新智元

斯坦福医疗ImageNet发布,如何评价PB级医疗影像数据集?

【新智元导读】斯坦福大学医学院与 Langlotzlab 合作创建的一个 PB 级的大型医疗影像数据集 Medical ImageNet 最近发布,从官方网页的...

49370
来自专栏钱塘大数据

人脸识别太强大,张学友演唱会又双叒抓逃犯了!

张学友作为90年代的歌坛传奇,是很多人的美好回忆,《吻别》、《心如刀割》一首首经典歌曲传唱至今,陪伴许多人度过青春岁月。

18540
来自专栏人工智能头条

【CSDN AI 周刊】第11期 | 周志华提出深度森林 引发持续热议

16630

扫码关注云+社区

领取腾讯云代金券