这个Kaggle三项排行榜的“顶级大师”,今年17岁

编译整理 | 费棋

编辑 | 阿司匹林

出品 | AI科技大本营

Kaggle,这是个坐拥 100 万会员的数据建模和数据分析竞赛平台,目前已被 Google 收购。企业和研究者可在这个平台上发布数据,而统计学者和数据挖掘专家则可以进行竞赛以得到最好的模型。

最近,该平台再次成就了一位名叫 Mikel Bober-Irizar 的少年——刷新了他在 Competitions 中的排名,第 31 位,晋级为最高级的 Grandmaster(其他等级依次为 Masters, Experts, Contributors, Novices),达到这一级别的在全球范围内共有 122 人。更让人津津乐道的是,他是个年仅 17 岁的英国高中生。

去年 8 月,Mikel 就成为了 Kaggle 的 Competitions, Kernels 和 Discussion 三项排行榜中首位达到 Master 级别的会员,而且在 Kernels 和 Discussion 中的排名位列前 10 。

凭借其在 Kaggle 社区中的表现,Mikel 甚至成为了 AI 社区中一颗冉冉升起的新星。

在其主页上,他的简介是对机器学习、硬件、虚拟现实、网络和加密货币感兴趣,喜欢打破常规。

在过去几年里,Mikel 花了很多时间在互联网上研究在机器学习和人工智能方面的编程技能,几乎完全属于自学成才。

说起他怎么解决学习面临的困难,Mikel 称只通过 Google 搜索来尝试寻找解决问题的方案,即便网上有很多免费课程,但他也没有通过参加课程进行系统学习。当他在网上了解到 Kaggle 后,他想的是为什么不试试呢?

不过 Mikel 并没有将他全部精力投入到 Kaggle 上,他只将自己描述为“决策树拥抱者,喜欢数据,喜欢挑战。”

▌在比赛中“打怪升级”

短期内历经各种比赛的磨砺后,Mikel 在 Kaggle 中的排名越来越高。在 2016 年 11 月的博世生产线性能挑战赛中,他们的 4 人团队在 1373 支参赛队伍中排名第 5。他们通过使用生产线上 200 万件产品和 5000 个传感器的数据构建了一种算法,以预测博世工厂的产品中存在的故障。

他们的解决方案是使用复杂的特征工程来捕获高维度训练数据中的模式,并在大型的 XGBoost 模型集合中使用,最终获得了 0.51173 的分数。

而在 2016 年 7 月,他们的团队在 Avito 重复广告检测比赛中与 548 个团队竞争获得了第 2 名。他们尝试构建了一个模型,通过大规模执行文本挖掘和图像处理,可以准确地检测同一产品的重复广告。他们的模型还广泛使用深度神经网络和梯度增强来实现这一结果。最终,他们的模型得分为 95.3%,而 Avito 的内部基线为 90.4%。

2017 年,他帮助创建了一种使用计算机视觉技术分析 800 万个 YouTube 视频以创建准确标签的算法。他的队伍在 650 支队伍中排名第 7,这引起了 Google 的注意。

该项目的目标是使用 AI 和机器学习来扫描 YouTube 视频,并确定将标签放在对应的视频上。这是一个非常具有挑战性的计算机视觉技术问题,因为这需要了解视频和上下文中的内容以选择正确的标签。这种标记方式在照片上就很难(如 Google 和 Facebook 所做的那样),不过由于缺乏用来训练 AI 的公共数据集,视频面临的是一个更大的挑战。

Mikel 的团队则编写了自己的神经网络,通过已提供的一套训练视频来训练算法,然后可以应用在新视频上。当然,由于涉及到大量的计算(数据集本身有 8TB),这也算是他们遇到的一个挑战。

▌想从事 AI 行业

Mikel 很想继续从事人工智能行业,但他首先需要从高中毕业。不过,他在高中时期的实习履历,无疑会对他以后的发展大有裨益。

在 2016 年 9 月 – 2017 年 6 月 (10 个月),他被 Udacity 选中参加自动驾驶汽车车工程师 Nanodegree 的学员(11,000 名申请者中共有 500 名),并成为该课程的 5 名学生领袖之一。

2017 年 7 月 – 2017 年 7 月,参与了 Voyage 自动驾驶汽车中部署的各种硬件和软件项目。

2017 年 9 月 – 2018 年 7 月 (11 个月),担任 EduNow 这家创业公司的技术总监,从头开始帮助构建 EduNow 平台,专注于后端和服务器开发。

现在,Mikel 正在剑桥的三菱电机研究实验室进行为期三个月的实习,研究方向是图像合成和表示学习。

他的目标是考上麻省理工学院、加州大学伯克利分校或者剑桥大学。而且他有自知之明,尽管知道自己在 AI 研究中的天赋,但现在仍然有很多知识盲区。

“我不知道算法背后的数学知识,就实际使用它而言,我认为对它的运作方式找到一个合理的解释很重要。即使我不能从头开始写,也能知道它做了什么,这有助于我理解它可能存在的其他价值。”

相关链接:

https://mashable.com/2017/07/28/16-year-old-ai-genius/#QprEihGNliqL

https://www.linkedin.com/in/mikel-bober-irizar-a46b7230

原文发布于微信公众号 - AI科技大本营(rgznai100)

原文发表时间:2018-09-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

《财富》万字长文回溯深度学习革命,盘点 16 大历史时刻

【导读】《财富》封面文章报道深度学习推动的人工智能如何在整个计算生态系统引发革命。文章从深度学习发展的历史关键点入手,介绍重大的标志性技术突破,讲述了 Hin...

37280
来自专栏Vamei实验室

统计Go, Go, Go

结束了概率论,我们数据之旅的下一站是统计。这一篇,是统计的一个小介绍。 统计是研究数据的学科。它包括描述数据,推测群体信息,判断假设的真伪。统计是一门实用学科。...

18690
来自专栏罗超频道

忘了黄金时代,理性看待大数据预测

在世界杯预测时准确率超高的百度大数据预测在稳步推进时遇到了一个小障碍,尚处于内测的票房预测对《黄金时代》的预测与实际结果出现了偏差,被媒体长篇报道引发业内高度...

35440
来自专栏CDA数据分析师

R 语言数据分析师养成计划——从零开始的 14 个任务

作者 CDA数据分析师 1992年,肉丝(Ross Ihaka)和萝卜特(Robert Gentleman)两个人在S语言(贝尔实验室开发的一种统计用编程语...

32770
来自专栏MixLab科技+设计实验室

参数化与人工智能,从计算机辅助到计算机决策,同济大学DigitalFuture演讲记录

这是他在同济大学DigitalFuture演讲稿,为我们介绍了人工智能在建筑领域的应用。欢迎大家关注他的公众号(见文末)

34320
来自专栏大数据文摘

电商社交数据在大数据风控的应用实践

35440
来自专栏机器之心

观点 | Yoav与LeCun深度学习之争后续:谷歌VP Fernando Pereira谈NLP研究「三幕剧」

选自EarningMyTurns 机器之心编译 参与:机器之心编辑部 近日,著名学者 Yoav Goldberg 发布的一篇批评蒙特利尔大学新论文《Advers...

21460
来自专栏专知

走近Hinton:AI教父传奇人生

【导读】Geoffrey Hinton花费了30年的时间默默无闻,直到2012年,他证明了其研究的价值,并驳回了大多数其他科学家所谓的正确观点。如今,这个被称为...

40660
来自专栏AI科技大本营的专栏

热门 | Google Brain前员工深度盘点2017人工智能和深度学习各大动态

翻译 | AI科技大本营 参与 | shawn 编辑 | Donna 2017年是人工智能井喷的一年。Google Brain团队前成员Denny Britz在...

31360
来自专栏大数据文摘

为应对评分机器人,美国的大学生也开始背作文模版了

“(某一年)(写你最喜欢的大学)的(添加一个有声望的名字)教授做了关于(此处摘要辩论的关键)的研究,研究人员发现(在这里添加令人信服的数据),并且(这里提供更多...

9700

扫码关注云+社区

领取腾讯云代金券