22岁复旦大学生拿下深度学习挑战赛冠军:明明可以靠脸吃饭,却偏偏要靠才华

复旦大学Hengduo Li

编译 | AI科技大本营

参与 | 尚岩奇、周翔

近日,人工智能行车记录仪应用公司 Nexar 公布了第二届挑战赛的结果,其中,来自复旦大学的 22 岁的本科生 Hengduo Li 名列第一,并获得 5000 美元的奖金。

比赛简介

全世界每年死于道路交通意外的人达 130 万之多。通过将智能手机作为联网的 AI 行车记录仪,Nexar 打造了世界上最大的开源 V2V(vehicle to vehicle) 网络。这项技术可以为驾驶者提供更加安全的驾驶体验,或许可以拯救这些交通事故受害者。

目前,Nexar 正在构建一种高级驾驶员辅助系统(ADAS),它借助的是世界各地的汽车上的行车记录仪提供的单目摄像机数据流。这些摄像机不断地拍摄各种天气条件、光照环境和驾驶情境中的道路图像。

在本次比赛中,Nexar 要求参赛者构建一种可以计算前方可见汽车的边界框(bounding boxes)的检测器函数。检测器要能检测到摄像机前方和驾驶员驾驶方向相同的汽车。这种感知任务的目的是改进 Nexar 的前方汽车碰撞警告(Forward Vehicle Collision Warning)功能,实现这种功能需要精确计算出前方汽车边界框。

为了举办该挑战赛,Nexar 公布了世界上最大、最多样的道路数据集。目前该数据集只向挑战赛的参赛者开放,不久之后将会免费对全世界所有研究人员开放。

想了解更多关于该数据集的信息,请查看 https://blog.getnexar.com/https-medium-com-itayklein-intro-nexet-50e9b596d0e5

比赛结果

本挑战赛的参赛者来自于世界各地,包括俄国、印度、美国、以色列、玻利维亚、孟加拉国、马来西亚、摩洛哥等 40 多个不同的多家,获胜者则分别来自中国、澳大利亚和韩国。

据悉,此次共有 400名参赛者参加了比赛,提交作品 29 个。参赛者构建的网络非常多样,其中包括:基于 VGG 模型的 SSD 算法(大小为 97 MB)、集成网络(大小为 771 MB)、基于 Resnet 的可变形 R-FCN(获奖作品,大小只有130MB)。

以下是一些关于比赛结果的有趣数据:

  • 参赛者使用了多种框架,其中 TensorFlow 最受欢迎,超过一半的参赛者使用的都是 TensorFlow。
  • 参赛者构建的网络也十分多样,其中包括通过集成多种网络而构建出的网络,这种网络的模型非常大,但是最终我们看到模型的大小往往并不重要。
  • 大部分参赛者使用 Faster RCNN 作为他们的模型,这种模型的得分在 0.5 和 0.77 之间。但是这里的赢家是 Deformable R-FCN,它的得分是 0.8。比赛状况十分激烈,最终在提交截止前一小时内,一名中国上海复旦大学的 22 岁本科生获得了最高分,打败了其他所有优秀参赛者。

来自复旦大学的冠军

出人意料地是,此次比赛的冠军是一名本科生 Hengduo Li,来自中国复旦大学,年仅 22 岁。

他是这样介绍自己的:“我是上海复旦大学的本科生。我对计算机视觉很感兴趣,在人类检测、目标识别等课题上作过一些研究。我希望未来能够继续研究这些课题,帮助人们解决实际生活中的一些问题,就像 Nexar 正在做的事情一样。

Hengduo Li 的参赛作品是一个使用 soft-NMS 算法的 Deformable R-FCN,使用的是在 ImageNet 上预训练的 ResNet-50 得来的一个单一模型,其关键要点如下:

1)可变形卷积网络和 R-FCN 的性能很强,它们在 ImageNet 和 COCO 上的表现都非常优秀。如果同时集成方法和 ResNet-101,并配合一些 tricks,表现会更好。

2)水平翻转训练图像的方法很有用。我水平翻转了所有训练数据,然后再用这些数据训练模型。这是一种广泛使用的数据增强法。

3)小尺寸锚点。在检查训练数据时,我看到了很多小的边界框,于是我决定添加一些小尺寸的锚点,结果十分有用。

4)多尺度测试。这种方法让模型的性能提高了 2%,我在训练时使用的是 720 的比例,然后用(600, 720, 1000)的比例进行测试,结果模型的性能有所提升。

实际上,Hengduo Li 能够获得此次比赛的冠军还是有道理的。看看人家的履历,作为一名复旦大学的在读本科生,不仅在新加坡的南洋理工大学担任过研究助理,现在更是跑到了马里兰大学高级计算机研究所当实习生。

不过,看看人家的照片,明明可以靠脸吃饭的人,却偏偏要考才华。算了,不说了,辛酸的营长默默搬砖去了。

原文地址: https://blog.getnexar.com/how-a-22-year-old-from-shanghai-won-a-global-deep-learning-challenge-76f2299446a1

原文发布于微信公众号 - AI科技大本营(rgznai100)

原文发表时间:2017-11-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

Yann LeCun说是时候放弃概率论了,因果关系才是理解世界的基石

21840
来自专栏华章科技

PM2.5这个锅背的值吗?数据科学家建模给你论证下

当看到诸如“我们都在等待第一批死在北京的人”等一些耸人听闻的新闻标题时,我真的很想知道,近年来北京的空气质量到底是有所改善还是逐步恶化?

8630
来自专栏PPV课数据科学社区

技术宅如何躲开大数据?解析人脸识别技术实现方式

头部向肩膀左右倾斜15度以上就能躲过人脸识别系统是真的吗? ? 人脸检测只是人脸识别系统中的一步,当然是非常重要的一步;反人脸检测(躲开人脸检测)也只是反人脸...

46640
来自专栏数据科学与人工智能

【数据挖掘】机器学习与数据挖掘的学习路线图1

应部分朋友要求,特奉上“机器学习与数据挖掘的学习路线图”,供有兴趣的读者研究。 说起机器学习和数据挖掘,当然两者并不完全等同。如果想简单的理清二者的关系,不妨这...

25990
来自专栏企鹅号快讯

Github 本周最热的 10 款“机器学习”开源项目

这是 PaperDaily 的第27篇文章 Kubeflow #用于 Kubernetes 的机器学习工具库 Kubeflow 是由 Google 发布的机器学...

48690
来自专栏机器之心

深度 | Vicarious详解新型图式网络:赋予强化学习泛化能力

选自Vicarious 机器之心编译 近日,人工智能初创公司 Vicarious 在官网了发表了一篇名为《General Game Playing with S...

39370
来自专栏机器学习算法与Python学习

800万中文词,腾讯AI Lab开源大规模NLP数据集

10 月19 日,腾讯 AI Lab 宣布开源大规模、高质量的中文词向量数据。该数据包含 800 多万中文词汇。

21730
来自专栏灯塔大数据

塔荐 | 人工智能工程师的三个层次

导 读 Google Tensorflow框架的Contributor。在计算机视觉领域有深厚的工业经验,带领团队开发的“花伴侣”植物识别App,上线数月即在0...

35330
来自专栏量化投资与机器学习

【必看】机器学习应用量化投资必须要踩的那些坑(系列55)

29150
来自专栏新智元

荐书 | Christopher Bishop 新书:基于模型的机器学习

【新智元导读】机器学习大牛Christopher Bishop的新书《基于模型的机器学习》近日推出了抢先预览版,用浅显的生活实例介绍了机器学习中的多个经典概念,...

37770

扫码关注云+社区

领取腾讯云代金券