复旦大学Hengduo Li
编译 | AI科技大本营
参与 | 尚岩奇、周翔
近日,人工智能行车记录仪应用公司 Nexar 公布了第二届挑战赛的结果,其中,来自复旦大学的 22 岁的本科生 Hengduo Li 名列第一,并获得 5000 美元的奖金。
比赛简介
全世界每年死于道路交通意外的人达 130 万之多。通过将智能手机作为联网的 AI 行车记录仪,Nexar 打造了世界上最大的开源 V2V(vehicle to vehicle) 网络。这项技术可以为驾驶者提供更加安全的驾驶体验,或许可以拯救这些交通事故受害者。
目前,Nexar 正在构建一种高级驾驶员辅助系统(ADAS),它借助的是世界各地的汽车上的行车记录仪提供的单目摄像机数据流。这些摄像机不断地拍摄各种天气条件、光照环境和驾驶情境中的道路图像。
在本次比赛中,Nexar 要求参赛者构建一种可以计算前方可见汽车的边界框(bounding boxes)的检测器函数。检测器要能检测到摄像机前方和驾驶员驾驶方向相同的汽车。这种感知任务的目的是改进 Nexar 的前方汽车碰撞警告(Forward Vehicle Collision Warning)功能,实现这种功能需要精确计算出前方汽车边界框。
为了举办该挑战赛,Nexar 公布了世界上最大、最多样的道路数据集。目前该数据集只向挑战赛的参赛者开放,不久之后将会免费对全世界所有研究人员开放。
想了解更多关于该数据集的信息,请查看 https://blog.getnexar.com/https-medium-com-itayklein-intro-nexet-50e9b596d0e5
比赛结果
本挑战赛的参赛者来自于世界各地,包括俄国、印度、美国、以色列、玻利维亚、孟加拉国、马来西亚、摩洛哥等 40 多个不同的多家,获胜者则分别来自中国、澳大利亚和韩国。
据悉,此次共有 400名参赛者参加了比赛,提交作品 29 个。参赛者构建的网络非常多样,其中包括:基于 VGG 模型的 SSD 算法(大小为 97 MB)、集成网络(大小为 771 MB)、基于 Resnet 的可变形 R-FCN(获奖作品,大小只有130MB)。
以下是一些关于比赛结果的有趣数据:
来自复旦大学的冠军
出人意料地是,此次比赛的冠军是一名本科生 Hengduo Li,来自中国复旦大学,年仅 22 岁。
他是这样介绍自己的:“我是上海复旦大学的本科生。我对计算机视觉很感兴趣,在人类检测、目标识别等课题上作过一些研究。我希望未来能够继续研究这些课题,帮助人们解决实际生活中的一些问题,就像 Nexar 正在做的事情一样。
Hengduo Li 的参赛作品是一个使用 soft-NMS 算法的 Deformable R-FCN,使用的是在 ImageNet 上预训练的 ResNet-50 得来的一个单一模型,其关键要点如下:
1)可变形卷积网络和 R-FCN 的性能很强,它们在 ImageNet 和 COCO 上的表现都非常优秀。如果同时集成方法和 ResNet-101,并配合一些 tricks,表现会更好。
2)水平翻转训练图像的方法很有用。我水平翻转了所有训练数据,然后再用这些数据训练模型。这是一种广泛使用的数据增强法。
3)小尺寸锚点。在检查训练数据时,我看到了很多小的边界框,于是我决定添加一些小尺寸的锚点,结果十分有用。
4)多尺度测试。这种方法让模型的性能提高了 2%,我在训练时使用的是 720 的比例,然后用(600, 720, 1000)的比例进行测试,结果模型的性能有所提升。
实际上,Hengduo Li 能够获得此次比赛的冠军还是有道理的。看看人家的履历,作为一名复旦大学的在读本科生,不仅在新加坡的南洋理工大学担任过研究助理,现在更是跑到了马里兰大学高级计算机研究所当实习生。
不过,看看人家的照片,明明可以靠脸吃饭的人,却偏偏要考才华。算了,不说了,辛酸的营长默默搬砖去了。
原文地址: https://blog.getnexar.com/how-a-22-year-old-from-shanghai-won-a-global-deep-learning-challenge-76f2299446a1