贾佳亚港中文团队冠军技术分享:最有效的COCO物体分割算法

【新智元导读】物体分割(instance segmentation)是如今视觉领域最热最核心的一个问题。在这届国际图像识别权威竞赛MS COCO当中,香港中文大学团队UCenter取得了物体分割任务第一名,相对去年的冠军,团队取得了9.1个点的提升,相对提升达24%。他们通过深度剖析FPN、Mask R-CNN、PSPNet的信息传递机制,提出了多路网络(Multi-Path Network),旨在更好地运用网络信息。

10月29日,在威尼斯水城举行的ICCV 2017“Joint COCO and Places Recognition Challenge” Workshop落下帷幕,来自Facebook、MSRA(微软亚洲研究院)、Google、商汤科技、旷视科技等科技公司以及卡耐基梅隆大学、香港中文大学,上海交通大学、中国科学院自动化研究所等顶级高校的多支团队参加了本次竞赛。

经过激烈角逐,由香港中文大学在读博士生、商汤科技研究员组成的“UCenter”团队超过微软亚洲研究院与Facebook FAIR团队,拿下了COCO实例分割(instance segmentation)任务的第一名。这是COCO比赛最难的问题之一,因为需要分割每一个像素,判断这个像素属于哪一个类别哪一个实例。相对去年的冠军,UCenter团队取得了9.1个点的提升,相对提升达24%。

此外,在COCO物体检测任务中,UCenter团队拿到了亚军,相对去年冠军,提升了9.5个点,相对提升22%。

团队组成,参加大规模公开比赛任务练手练兵

“UCenter”团队由刘枢、亓鲁、秦海芳、石建萍和贾佳亚组成。贾佳亚教授是香港中文大学终身教授,腾讯优图实验室杰出科学家。石建萍博士是贾佳亚教授以前的博士生,现就职于商汤科技。刘枢、亓鲁是香港中文大学的在读博士生,也是贾佳亚教授现在的学生,石建萍博士是他们的Mentor。秦海芳参与比赛时是商汤科技的实习生。

参与这个比赛是石建萍与其博士导师贾佳亚教授一起计划的联合培养课题。他们都认为,类似COCO这样的大规模公开比赛任务,不仅是验证算法的边界,提炼真正有用技术方案一个很好的平台,更是培养和锻炼学生极好的练兵场。

刘枢对实例分割这个任务相对比较熟悉,因为这个方向是他在贾老师组内攻读PhD的主要研究方向。亓鲁与秦海芳则是刚刚接触使用深度学习解决物体检测与实例分割这个任务。商汤科技宽松友好的学术氛围以及远超高校实验室的计算资源为同学们的算法研究提供了有力支持,也帮助几位同学的成长。

香港中文大学贾佳亚教授的视觉研究组在今年也有相当不错的ICCV论文发表。在之前的报道里提到,他的学生在腾讯优图实习或工作期间共同合作发表了三篇ICCV oral论文(每篇接受率只有2.1%)。一键卸妆的黑科技也出自此他们在腾讯的工作。

除此之外,在去年最大的ImageNet场景分析比赛(scene parsing challenge 2016),他们刚进入第二年的博士生赵恒爽就以主力参与者身份,通过在商汤的暑期实习和与其他学生和商汤研究员的合作,取得第一名,比基准方法有了差不多10个点的提升。此方法在当时最大的道路场景分割数据集上(Cityscapes testing set)也是排名第一。除此之外,贾佳亚中文大学视觉研究组里的同学现在每年有很多机会在全球各个业界顶尖研究院和高校交流和实习。

COCO-17 实例分割第一名算法细节:多路网络(Multi-Path Network)

在本次的COCO竞赛中,与其他参赛团队一样,UCenter团队以Mask R-CNN作为实例分割的基础框架。不同的是,他们通过深度剖析FPN、Mask R-CNN、PSPNet的信息传递机制,提出了多路网络(Multi-Path Network),旨在更好地运用网络信息。他们的改变主要集中在以下三点。

首先,与传统FPN中按照物体候选区域大小将其分配到对应层级特征图上的方式不同,他们将物体候选区域映射到所有的特征层级去获取对应的特征,将其融合之后供后续分类网络使用。UCenter团队发现,对于每个候选区域,不同层级的信息都是有用的,采用这样的方法,相比传统FPN,大物体能够获取底层的细节信息,小物体可以获取更多由高层更大感受野提供的上下文信息,在候选区域内不同层级上面有用的信息可以被有效利用。

其次,他们发现,低层级的特征图对预测大物体也是十分有效。于是他们在FPN的基础上,增加了一个自下而上的分支,帮助更好的传递底层信息到最高层级。低层级特征在之前的工作中也有被应用,但基本都是为了预测小物体或者精细化一些细节,而低层级特征对于大物体的作用在之前并没有被很认真地探讨过。

最后,在掩膜预测的部分,他们也进行了改进。在Mask R-CNN中,进行掩膜预测的是一个小的全卷积网络,这样速度快,而且特征都可以直接对齐到图片。但是他们发现,全连接层与全卷积层是有一些互补的特征,比如全卷积层是位置敏感的,不同的位置的预测是由不同的参数给出的,而且每个位置的预测都是基于全局信息。于是,他们将这两种网络结合在一起进行掩膜的预测,从而得到更高质量的结果。

这些改变使训练的网络在不同大小的物体上面取得更为显著的提高,相应的技术细节也即将投稿于CVPR2018。

值得一提的是,UCenter团队并没有在超参方面进行精调,而是直接采用Mask RCNN和FPN的文章中的超参,相信他们更希望通过使用更好的模型而不是更好的超参取胜。他们使用的初始模型也全部来源于网络上已经开源的模型。

他们也提到,现在GPU的显存已经成为模型效能提升的一个瓶颈。他们在比赛期间主要使用的是TitanXP,只有12G显存,即使使用了sublinear memory optimization的方法优化显存占用,使用大型初始网络时,显存压力依然很大。为了能够充分使用这些机器,他们使用较小的图片进行训练,更贴近工业界实际生产和应用环境需求。基于小型初始网络的经验,他们相信使用完整的图片以及更大尺度训练,模型性能会得到进一步提升。

UCenter团队成员表示,在CVPR截稿之后,他们会整理代码并将其开源,分享给更多的计算机视觉工作者、爱好者。

新智元世界人工智能大会,贾佳亚教授分享计算机视觉新认知

11月8日,在新智元AI World 2017世界人工智能大会上,贾佳亚教授将发表演讲,分享计算机视觉的新认知。

贾佳亚教授介绍说:“计算机视觉的研究和应用经历了一个长时间的发展,其中有一大段时间是不被企业界重视的。

“在这个演讲中,我会把先进的计算机视觉研究成果做一个重新划分和归类,展示给大家一个有很多具体内容的视觉研究画卷。一直以来,我们都在创新;所以我也会给大家看到新的有趣的应用,同时拨开云遮雾绕,还原视觉AI的技术真实水平。最后我也会和大家介绍腾讯优图实验室视觉AI的发展。”

贾佳亚 腾讯优图实验室杰出科学家

香港中文大学终身教授贾佳亚博士加盟腾讯优图实验室。作为杰出科学家,贾佳亚教授将负责计算机视觉、图像处理、模式识别、机器学习等人工智能领域的研 究,及人工智能与各种应用场景结合的深度探索。

贾佳亚教授是香港中文大学终身教授,拥有香港科技大学联合微软亚洲研究院计算机 科学博士学位。加入腾讯前,贾佳亚教授曾与微软研究院、谷歌、高通、英特尔、Adobe 等图像和人 工智能研究机构开展过深度联合研究工作。他是前期和中期计算机视觉最著名的专家 之一。在香港中文大学任职期间,他创立的视觉实验室对图像滤波、图像去模糊、图像增强、图像稀疏处理、多频段图像信号的融合,以及大范围运动估计等研究做出了 巨大的贡献。其中,图像滤波和逆向视觉问题解法被许多高校教科书、课件和开源视觉代码库(包括 OpenCV)收录,同时也在视觉商业系统中得到广泛应用。现阶段,其实验室在语义分割、自然语言和视觉联合系统、人像深度处理和几何深度理解等领域均取得了重要成果。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-11-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

深度 | Pedro Domingos解析机器学习五大流派中的算法精髓

Pedro Domingos是华盛顿大学计算机科学与工程学教授,也是国际机器学习协会的联合创始人之一。他曾在IST Lisbon获得电子工程和计算科学的硕士学位...

41650
来自专栏语言、知识与人工智能

IJCAI 2018 | 腾讯知文团队3篇入选论文解读

在近日揭晓2018年收录论文名单中,腾讯知文团队有3篇一作长文被录取,我们将对文章进行简要解读,欢迎交流讨论。

8.7K40
来自专栏机器之心

别人的博士生涯!CycleGAN作者朱俊彦获SIGGRAPH杰出博士论文奖

朱俊彦于 2012 年获得清华大学计算机科学系的工学学士学位,在 CMU 和 UC Berkeley 经过 5 年学习后,于 2017 年获得 UC Berke...

14720
来自专栏深度学习自然语言处理

3招打破机器学习工程师的边界

对,就是数学。掌握了数学这个机器学习的底层基础,不仅可以加深对算法的理解,还能在模型优化阶段更加游刃有余。

10230
来自专栏机器学习算法与Python学习

从数学入手,3招打破机器学习工程师的边界

对,就是数学。掌握了数学这个机器学习的底层基础,不仅可以加深对算法的理解,还能在模型优化阶段更加游刃有余。

13940
来自专栏AI研习社

谷歌开启 Naturalist 2018 挑战赛,大型物种分类技术有望突破

雷锋网 AI 研习社按:计算机视觉技术从 70 年代到现在,40 多年时间得到迅速发展,许多计算机视觉的应用出现在了生产生活领域。尤其是到了 2012 年,基于...

413110
来自专栏机器之心

专访乔治亚理工终身教授蓝光辉: 开创随机加速梯度法助力深度学习

机器之心原创 作者:李泽南 蓝光辉教授,博士毕业于乔治亚理工学院,目前任教于乔治亚理工 H. Milton Stewart 工业和系统工程学院,他还担任着《Co...

32880
来自专栏量子位

吴恩达的新深度学习课程什么样?我们试听了一下 | 附视频

问耕 发自 凹非寺 量子位 报道 | 公众号 QbitAI 注册之后,可以获得七天免费试听。不过在这之前,你首先需要输入一张信用卡/储蓄卡,或者Paypal账户...

42670
来自专栏机器之心

专栏 | 阿里iDST CVPR 2017论文解读:视频衣物精确检索

机器之心专栏 作者:方广、磐君、思淘 在 CVPR 2017 开幕当天的文章《CVPR 2017国内外亮点论文汇集:史上最盛大会议,华人占据半壁江山》中,我们...

40480
来自专栏新智元

Quora:暮光之城女主角文章毫无价值,算不上人工智能论文

【新智元导读】1月20日,国外多家媒体报道,暮光之城女主角 Kristen Stewart 发表了一篇关于图像风格迁移的人工智能论文,引起业内广泛讨论。不少人感...

29970

扫码关注云+社区

领取腾讯云代金券