前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >连线Face++前方团队:COCO夺冠背后的细节,不是拼硬件这么简单

连线Face++前方团队:COCO夺冠背后的细节,不是拼硬件这么简单

作者头像
量子位
发布2018-03-23 17:18:21
1.4K0
发布2018-03-23 17:18:21
举报
文章被收录于专栏:量子位量子位
李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI

昨天,量子位报道了中国团队再次称雄AI大赛,把谷歌微软和FB甩在身后的消息。

简而言之,在计算机视觉顶会ICCV 2017期间,中国团队在物体检测、人体关键点检测等竞争激烈的比赛中击败了谷歌、微软、Facebook等国际巨头AI实验室,7项竞赛囊获了5项第一。

其中,中国AI创业公司旷视科技(Face++)在MS COCO物体检测、人体关键点检测,以及Places物体分割等三项核心竞赛中拿下第一名。

在旷视前方团队归国之际,我们和其团队代表进行了一次远程连线,旷视研究院Lead Researcher姜宇宁和实习生肖特特,向量子位谈到了更多更直接的参赛感受。

领队姜宇宁

量子位:谈谈这次你们主要的算法框架使用情况吧?

姜宇宁:这次我们的主要使用的是“MegDT”(Megvii Detection)系统,这套算法是基于FPN类似的框架,然后加了很多我们的改进。

具体的贡献,比如我们是学术界第一个用非常大的batch size训练物体检测的团队,之前工作中用的batch size,比如何恺明的Mask R-CNN,Facebook的FPN,最高是16,而我们做到了250多。

量子位:为这次COCO比赛准备了多久?

姜宇宁:具体冲刺时间是2个月,不过真正的准备是从春节假期之后就开始的,前前后后有半年左右的时间,进步也很快,比如我们3月份的水平是35、35,但最后比赛的成绩达到了52,这半年内提升还是很大的。

量子位:主要围绕哪些方面进行了提升?

姜宇宁:除了batch size,还用多监督信号和各种各样上下文信息方面的提升。关于此次比赛所用的方法、技术,我们也会以论文的形式发表,应该在CVPR上就会有揭晓。

量子位:也有评论说你们这次胜利是拼硬件、堆硬件的结果,你怎么看?

姜宇宁:我打个可能不太恰当的比方。二战中美国和日本比拼,真正实力和最后比拼的就是工业生产能力的高低,结果反映的也是工业生产能力、综合实力的高下。

当然,比赛成绩对于我们而言,只是一个结果。就像我们在最后演讲时候说的那样:这次参赛让我们在快速迭代能力方面感触很深,不仅是如何拥有大规模计算力,而且更关键的是有能力把这些计算力充分用起来。

我认为不管是研究,还是初创公司发展,都要构建起这样的能力,可以把资源快速使用起来,形成更高效的创新。

所以拼硬件也好、堆机器也好,并不是一个所谓花钱就能解决的事情,而是有能力把这么多机器用起来、用好。

量子位:除了参赛选手的因素,这次你们三项第一的关键是什么?

姜宇宁:MegBrian和Brain++是我们此次取胜的关键要素,其中MegBrain是我们内部研发的一套深度学习框架,等同于Google的TensorFlow、Caffe2,不过研发的时间比他们要早半年。我们现在内部所有的研发,都是基于这套工具去做的。

量子位:这次比赛大家比拼的算法,都有公开的论文,你认为什么原因导致了最后结果上的差异?

姜宇宁:我觉得核心还是在于“变招”和“内功”,我是武侠迷,用武侠举个例子吧。

首先,降龙十八掌,丐帮历代帮主可能都会,但为什么萧峰打得更好?就是因为他在原来的基础上,创造了不少后招、变手。我想我们也是这样,根据公开的论文,进一步在应用中优化、改变,进行了大量的改变,导致实现不一样。

其次,哪怕是一模一样的算法,最后实现也不一样,这就是MegBrian和平台Brian++的能力,招式都一样,但内功不同,哪怕一模一样的算法,平台对多机多卡的支持更好,我们就能做出不一样的效果。

量子位:具体在这次比赛中,你们的“内功”是如何体现的?

姜宇宁:比如我们做了一个大的batch size,做了一个多机多卡,可以同时支持在32台机器上同时做训练,这是内功体现之一。

可能还需要再次强调下,这次比赛虽然我们几个选手站在一线,但没有背后的团队,肯定不可能达成目标。

我们只是最后被关注到的那几个进球的前锋,但这支“足球队”中的中场、后卫和守门员,都非常重要,缺一不可。

比如MegBrian的同事,对我们的支持也非常大,在我们比赛前,Megbrian团队告诉我们,他们完美实现了在一张卡上放更多的图,这让我们节省了近40%的内存,这才允许我们可以把batch size做这么大。一次训练,我可以放的图更多。

所以这样的能力,即便我们不参加COCO比赛,也能应用到其他地方——COCO只是检验我们内功修炼如何的一次实战比赛。

量子位:总体上你会怎么评价这次COCO比赛?

姜宇宁:三方面吧。首先,通过这次比赛,锻炼了队伍、检验了这套内功究竟修炼得如何,还有参赛同学的现场实战能力等,总体还是很欣慰的;其次,检验了MegBrian和Brain++的稳定性;第三,接下来可能要把检测做得更快更好,应用到更多产品吧。

量子位:COCO比赛的模型可以直接应用到产品中吗?

姜宇宁:还不行。

但通过这个比赛,我们得到了一些经验性的东西,比如什么东西是有用的,什么是没用的。这样的经验可以传送给离产品更近的部门。

另外,说到检测,可以看看Face++现在做的两个事情,一个是在移动端,做模型的小型化,我们的ShuffleNet超越了Google的MobilNets;另一个事情是Face++在做的MegEye-C3S智能人脸抓拍机,软硬件结合,人脸检测算法可以在FPGA这样的条件下跑起来,而且成本更低。

量子位:这次中国军团也是大放异彩,你们感受如何?

姜宇宁:中国参赛队伍的表现都很好,都在各项比赛中站在了前列。我认为这是好事,AI往前发展,聪明的人进来得越多,对整个行业就越有利、越有意义。

大三实习生肖特特

量子位:你这次以大三实习生身份参赛受到关注,你在旷视实习多久了?

肖特特:我到旷视实习马上满2年,2015年开始,那时候刚入大学不久,之前有一些编程方面的经验。

然后我的老师针对编程经验的同学专门设立了一个班级,有一些前沿知识的拓展,提供一些案例,其中就有Face++,当时我也好奇,这些理论知识,是怎么被在现实中应用的,所以找到了Face++进一步了解,当时参观和面试的感觉是:前沿、有趣和有价值,最后留了下来,开始实习。

量子位:目前为止最深的印象是什么?

肖特特:很多同学很聪明,都有很强的动手能力,他们想很多的问题都很透彻。

另外,干活靠谱,也是非常重要的因素,任务下来后全力以赴,不达成目标不罢休,所以结果都是相当好的,又快又好。

最后是对技术的追求,我们是一家以技术驱动做产品的公司。大家在一起很兴奋、快乐。

量子位:未来有什么规划吗?

肖特特:未来会去北美念博士。原本不想念博士,但最近两年的经历,让我觉得应该在某个方向上专研够深,而且已经在工业界待过,也有一些经验和启发,或许能够帮助我的科研方向上的突破。

最后就是可以好好思考下很多问题,不止学术问题,也包括对生活、人生理想的思考,如果是念博士,可能会比较时机恰当。

当然,因为旷视在北美也设立了研究院,所以未来也可能继续在旷视,即便这些都是未知数。

量子位:学业、实习、ACM,怎么平衡时间?

肖特特:我爱好比较多,什么都会接触一下,但主要是:1)找到生活中的平衡,找到优先级,ACM中我的队友也是我的室友,大家平常生活就会讨论,不会占用太多时间;2)大一大二以课业为主,其后就开始有针对性选择感兴趣、更进一步深入的事情,然后在公司加强自己的动手能力。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-10-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 领队姜宇宁
  • 大三实习生肖特特
相关产品与服务
人脸识别
腾讯云神图·人脸识别(Face Recognition)基于腾讯优图强大的面部分析技术,提供包括人脸检测与分析、比对、搜索、验证、五官定位、活体检测等多种功能,为开发者和企业提供高性能高可用的人脸识别服务。 可应用于在线娱乐、在线身份认证等多种应用场景,充分满足各行业客户的人脸属性识别及用户身份确认等需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档