深度 | 图普科技工程师:Mask R-CNN的理论创新会带来怎样的可能性?

melmcgowan

上周,AI 科技评论报道了 Facebook 实验室出炉的新论文《Mask R-CNN》,第一作者何恺明带领团队提出了一种名为「Mask R-CNN」的目标实例分割框架。研究显示,该框架相比传统的操作方法更佳简单灵活。

论文地址:https://arxiv.org/abs/1703.06870

如果对物体识别和分割技术有所了解的读者们,可能对这个流程并不陌生。传统的物体识别和图像语义分割技术目前集中于运用 Fast/Faster R-CNN 和全卷积网络(FCN)框架等方法,上述概念的优点非常明显:

1. 直观 2. 训练和推断速度快 3. 灵活性和鲁棒性好

不过如 AI科技评论在此前文章中提及的一样,目标分割的难点在于涉及两个任务:

1. 用物体识别技术识别物体,并用边界框表示出物体边界;

2. 用语义分割给像素分类,但不区分不同的对象实例。

图普科技的工程师告诉AI科技评论,「本篇论文的创新点在于作者在 Faster R-CNN 的基础上,只增加了一条对计算资源要求很小的分支,就把原来只用在物体检测任务上的技术应用到物体分割技术上。」

Mask R-CNN 框架

Mask R-CNN 作为 Faster R-CNN 的扩展形式,主要的任务流程如下:

1. 首先检测出图片中可能存在物体的区间,得到多个候选框; 2. 用一条子神经网络分支预测:

  • 每个框内的物体类别
  • 物体在候选框里的矩形范围(横坐标纵坐标,宽,高)

3. 用另外一条神经网络分支对每个候选框预测候选框中哪些像素是属于该物体的。

那么,这样的改进能够起到怎样的作用呢?好处自然非常明显。

首先是适用性强。Mask R-CNN 的框架非常通用灵活,只需要经过少量修改,便能够推广到很多的任务上。

其次是更好地利用不同任务的监督数据。图普科技工程师表示,「以前是检测任务只能利用检测的数据,分割任务只能利用到分割的数据,现在 Mask R-CNN 能同时用上检测,分割等数据,同时训练检测,分割等任务,」AI 科技评论从论文的实验中了解到,任务都能达到业界标杆的效果。

在论文中,Mask R-CNN 在 COCO 数据集上表现良好,具体实验结果可以参考AI科技评论的此前文章。那么它是否能延展到更大的范围呢?图普科技工程师对此则一分为二地看待,他认为短期内在个人领域还无法看到直接应用,不过在云端厂商和科研工作上,由于它良好的表现性能和实用性,的确可以在很多地方获得大规模应用。

既然是 Facebook 研究院提出的新成果,AI科技评论自然也非常关心 Mask R-CNN 未来可能在 Facebook 上的应用场景。根据图普科技工程师的设想,可能会有以下三个方向:

首先是图片自动打标签的功能。基于 Facebook 的社交属性,它识别人脸的能力已经越来越强,但「读懂图片」的能力还在不断探索中。Mask R-CNN 兼具物体识别并用语义分割给像素分类的能力,的确很有可能先在自家的社交网络上获得大范围应用。

其次是 AR 技术。比如说,在镜头中的沙发上显示一个 3D 虚拟美女,那么如何判断沙发的位置和角度,并据此调整美女的坐姿,如果要做到「毫无违和感」,同样需要对图像的边界进行界定。

还有一点是 VR 技术。「在游戏领域,可以采用 Mask R-CNN 精确捕捉人的动作,让玩家在能在虚拟世界自由扮演角色。」

虽然现在讨论应用还有些早,不过 AI 科技评论依然期待 FAIR 在未来能有更多的理论创新,并能够早日应用于我们的生活当中。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-03-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

Hinton 谷歌大脑新作:通过给个体标签建模来提高分类能力

图片来源 oregon center for nursing AI 研习社按:Geoffrey Hinton 于 2013 年加入谷歌,目前在谷歌大脑团队致力...

33111
来自专栏AI科技大本营的专栏

DeepMind 研发出类脑 AI 神经元,具备超强空间导航能力

Google 旗下人工智能公司 DeepMind 的研究人员最近在《自然》杂志上发表论文,宣布同伦敦大学学院的神经生理学家合作,研发出了能够模拟哺乳动物大脑中网...

831
来自专栏新智元

【ImageNet后计算机视觉顶级赛事】中国团队力克谷歌等包揽MS COCO竞赛3项冠军

【新智元导读】图像识别领域的权威标杆 MS COCO 2017 竞赛结果公布。COCO 竞赛代表了继 ImageNet 后图像识别的最高水平。今年,来自旷视、商...

3677
来自专栏人工智能头条

Hinton的小伙伴Charlie Tang:结构深度学习

1636
来自专栏ATYUN订阅号

【科技】研究人员利用黑猩猩改进动物模拟技术 效果显著!

AiTechYun 编辑:nanan 曼彻斯特大学的研究人员正在利用计算机模拟黑猩猩行走,来提高我们对动物行走方式的理解,同时也提高我们用来做实验的技术。 ? ...

2934
来自专栏机器人网

JD的猪脸识别和人脸识别有什么不一样?

前段时间,JD搞了个猪脸识别的比赛,大家都看得沸沸扬扬,但是这个其实是一个很不错的AI+畜牧业的应用,比如在养牛行业。大家知道吗?牛其实不愿意看到人类的,他们会...

3645
来自专栏数据派THU

干货 | 纽约大学陈溪: AlphaGo Zero技术演进的必然性(附PPT)

本讲座选自纽约大学助理教授陈溪近日在2018第二届杉数科技AI大师圆桌会上所做的题为《 AlphaGo Zero技术演进的必然性-机器学习与决策的有机结合》的演...

782
来自专栏机器之心

重磅 | 自动驾驶计算机视觉研究综述:难题、数据集与前沿成果(附67页论文下载)

选自arXiv 机器之心编译 参与:李亚洲、微胖、黄小天、蒋思源 近日,德国马克斯普朗克智能系统研究所(Max Planck Institute for Int...

3117
来自专栏新智元

Science:迄今最精准人脸数字模型,任意 2D 照片转换逼真3维人脸

【新智元导读】伦敦帝国理工学院的研究人员开发了一种新的系统,能自动对各种族、年龄的人脸进行准确的 3D 建模。他们还建立了一个大规模人脸扫描数据库,用于训练这个...

67210
来自专栏机器之心

前沿 | 视网膜眼底图像预测心脏病风险:Nature综述深度学习在生物医疗中的新应用

3097

扫码关注云+社区