深度 | 图普科技工程师:Mask R-CNN的理论创新会带来怎样的可能性?

melmcgowan

上周,AI 科技评论报道了 Facebook 实验室出炉的新论文《Mask R-CNN》,第一作者何恺明带领团队提出了一种名为「Mask R-CNN」的目标实例分割框架。研究显示,该框架相比传统的操作方法更佳简单灵活。

论文地址:https://arxiv.org/abs/1703.06870

如果对物体识别和分割技术有所了解的读者们,可能对这个流程并不陌生。传统的物体识别和图像语义分割技术目前集中于运用 Fast/Faster R-CNN 和全卷积网络(FCN)框架等方法,上述概念的优点非常明显:

1. 直观 2. 训练和推断速度快 3. 灵活性和鲁棒性好

不过如 AI科技评论在此前文章中提及的一样,目标分割的难点在于涉及两个任务:

1. 用物体识别技术识别物体,并用边界框表示出物体边界;

2. 用语义分割给像素分类,但不区分不同的对象实例。

图普科技的工程师告诉AI科技评论,「本篇论文的创新点在于作者在 Faster R-CNN 的基础上,只增加了一条对计算资源要求很小的分支,就把原来只用在物体检测任务上的技术应用到物体分割技术上。」

Mask R-CNN 框架

Mask R-CNN 作为 Faster R-CNN 的扩展形式,主要的任务流程如下:

1. 首先检测出图片中可能存在物体的区间,得到多个候选框; 2. 用一条子神经网络分支预测:

  • 每个框内的物体类别
  • 物体在候选框里的矩形范围(横坐标纵坐标,宽,高)

3. 用另外一条神经网络分支对每个候选框预测候选框中哪些像素是属于该物体的。

那么,这样的改进能够起到怎样的作用呢?好处自然非常明显。

首先是适用性强。Mask R-CNN 的框架非常通用灵活,只需要经过少量修改,便能够推广到很多的任务上。

其次是更好地利用不同任务的监督数据。图普科技工程师表示,「以前是检测任务只能利用检测的数据,分割任务只能利用到分割的数据,现在 Mask R-CNN 能同时用上检测,分割等数据,同时训练检测,分割等任务,」AI 科技评论从论文的实验中了解到,任务都能达到业界标杆的效果。

在论文中,Mask R-CNN 在 COCO 数据集上表现良好,具体实验结果可以参考AI科技评论的此前文章。那么它是否能延展到更大的范围呢?图普科技工程师对此则一分为二地看待,他认为短期内在个人领域还无法看到直接应用,不过在云端厂商和科研工作上,由于它良好的表现性能和实用性,的确可以在很多地方获得大规模应用。

既然是 Facebook 研究院提出的新成果,AI科技评论自然也非常关心 Mask R-CNN 未来可能在 Facebook 上的应用场景。根据图普科技工程师的设想,可能会有以下三个方向:

首先是图片自动打标签的功能。基于 Facebook 的社交属性,它识别人脸的能力已经越来越强,但「读懂图片」的能力还在不断探索中。Mask R-CNN 兼具物体识别并用语义分割给像素分类的能力,的确很有可能先在自家的社交网络上获得大范围应用。

其次是 AR 技术。比如说,在镜头中的沙发上显示一个 3D 虚拟美女,那么如何判断沙发的位置和角度,并据此调整美女的坐姿,如果要做到「毫无违和感」,同样需要对图像的边界进行界定。

还有一点是 VR 技术。「在游戏领域,可以采用 Mask R-CNN 精确捕捉人的动作,让玩家在能在虚拟世界自由扮演角色。」

虽然现在讨论应用还有些早,不过 AI 科技评论依然期待 FAIR 在未来能有更多的理论创新,并能够早日应用于我们的生活当中。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-03-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

谷歌送上主播福利,手机拍视频实时换背景

YouTube stories 中的神经网络视频分割(加特效) AI 科技评论按:视频分割是一项用途广泛的技术,把视频的前景和背景分离之后,导演们、视频制作者们...

36140
来自专栏PaddlePaddle

卷积神经网络的发展历程

深度学习基础理论-CNN篇 卷积神经网络的发展历程 ? - 01 - 卷积神经网络(Convolutional Neural Networks,简称CN...

46770
来自专栏BestSDK

机器学习精华,10问10答

给新人的学习建议 1. 你建议其他领域的人(比如机械工程)来学习机器学习吗? Ian Goodfellow:当然了!我最崇拜的Geoffrey Hinton在...

37560
来自专栏数据派THU

深度学习并非万能,你用对了吗?

来源:机器人圈 作者:Pablo Cordero 本文文章长度为4700字,建议阅读8分钟。 本文为你全面揭示深度学习的应用场合和作用。 [ 导读 ]深度学习随...

20780
来自专栏CreateAMind

自动驾驶核心技术之三:环境感知

自动驾驶四大核心技术,分别是环境感知、精确定位、路径规划、线控执行。环境感知是其中被研究最多的部分,不过基于视觉的环境感知是无法满足无人驾驶要求的。

54020
来自专栏CDA数据分析师

【总结】奇异值分解在缺失值填补中的应用都有哪些?

作者 Frank 本文为 CDA 数据分析师志愿者 Frank原创作品,转载需授权 奇异值分解算法在协同过滤中有着广泛的应用。协同过滤有这样一个假设,即过去某些...

28560
来自专栏AI科技评论

干货 | 深度学习的可解释性研究(一):让模型「说人话」

不以人类可以理解的方式给出的解释都叫耍流氓,因此,我们要让模型「说人话」。只要记住这三个字,你就差不多把握了可解释性的精髓所在。

15030
来自专栏AI研习社

深度学习的可解释性研究(一):让模型「说人话」

AI 研习社按:本文为 BIGSCity 的知乎专栏内容,作者王小贱。北航智慧城市兴趣组 BIGSCITY是隶属于北京航空航天大学计算机学院的一个学术研究小组,...

13930
来自专栏人工智能头条

CCAI 2017 | 日本理化学研究所先进智能研究中心主任杉山将:弱监督机器学习的研究进展

10340
来自专栏ATYUN订阅号

AI结合人工X射线准确识别医学图像中的罕见情况

一种新的人工智能系统通过人工X射线训练,有助于研究人员识别医学图像中罕见的医学状况。

21020

扫码关注云+社区

领取腾讯云代金券