深度 | 图普科技工程师:Mask R-CNN的理论创新会带来怎样的可能性?

melmcgowan

上周,AI 科技评论报道了 Facebook 实验室出炉的新论文《Mask R-CNN》,第一作者何恺明带领团队提出了一种名为「Mask R-CNN」的目标实例分割框架。研究显示,该框架相比传统的操作方法更佳简单灵活。

论文地址:https://arxiv.org/abs/1703.06870

如果对物体识别和分割技术有所了解的读者们,可能对这个流程并不陌生。传统的物体识别和图像语义分割技术目前集中于运用 Fast/Faster R-CNN 和全卷积网络(FCN)框架等方法,上述概念的优点非常明显:

1. 直观 2. 训练和推断速度快 3. 灵活性和鲁棒性好

不过如 AI科技评论在此前文章中提及的一样,目标分割的难点在于涉及两个任务:

1. 用物体识别技术识别物体,并用边界框表示出物体边界;

2. 用语义分割给像素分类,但不区分不同的对象实例。

图普科技的工程师告诉AI科技评论,「本篇论文的创新点在于作者在 Faster R-CNN 的基础上,只增加了一条对计算资源要求很小的分支,就把原来只用在物体检测任务上的技术应用到物体分割技术上。」

Mask R-CNN 框架

Mask R-CNN 作为 Faster R-CNN 的扩展形式,主要的任务流程如下:

1. 首先检测出图片中可能存在物体的区间,得到多个候选框; 2. 用一条子神经网络分支预测:

  • 每个框内的物体类别
  • 物体在候选框里的矩形范围(横坐标纵坐标,宽,高)

3. 用另外一条神经网络分支对每个候选框预测候选框中哪些像素是属于该物体的。

那么,这样的改进能够起到怎样的作用呢?好处自然非常明显。

首先是适用性强。Mask R-CNN 的框架非常通用灵活,只需要经过少量修改,便能够推广到很多的任务上。

其次是更好地利用不同任务的监督数据。图普科技工程师表示,「以前是检测任务只能利用检测的数据,分割任务只能利用到分割的数据,现在 Mask R-CNN 能同时用上检测,分割等数据,同时训练检测,分割等任务,」AI 科技评论从论文的实验中了解到,任务都能达到业界标杆的效果。

在论文中,Mask R-CNN 在 COCO 数据集上表现良好,具体实验结果可以参考AI科技评论的此前文章。那么它是否能延展到更大的范围呢?图普科技工程师对此则一分为二地看待,他认为短期内在个人领域还无法看到直接应用,不过在云端厂商和科研工作上,由于它良好的表现性能和实用性,的确可以在很多地方获得大规模应用。

既然是 Facebook 研究院提出的新成果,AI科技评论自然也非常关心 Mask R-CNN 未来可能在 Facebook 上的应用场景。根据图普科技工程师的设想,可能会有以下三个方向:

首先是图片自动打标签的功能。基于 Facebook 的社交属性,它识别人脸的能力已经越来越强,但「读懂图片」的能力还在不断探索中。Mask R-CNN 兼具物体识别并用语义分割给像素分类的能力,的确很有可能先在自家的社交网络上获得大范围应用。

其次是 AR 技术。比如说,在镜头中的沙发上显示一个 3D 虚拟美女,那么如何判断沙发的位置和角度,并据此调整美女的坐姿,如果要做到「毫无违和感」,同样需要对图像的边界进行界定。

还有一点是 VR 技术。「在游戏领域,可以采用 Mask R-CNN 精确捕捉人的动作,让玩家在能在虚拟世界自由扮演角色。」

虽然现在讨论应用还有些早,不过 AI 科技评论依然期待 FAIR 在未来能有更多的理论创新,并能够早日应用于我们的生活当中。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-03-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【推荐】再谈数据挖掘——时序预测初探

1. 背景 先来看两个例子,下面两幅图展示了百度在趋势预测方面的应用案例,一个是世界杯期间的比赛输赢预测,另一个是北京各旅游景区的游客人数预测。 ? ? 这两...

2974
来自专栏PPV课数据科学社区

【推荐】开发者成功使用机器学习的十大诀窍

作者|Alexander Gray 编译|刘帝伟 转自|CSDN 在提供发现埋藏数据深层的模式的能力上,机器学习有着潜在的能力使得应用程序更加的强大并且更能响应...

2173
来自专栏机器之心

回顾 | CVPR 2017完全指北:深度学习与计算机视觉融合的一年,未来又会是什么?

机器之心(海外)原创 作者:QW、CZ 参与:王灏、Panda 当地时间 7 月 21 日到 16 日,夏威夷火奴鲁鲁迎来了 2017 年计算机视觉与模式识别会...

3746
来自专栏人工智能

技术词条 机器学习篇

机器学习(Machine Learning) ? 解释讲述人工智能领域内的专业词汇和算法,是AI君在2018年最先要做的事情,我们第一个要讲的就是大名鼎鼎的“机...

2275
来自专栏AI研习社

AutoML 和神经架构搜索初探

AI 研习社按:本文由「图普科技」编译自 An Opinionated Introduction to AutoML and Neural Architectu...

621
来自专栏AI科技大本营的专栏

CCAI 2017 | 香港科技大学计算机系主任杨强:论深度学习的迁移模型

作者 | 贾维娣 7月23日,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会(CCAI 201...

31911
来自专栏AI科技评论

干货 | AutoML 和神经架构搜索初探

AI 科技评论按:本文由「图普科技」编译自 An Opinionated Introduction to AutoML and Neural Architect...

752
来自专栏量子位

微软研究院新论文:按语义结构迁移图片视觉属性

唐旭 编译整理 量子位 出品 | 公众号 QbitAI ? 最近,来自微软亚洲研究院和上海交通大学的Jing Liao、Yuan Yao、 Lu Yuan等人...

3315
来自专栏机器之心

演讲 | Yann LeCun清华演讲:深度学习与人工智能的未来

机器之心原创 作者:高静宜 2017 年 3 月 22 日下午,Facebook 人工智能研究院院长、纽约大学终身教授 Yann LeCun 在清华大学大礼堂为...

3498
来自专栏数学人生

用强化学习玩文本游戏

随着 DeepMind 成功地使用卷积神经网络(CNN)和强化学习来玩 Atari 游戏,AlphaGo 击败围棋职业选手李世石,强化学习已经成为了机器学习的一...

5301

扫描关注云+社区