前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >王井东:物体上下文引导的表征学习在语义分割中的应用

王井东:物体上下文引导的表征学习在语义分割中的应用

作者头像
马上科普尚尚
发布2020-05-11 14:50:00
8230
发布2020-05-11 14:50:00
举报
文章被收录于专栏:人工智能前沿讲习

报告导读

本文报告主要介绍了在图像分割问题中如何有效利用物体的上下文信息,回顾了目前主要的研究方法,同时分享了在深度神经网络中利用物体区域的表征来增强所属像素的表征(OCR)的研究工作以及在主流数据集上的优异性能。

专家介绍

王井东,微软亚洲研究院首席研究员,国际模式识别学会会士。担任或曾担任过CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM 等人工智能会议的领域主席或高级程序委员会委员。现为IEEE 汇刊 IEEE TPAMI, IEEE TCSVT和IEEE TMM的编委会成员曾获得ACM MM 2015最佳论文提名。其研究成果10多次转化到微软的关键产品和服务中。主要从事计算机视觉、深度学习及多媒体等领域的研究,包括神经网络结构的设计、行人姿势估计、图像分割、目标检测以及多媒体搜索等。

报告内容

图像分割是计算机视觉里面一个非常重要的问题。研究者们关注比较多的是图象分类的问题,而图像分割需要对每个象素设定标签。

如果想利用深度学习的方法,最简单的方法就是把每个象素拿出来,同其周围的象素一起做一个块(patch)作为一个单独的图象来进行分类,这样也可以实现图象分割。这样的话有什么问题呢?计算量太大,每个像素都要算一遍,要算很多次。2015年左右,UC Berkeley的研究者提出了全卷积网络(FCN)的这么一个工作,这个方法当时取得了非常领先的结果,比以往的方法都好,但是有两个重要的因素都没有考虑到,第一个是分辨率的问题,因为它从分类的网络得到小的分辨率,通过恢复的方法保持一定的分辨率,这些例子我们前面也都看到了。

另外一个非常重要的问题,FCN里面并没有解决好,即物体上下文或者场景的信息。为什么有这样的问题?因为我们单独看一个象素,很难知道这个象素是属于某一个物体的,因为象素给我们的信息是RGB的信息,如果不给予足够多的上下文信息是很难判断的,这是第一点。第二点,上下文会有什么样的好处呢?比如说我们在马路上检测到一些象素,分类成车或者船的分数,因为知道周围是马路,十有八九这个象素应该分类成车,这也是使用上下文信息进行推理非常重要的原因。

我们看一下在深度学习时代大家怎么去做这个上下文?基本上做的方法都是非常直接的。之前商汤的一个工作称之为PSPNet,通过给每个象素周围建立多层的或者多尺度的表征,大家可以看到中间有四个分支,这个方块大小是不一样的,实际上是对应不同的尺度,我们称之为多尺度的策略或者金字塔的策略,在传统计算机视觉方面大家应用得很多,当时这个方法取得了非常大的突破,同时谷歌也有一个工作,它用了类似于空洞卷积的方式来实现的。

但是仔细研究这个方法,比如说我们这个红色的点是我们关注的点,周围绿色的几个点是通过空洞卷积采样出来,或者在PSP里面金字塔的方法采样出来的,我们可以看到,有一部分点跟红色点是不属于车的,还有一个是属于车的,这两部分像素混合在一起,其实我们并没有区分。

那应该怎么办?分割任务实际上是说我们要给每个象素一个标签,实际上我们并不是给象素标签,而是这个象素应该落在某个标签对应的物体上。我们要去找这个物体,而不是这个象素本身属于谁,我们要通过周围物体的象素表征来帮助。如果说利用我们刚才提的,把这个像素对应的物体的表征拿过来做分割的话可以达到88.5%,说明我们有很大的空间,这个空间非常大。

那么究竟怎么做?这是个鸡生蛋和蛋生鸡的问题,你想利用这个象素所在的物体,可是我们分割任务并没有告诉这样的信息,我们的做法就是如果事先没有准确的物体信息,可以通过估计,也可以是中间的这个表征去估计出这么一个物体,然后把这个物体的表征拿出来增强当前象素的表征。

具体来看这个策略是怎么做,图片里面我们需要增强红色小方块的表征,它的初始表征我们给出来了,同时我们有个初步的分割,还有中间的特征,我们把初步分割的每个区域的特征提出来,把左边象素的特征经过一些变换,右边每个区域的特征也经过一些变换,简单算一下他们的相似度,直观来讲,在当前的估计下,最上面的一行小方格是每个颜色代表属于某个区域的可能性,我们根据这个可能性把每个区域的表征加权平均起来,会得到当前象素增强的特征。

这个方法出发点非常明确,看上去非常有道理,在标准的数据里面都做了测试,最终我们的结构可以达到82.3%,这是目前我们观察的最好的结果,而且是单模型最好的结果。

还有ADE和MIT,这是非常有挑战性的,目前我们也是做得最好的结果。还有COCO-Stuff数据集,在这个任务里面通常大家互相把长颈的分割跟物体的分割这两个问题分开去做,为什么要分开去做?因为这两个分开就会带来更大的难度,最后一列这个数字也可以看得出来。在这个更加复杂的任务里面,跟最好的方法相比,最好的方法是DANet是39.7%。我们把高分辨率的网络结构HRNet和这个OCR组合起来,在榜单上排名第一的,这样一个榜单还是非常困难的,在过去一年没有什么变动,大概是去年的这么一个结果。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-02-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档