本月22-29日,是两年一度的国际计算机视觉大会(ICCV)召开的日子。
于往届ICCV相比,本届 ICCV堪称火爆。据组委会统计,ICCV 2017共收到2143篇论文投稿,其中621篇被选为大会论文,录用比例29%。其中包含45篇口头报告(Oral)和56篇亮点报告(Spotlight),参会人数预计将超过3000人。
本届ICCV中,商汤科技与中国香港中大-商汤科技联合实验室共发表了20篇论文,其中包括3篇Oral (录取率仅2.09%)和1篇Spotlight,领先于Facebook(15篇)、Google Research(10篇)等科技巨头。
ICCV是计算机视觉领域最高水平的国际学术会议,在其中发表的论文的量与质可以衡量一个公司或者研究机构的学术水平,以及其对未来科技发展潮流的把握。从商汤科技的20篇论文中,可以看到其在研究上重点发力的主线——
在过去几年,随着深度学习的广泛应用,计算机视觉取得了突破性的发展,很多传统任务(比如图像分类,物体检测,场景分割等)的性能大幅度提高。但是在更高的水平上,计算机视觉开始遇到了新的瓶颈。要获得新的技术进步,一个重要的方向就是打破传统视觉任务的藩篱,把视觉理解与自然语言等其它模态的数据结合起来。
在这一方向上,商汤科技有4篇论文被ICCV 2017录用,包括一篇Oral。
代表:《Towards Diverse and Natural Image Descriptions via a Conditional GAN (Oral)》
作者:Bo Dai, Sanja Fidler, Raquel Urtasun, Dahua Lin.
看图说话,也就是根据图像生成描述性标题,是今年来非常活跃的研究领域。现有的方法普遍存在一个问题,就是产生的标题很多是训练集中的表述的简单重复,读起来味同嚼蜡。这一问题的根源在于学习目标过分强调与训练集的相似性。
这篇论文提出了一种新型的基于Conditional GAN的训练方法,把描述生成模型与评估模型合同训练。这样,评估的标准从“像不像训练集”变成“像不像人说话”,从而驱动生成模型产生更加自然、生动,并具有丰富细节的描述。这一工作为看图说话任务提供了新的思路。在User Study中,这种新的方法以6:4的胜率战胜了传统的方法。
另外两篇paper则从相反的方向思考,力图利用相关文本的信息来帮助提高视觉理解的能力。
代表:《Scene Graph Generation from Objects, Phrases and Caption Regions》
作者:Yikang Li, Bolei Zhou, Wanli Ouyang, Xiaogang Wang, Kun Wang.
这篇论文把三个有密切关系的任务——物体检测,场景图生成,以及图像区域的描述联合在一起,并且利用它们之间的关系建立了一个多层次的场景描述模型—— Multi-level Scene Description Network (MSDN)。
通过这个联合模型,传统上分离开来的三个任务可以结合在一起进行端对端的训练,从而使得每个任务都获得性能的提升。尤其在代表对图像综合理解能力的场景图生成任务上,性能提高超过了3%。
代表:《Learning to Disambiguate by Asking Discriminative Questions》
作者:Yining Li, Chen Huang, Xiaoou Tang, Chen Change Loy.
这篇论文探索了一个新的方向,即透过提出有鉴别力的问题来区分不同的视觉实体。比如当你需要区分一只白色的狗和一只黑色的狗的时候,可以提出关于颜色的问题。
为了支持这个方向的探索,作者在这项工作中建立了一个新的数据集,里面含有了超过一万组包含成对图像与多个相关问题的样本;并且提出了一种新型的弱监督训练方法,可以在缺乏细致标注的条件下,同时学习到一个具有区分度的问题生成器,以及能提供准确答案的鉴别模型。
代表:《Identity-Aware Textual-Visual Matching with Latent Co-attention》
作者:Shuang Li, Tong Xiao, Hongsheng Li, Wei Yang, Xiaogang Wang.
特征匹配是跨模态学习的核心环节。这篇论文提出了一个新的文本与视觉特征匹配的框架。这个框架由两个阶段组成。
第一阶段能迅速排除明显错误的配对,并为第二阶段的训练提供效度更高的训练样本。第二阶段通过一个新的关联注意力模型(co-attention model),把文本中的单词关联到图像中的特定区域。
在三个公开数据集上(CUHK-PEDES, CUB, Flowers),本文提出的方法都显著超过现行的主流方法。
虽然深度学习在图像分析中取得了巨大的成功,它在视频的理解与分析中的应用还有很长的路要走。相比于图像,视频数据具有更大的数据量以及更丰富的结构,因而也为视觉分析技术提出了更高水平的挑战。
商汤科技在数年前就开始了把深度学习用于视频分析与理解的探索,提出了包括Temporal Segmental Networks (TSN)在内的多种有很大影响并被广泛应用的视频分析架构,并在ActivityNet 2016取得了冠军。
在2017年,商汤科技以及相关实验室继续把这个方向的探索推向纵深,并在ICCV 2017发表了两项重量级的工作,包括一篇Oral。
代表:《RPAN: An End-To-End Recurrent Pose-Attention Network for Action Recognition in Videos. (Oral)》
作者:Wenbin Du; Yali Wang; Yu Qiao.
通常的视频分析模型大部分是基于video-level的类别进行监督学习的,这种方法的局限是难以学习到复杂的运动结构。这篇论文另辟蹊径,着力于动态人体的建模,并提出了一个新型的可以端对端训练的深度网络架构 Recurrent Pose Attention Network (RPAN)。
该架构不仅可以自适应地整合人体运动姿态的特征,还能很好地学习其时空演化结构。这项工作一方面为视频动作理解提供了新的方法,另一方面作为副产品也获得了一个不错的粗粒度姿态估计的模型。
代表:《Temporal Action Detection with Structured Segment Networks》
作者:Yue Zhao, Yuanjun Xiong, Zhirong Wu, Xiaoou Tang, Dahua Lin.
时域上的动作检测是近两年兴起的新型视频分析任务。相比于传统的动作分类,这个任务更具有挑战性,不仅需要判断一个运动或者事件的类型,还需要获得它的准确起止时间。这个任务在实际场景中有很大的潜在价值,比如它可以从长时间的运动视频或者电影中自动定位到相关的精彩片段。
这篇论文提出了一种新型的视频动作检测模型,它在TSN的基础上引入了三段结构模型以更有效地捕捉运动起始段与终结段的特征。基于这一架构,动作分类器与时间定位器可以端到端联合训练。这个方法在多个大型视频数据集上(包括THOMOS和ActivityNet)取得了比现有方法超过10个百分点的提升。
最近两年,由于生成对抗网络(Generative Adversarial Networks)的提出,生成模型(generative model)的学习成为一个新兴的研究方向。
和传统的鉴别模型(discriminative model)主要关注信息提炼不同,生成模型需要从零开始,或者基于信息量非常有限的给定条件,产生出完整的图像,因此特别具有挑战性。
这个研究方向在消费领域具有巨大的应用价值,同时它也可以通过产生训练样本的方式反哺传统领域的研究。商汤科技在这个新兴领域也积极开展研究,取得不少新的成果,并在ICCV 2017发表了两项相关工作,包括一篇Oral。
代表:StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks.n (Oral)
作者:Han Zhang, Ttao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas.
生成高质量的图像是生成模型研究的核心问题。这篇文章提出了一个新型的生成框架,StackGAN,它能够根据简短的文字描述生成解析度为256 x 256的高质量图片。生成如此高解析度的照片是一个极具挑战性的问题,此前的生成模型通常只能产生大小为64 x 64的图片。
本文提出的方法把这个困难的任务分解为两个阶段。在第一阶段,先根据文字描述产生粗粒度的草图,以第一阶段的结果作为输入,第二阶段产生高解析度的图像,并补充丰富的细节。此文还进一步提出了一种新型的条件增强技术,以改进训练过程的稳定性。
和现有的生成网络相比,StackGAN在生成图片的质量的解析度上获得了非常显著的进步。
代表:《Be Your Own Prada: Fashion Synthesis with Structural Coherence》
作者:Shizhan Zhu, Dahua Lin, Raquel Urtasun, Sanja Fidler, Chen Change Loy.
这篇文章探索了一个极具应用价值的方向,把生成模型引入时尚领域:提出一种崭新的方法产生换装照片。具体而言,给定一个人的照片,以及对换装的描述,此文提出的方法可以根据对换装的描述,比如“黑色的短袖长裙”,产生换装后的照片。
和一般的生成任务相比,换装任务更具挑战性,换装照不仅需要符合文字描述,而且需要和原照片中人体的姿态相吻合。此文提出一个两阶段的框架解决这个问题:第一阶段产生一个和人体姿态吻合的分区图,第二阶段以此为基础生成具有精细细节的服装图像。
除了在新兴方向上积极开拓,商汤科技在一些重要的核心领域,包括人脸检测、物体检测、人体姿态估计、实际场景中的身份再识别等,也持续投入,精益求精,在本届ICCV发表多篇相关论文。
最后,附所有ICCV 2017录用论文列表地址:
http://openaccess.thecvf.com/ICCV2017.py
论文均可下载查看~