业界 | 23篇论文入选CVPR2017, 商汤科技精选论文解读

机器之心报道

机器之心编辑部


2017 年 7 月 11 日,专注于计算机视觉和深度学习的国内人工智能企业商汤科技完成 4.1 亿美元融资的消息引爆业内。本次融资创下了全球人工智能公司单轮融资的最高纪录。作为一家专注于计算机视觉和深度学习的新锐公司,在即将到来的世界顶级计算机视觉会议 CVPR(7 月 21 日-26 日,美国夏威夷)上,商汤科技也将带来一系列的技术 Demo、Presentation、PartyTime 等活动。在本届 CVPR 2017 大会上,商汤科技及香港中大-商汤科技联合实验室共有 23 篇论文被接收。录取论文中不乏新奇有趣的题目,详细内容欢迎会场和作者深度交流。

因图而异的融合网络 - Quality Aware Network for Set to Set Recognition

图像质量差异识别难点示意图

在人脸识别、人体再识别任务中,输入的数据通常是每张人脸或每个人体的多张图像构成的序列。现有的方法利用卷积神经网络对一个序列中的所有图像分别提取特征,再将特征进行简单的平均或池化,作为该序列的最终特征用于之后的识别。但实际应用场景中一个序列中的图像可能在许多方面存在着较大差异,例如光照、清晰度、角度等,如示例图。由于在融合序列的特征时没有考虑到这些差异,上述方法在实际应用场景用会受这些因素的影响从而无法达到理想的效果。本论文提出了一种新的序列匹配方法,充分考虑了序列内图像的差异性,并利用深度学习的方法对这种差异性进行无监督的学习,再根据学习到的质量差异性对序列中的图像特征进行融合,最终得到具有较高判别力的序列特征,解决光照模糊等一系列实际应用中的问题。

以自然语言搜人 - Person Search with Natural Language Description

 


以自然语言描述来进行人的检索

大规模图像库检索有非常大的行业意义,通常提取图像属性特征再通过属性检索来找到目标。但是常用场景比如嫌疑犯描述都是通过自然语言描述(人类能理解的语言)。本论文提出了使用自然语言描述进行人的大库检索,如上图所示,自然语言描述为「这位妇女穿着一件长而亮的橙色长袍,腰上系着一条白色腰带。她把头发挽成一个发髻或马尾辫。」这样的描述要比用属性来的丰富的多。这个系统定位人体图像显著视觉区域,同时把有意义的文本描述短语赋予显著的视觉区域。通过学习图像-语言关系,系统可以准确得到自然语言查询和相似度得分,从而大大提成查询准确率和效率。

结合人类视觉注意力 - Residual Attention Network for Image Classification


首次成功将极深卷积神经网络与人类视觉注意力机制进行有效的结合


视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像获得需要关注的目标区域,而后重点获取所需要关注的目标信息,抑制其他无用信息。人类视觉注意力机制极大的提高了视觉信息处理的效率与准确性。注意力机制已经在自然语言处理中取得了重大成功。但在计算机视觉任务中,如何将视觉注意力机制有效的嵌入到神经网络结构并提升网络性能成为亟待解决的问题。

Residual Attention Network,在图像分类问题上,首次成功将极深卷积神经网络与人类视觉注意力机制进行有效的结合,并取得了远超之前网络结构的准确度与参数效率。仅用与 ResNet-50 的相当的参数量和计算量就得到了远超过了 ResNet-152 的分类性能。今年 ImageNet 检测冠军团队已经在 LOC 任务重使用了本文的机制。模型、参数等都可以参考网站 https://github.com/buptwangfei/AttentionNet

商汤科技 PartyTime

CVPR 2017 会议期间商汤将联合香港中文大学联合实验室联合主办一场 SenseTime PartyTime 活动。该活动旨在为计算机视觉领域的研究人员和学生提供交流机会,并且会有业内大咖分享最新研究成果。

  • 活动时间: 7 月 24 日下午 12:00-16:00pm
  • 活动地点:THE MODERN HONOLULU, Honolulu, Hawaii






商汤科技及商汤科技香港中文大学联合实验室共有 23 篇论文被接收,附上 CVPR2017 上 Session 时间:

1.Multi-Context Attention for Human Pose Estimation - Saturday, July 22, 2017,09:00–10:30

2.Multi-Scale Continuous CRFs as Sequential Deep Networks for Monocular Depth Estimation - Saturday, July 22, 2017,09:00–10:30

3.Accurate Single Stage Detector Using Recurrent Rolling Convolution - Saturday, July 22, 2017,10:30–12:30

4.Mimicking Very Efficient Network for Object Detection - Saturday, July 22, 2017,10:30–12:30

5.Object Detection in Videos with Tubelet Proposal Networks - Saturday, July 22, 2017,10:30–12:30

6.Spindle Net: Person Re-identification with Human Body Region Guided Feature Decomposition and Fusion.- Saturday, July 22, 2017,10:30–12:30

7.Discover and Learn New Objects from Documentaries - Saturday, July 22, 2017,13:30–15:00

8.Learning object interactions and descriptions for Semantic Image Segmentation - Saturday, July 22, 2017,13:30–15:00

9.Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification Saturday, July 22, 2017- 15:00–17:00

10.Scale-Aware Face Detection - Saturday, July 22, 2017,15:00–17:00

11.Interpretable Structure-Evolving LSTM - Sunday, July 23, 2017,08:30–10:00

12.Detecting Visual Relationships with Deep Relational Networks - Sunday, July 23, 2017,13:00–14:30

13.Joint Detection and Identification Feature Learning for Person Search - Sunday, July 23, 2017,13:00–14:30

14.Learning Cross-Modal Deep Representations for Robust Pedestrian Detection - Sunday, July 23, 2017,14:30–16:30

15.PolyNet: A Pursuit of Structural Diversity in Very Deep Networks - Sunday, July 23, 2017,14:30–16:30

16.Pyramid Scene Parsing Network - Sunday, July 23, 2017,14:30–16:30

17.Person Search with Natural Language Description - Monday, July 24, 2017,10:00–12:00

18.Quality Aware Network for Set to Set Recognition - Monday, July 24, 10:00–12:00

19.UntrimmedNets for Weakly Supervised Action Recognition and Detection - Tuesday, July 25, 2017,10:00–12:00

20.Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade - Tuesday, July 25, 2017,13:00–14:30

21.Residual Attention Network for Image Classification - Tuesday, July 25, 13:00–14:30

22.ViP-CNN: A Visual Phrase Reasoning Convolutional Neural Network for Visual Relationship Detection - Tuesday, July 25, 2017,14:30–16:30

23.Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing - Tuesday, July 25, 2017,14:30–16:30

本文为机器之心报道,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-07-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

深度学习在自然语言处理的应用

【编者按】Jonathan Mugan写了两篇博文来解释计算机如何理解我们在社交媒体平台上使用的语言,以及能理解到何种程度。本文是其中的第二篇。 在深度学习出现...

2119
来自专栏机器之心

教程 | 用数据做酷的事!手把手教你搭建问答系统

选自TowardsDataScience 作者:Priya Dwivedi 机器之心编译 参与:Pedro、路 本文介绍了如何基于 SQuAD 数据集搭建问答系...

2917
来自专栏新智元

【一文读懂Hinton最新Capsules论文】CNN 未来向何处去

【新智元导读】Hinton 上周发表的一篇论文 Dynamic Routing Between Capsules 提出用 Capsule 这个概念代替反向传播,...

38412
来自专栏Vamei实验室

统计02:怎样描绘数据

统计最开始的主要任务就是描述数据。正如我们在统计概述中提到的,群体的数据可能包含大量的数字,往往让人读起来头昏脑涨。电影《美丽心灵》中,数学家纳什不自觉地沉浸在...

2717
来自专栏机器之心

重磅 | Facebook提出全新CNN机器翻译:准确度超越谷歌而且还快九倍(已开源)

选自code.facebook 作者:Jonas Gehring、Michael Auli、David Grangier、Denis Yarats、Yann N...

3528
来自专栏数说工作室

金融数据挖掘之朴素贝叶斯

你和我之前的人生, 就像是来自同一个分布族的共轭曲线, 即使有各自的参数空间, 也注定要相识相念。 你和我之后的人生, 是我们相扶相持下不离不弃的最大似然, 用...

36510
来自专栏专知

【NAACL2018最佳论文】忘掉Word2vec吧!艾伦人工智能研究院新词向量学习方法,一文了解各大奖项论文

【导读】当地时间6月1日到6月6日,第十六届自然语言处理顶级会议NAACL - HLT(Annual Conference of the North Ameri...

1033
来自专栏新智元

【Bengio领衔】DeepMind、谷歌大脑核心研究员2017深度学习最新报告(PPT)

【新智元导读】 深度学习领军人物 Yoshua Bengio 主导的蒙特利尔大学深度学习暑期学校目前“深度学习”部分的报告已经全部结束。 本年度作报告的学术和行...

3605
来自专栏数据派THU

一文读懂深度学习模型近年来重要进展(附梳理图)

2486
来自专栏AI科技大本营的专栏

从Word Embedding到Bert模型——自然语言处理预训练技术发展史

作者简介:张俊林,中国中文信息学会理事,目前在新浪微博 AI Lab 担任资深算法专家。在此之前,张俊林曾经在阿里巴巴任资深技术专家,以及在百度和用友担任技术经...

1372

扫码关注云+社区

领取腾讯云代金券