《 NEXT 技术快报》:计算机视觉篇(下)

《 NEXT 技术快报》:计算机视觉篇(上)

Lifting from the Deep: Convolutional 3D Pose Estimation from a Single Image

原文链接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Tome_Lifting_From_the_CVPR_2017_paper.pdf

项目主页:http://www0.cs.ucl.ac.uk/staff/D.Tome/papers/LiftingFromTheDeep.html

结果视频:https://www.youtube.com/watch?v=tKfkGttx0qs

【摘要】

本文来自伦敦大学学院和爱丁堡大学的研究人员。作者提出了一个高效、统一的基于多阶段深度学习的框架来解决单幅图像中2维关节估计和3维姿态估计问题。

【问题】

以往的方法在解决2维关节估计和3维姿态估计问题时,往往是分步骤进行的,第一个过程的结果是第二个过程的输入,这样分步骤会造成信息损失,同时最终的估计结果也并不是最优的。

【解决方法】

提出一个统一的基于多阶段深度学习的框架来解决2维关节估计和3维姿态估计问题。

该框架提出了一个新的CNN架构,可以将基于图像外观特征提取的2D标志点位置信息与用预训练好的3D姿态模型提取的3D几何骨骼信息结合起来统一学习,最终提高2D姿态和3D姿态的估计精度。

基于多阶段深度卷积神经网络的人体姿态估计流程图

【结果分析】

● 优势:在Human3.6M数据集上分别进行2D和3D姿态估计,与当前最好的方法相比,估计准确性分别要高于对比方法。

● 不足:计算效率上还打不到实时。

● 手势(hand)

3D Convolutional Neural Networks for Efficient and Robust Hand Pose Estimation from Single Depth Images

原文链接:https://eeeweba.ntu.edu.sg/computervision/Research%20Papers/2017/3D%20Convolutional%20Neural%20Networks%20for%20Efficient%20and%20Robust%20Hand%20Pose%20Estimation%20from%20Single%20Depth%20Images.pdf

项目主页:https://sites.google.com/site/geliuhaontu/home/cvpr2017

【摘要】

本文来自新加坡南洋理工大学和新加坡A*Star 高性能计算研究所。作者提出了一种简单有效、实时的手部姿态估计的方法。对于深度图像利用一种三维数据体的表示方法,并有效利用数据的空间结构信息,提升算法性能。

【问题】

● 由2维CNN提取的基于图像的特征由于缺少3D空间信息,并不完全适用于3D手部姿态估计。

● 多视图CNN仍然无法完全充分利用深度图像中的3D空间信息

【解决方法】

从深度图像分割出手的部分,提取手的3D点云并编码为3维数据体,这一个数据作为3维CNN的输入,输出为一组手在3维数据体中的关节相对位置。最后利用简单的坐标变换来获得手在相机系统下的关节位置。

方法整体流程图

【结果分析】

● 优势:

❖ 在MSRA和NYU数据集上进行实验,并与当前最好的方法——层次回归方法——进行比较。当误差阈值维10mm时,提出的方法要由于当前最好方法。实验环境为2块CPU:Intel Core i7 5930K 3.50GHz, 64GB RAM,GPU:NvidiaQuadro K5200

❖ 实时运行,超过215fps

❖ 对于手部尺寸变化和整体方向变化比较鲁棒

Crossing Nets: Combining GANs and VAEs With a Shared Latent Space for Hand Pose Estimation

原文链接:https://arxiv.org/pdf/1702.03431.pdf

结果链接:https://www.youtube.com/watch?v=oumCArDjC7w

【摘要】

文章由瑞士苏黎世联邦理工学院、波恩大学和荷兰语天主教鲁汶大学的研究人员共同发表在CVPR2017上。作者创新性地结合了生成式对抗网络和半监督学习,充分利用了没有标签的深度图,从而改进了泛化性能。同时方法具有非常高的计算效率。

【问题】

● 从单一的深度图像估计3D手部姿态需要大量的标注训练数据,成本很高

● 以往基于图像合成的方法得到的结果真实感比较差

【解决方法】

结合生成式对抗网络(GAN)和半监督学习进行结构预测:基于变分自编码器(VAE)估计姿态估计,利用GAN生成高质量深度图用来训练模型,在一个多任务学习的框架下统一处理姿态估计问题。

整体处理流程图

【结果分析】

● 优势:

❖ 在NYU、MSRA和ICVL三个公开数据集上与分别与该数据集的当前2种state-of-the-art 方法进行对比。结果显示提出的方法在估计误差上要优于对比方法。

❖ 更好的泛化性

❖ 对于大视角的姿态变化的估计更加鲁棒

❖ 可以更好地利用无标记的数据

❖ 在CPU上可以达到实时估计

视觉跟踪 (Visual Tracking)

视觉跟踪一般也被称为目标跟踪,就是在连续的视频序列中,建立所要跟踪物体的位置关系,得到物体完整的运动轨迹。具体的,在第一帧图像给定目标的状态,一般是目标的bounding box信息,然后预测之后每帧图像中目标的状态,对应的也是目标的bounding box信息。

Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

原文链接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Yun_Action-Decision_Networks_for_CVPR_2017_paper.pdf

项目主页:https://sites.google.com/view/cvpr2017-adnet

【摘要】

本文来自韩国首尔国立大学的研究人员。作者创新性地将强化学习与目标跟踪结合起来,讲目标跟踪问题转化为一系列决策行为。提高了跟踪系统的准确率和计算效率。下图是文章核心思想的一个示意图。

预测跟踪目标未来的位置对应为一系列动作决策

【问题】

目前基于卷机神经网络的方法虽然获得了比传统方法更好的性能,但是也面临着以下问题:1)探索感兴趣区域的和选择最佳候选目标的搜索算法比较低效;2)需要大量带标记的视频序列用来训练模型

【解决方法】

提出了一个行为-决策网络(ADNet)结构,在新的一帧图像中,产生一系列动作来找到目标的位置和尺度。

ADNet目的在于学习一个策略来根据当前位置这一状态去选择最优的行为决策去跟踪目标。这个策略网络是一个深度卷积神经网络,输入是从前一帧图像中抠出来的图像块,输出包括在下一帧中的决策概率分布。

学习算法包括两部分:监督学习和强化学习。监督学习部分:使用从训练视频集提取的样本来训练网络。这一过程没有序列信息。强化学习部分:将监督学习得到的网络作为初始值,使用跟踪序列(采样状态、决策行为和奖励信号)来训练策略网络。

技术路线示意图

【结果分析】

● 优势:

❖ 不需要bounding box regression等后处理操作

❖ 计算高效:和state-of-the-art方法MDNet和C-COT方法相比,在准确率和成功率接近的情况下,标准算法版本要快要比两种方法快3倍;快速算法版本在降低3%性能的情况下,可以达到15 fps。

● 不足:提出的决策行为对于目标突然大幅度移动和目标比例大幅度改变这两种情况无法很好地适应,跟踪失败。

Tracking by Natural Language Specification

原文链接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Li_Tracking_by_Natural_CVPR_2017_paper.pdf

【摘要】

本文来自荷兰阿姆斯特丹大学的研究者。本文创新性地没有采用目标跟踪传统的给定bounding box的设置方法,而是采用了自然语言描述来指定感兴趣的目标。提出的方法被证明非常有效,并且以往的目标跟踪方法都可以嵌入到这个流程当中。下图是文章方法的结果示意图。

基于自然语言描述目标的视觉跟踪

【问题】

对于跟踪在真实场景的应用中,比如机器人和无人驾驶,使用自然语言来定义“目标”更加自然合理

【解决方法】

和以往做视觉跟踪的基本假设和处理流程不同,没有采用基于bounding box初始的ground truth,而是根据自然语言描述来跟踪目标。

给定视频中的一帧图像和一句自然语言描述来作为查询,目的是跟踪视频中由语言所指定的目标。

【结果分析】

在最常用的目标跟踪数据集OTB100和ImageNet Videos的基础上,为每个视频中的每个目标扩展了一句语言描述。加上ReferIt,在以上三个数据集上进行对比实验。

● 优势:

在目标跟踪中引入了一种创新的人机交互方式,并证明了其有效性。

● 不足:

缺乏和基于bounding box的方法的对比实验

NEXT技术快报:快速扫描学术/技术前沿进展,做出必要的分析归纳,寻找它们在产品中落地的可能性。希望能帮助大家了解前沿,拓宽视野,提高决策效率。

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

WesleyJiang的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

深度学习的快速目标跟踪

第一部分:CPU real-time tracker ? 终极鲁棒的人脸跟踪 关于跟踪,除了鲁棒性 (robust) 和准确性 (accuracy),这个专...

4817
来自专栏机器之心

专栏 | 机器学习实战:Python信用卡欺诈检测

机器之心专栏 公众号:数据先锋(data_pioneer) 作者:唐宇迪 对信用卡交易数据建立检测模型,使用Python库进行预处理与机器学习建模工作,代码通俗...

3698
来自专栏AI科技评论

ICML论文精选:无监督学习的研究和应用

深度学习的类型按照数据是否有标记来区别可以分为三种:监督学习、半监督学习和无监督学习。事实上人类不可能把每件事都手把手的教给AI。无监督学习应该才是未来的趋势。...

35716
来自专栏机器之心

教程 | Kaggle网站流量预测任务第一名解决方案:从模型到代码详解时序预测

3195
来自专栏目标检测和深度学习

目标检测!200fps吗?!

1023
来自专栏机器之心

资源 | 实时评估世界杯球员的正确姿势:FAIR开源DensePose

左图:输入;中图:对应的 DensePose-RCNN 结果;右图:人体分割和 UV 参数化。

900
来自专栏新智元

伯克利:模块化神经网络学习复杂推理(论文下载)

【新智元导读】本文是伯克利人工智能实验室(BAIR)博客发表的第一篇技术博文,详解了神经模块网络(NMN)在复杂推理任务中的作用及其相对其他方法的优势和挑战。 ...

41720
来自专栏AI研习社

复旦大学Ph.D沈志强:用于目标检测的DSOD模型(ICCV 2017) | 分享总结

目标检测作为一个基础的计算机视觉任务,在自动驾驶、视频监控等领域拥有非常广泛的应用前景。目前主流的目标检测方法都严重依赖于在大规模数据集(如ImageNet)上...

2659
来自专栏机器之心

学界 | Facebook 新研究:大批量SGD准确训练ImageNet仅需1小时

选自arXiv 机器之心编译 参与:蒋思源 由于近来互联网数据越来越大,深度学习模型越来越复杂,执行训练的时间也越来长。因此近日 Facebook 提出了一种将...

2927
来自专栏CreateAMind

keras中文文档之:CNN眼中的世界:利用Keras解释CNN的滤波器

912

扫码关注云+社区