《 NEXT 技术快报》:计算机视觉篇(下)

《 NEXT 技术快报》:计算机视觉篇(上)

Lifting from the Deep: Convolutional 3D Pose Estimation from a Single Image

原文链接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Tome_Lifting_From_the_CVPR_2017_paper.pdf

项目主页:http://www0.cs.ucl.ac.uk/staff/D.Tome/papers/LiftingFromTheDeep.html

结果视频:https://www.youtube.com/watch?v=tKfkGttx0qs

【摘要】

本文来自伦敦大学学院和爱丁堡大学的研究人员。作者提出了一个高效、统一的基于多阶段深度学习的框架来解决单幅图像中2维关节估计和3维姿态估计问题。

【问题】

以往的方法在解决2维关节估计和3维姿态估计问题时,往往是分步骤进行的,第一个过程的结果是第二个过程的输入,这样分步骤会造成信息损失,同时最终的估计结果也并不是最优的。

【解决方法】

提出一个统一的基于多阶段深度学习的框架来解决2维关节估计和3维姿态估计问题。

该框架提出了一个新的CNN架构,可以将基于图像外观特征提取的2D标志点位置信息与用预训练好的3D姿态模型提取的3D几何骨骼信息结合起来统一学习,最终提高2D姿态和3D姿态的估计精度。

基于多阶段深度卷积神经网络的人体姿态估计流程图

【结果分析】

● 优势:在Human3.6M数据集上分别进行2D和3D姿态估计,与当前最好的方法相比,估计准确性分别要高于对比方法。

● 不足:计算效率上还打不到实时。

● 手势(hand)

3D Convolutional Neural Networks for Efficient and Robust Hand Pose Estimation from Single Depth Images

原文链接:https://eeeweba.ntu.edu.sg/computervision/Research%20Papers/2017/3D%20Convolutional%20Neural%20Networks%20for%20Efficient%20and%20Robust%20Hand%20Pose%20Estimation%20from%20Single%20Depth%20Images.pdf

项目主页:https://sites.google.com/site/geliuhaontu/home/cvpr2017

【摘要】

本文来自新加坡南洋理工大学和新加坡A*Star 高性能计算研究所。作者提出了一种简单有效、实时的手部姿态估计的方法。对于深度图像利用一种三维数据体的表示方法,并有效利用数据的空间结构信息,提升算法性能。

【问题】

● 由2维CNN提取的基于图像的特征由于缺少3D空间信息,并不完全适用于3D手部姿态估计。

● 多视图CNN仍然无法完全充分利用深度图像中的3D空间信息

【解决方法】

从深度图像分割出手的部分,提取手的3D点云并编码为3维数据体,这一个数据作为3维CNN的输入,输出为一组手在3维数据体中的关节相对位置。最后利用简单的坐标变换来获得手在相机系统下的关节位置。

方法整体流程图

【结果分析】

● 优势:

❖ 在MSRA和NYU数据集上进行实验,并与当前最好的方法——层次回归方法——进行比较。当误差阈值维10mm时,提出的方法要由于当前最好方法。实验环境为2块CPU:Intel Core i7 5930K 3.50GHz, 64GB RAM,GPU:NvidiaQuadro K5200

❖ 实时运行,超过215fps

❖ 对于手部尺寸变化和整体方向变化比较鲁棒

Crossing Nets: Combining GANs and VAEs With a Shared Latent Space for Hand Pose Estimation

原文链接:https://arxiv.org/pdf/1702.03431.pdf

结果链接:https://www.youtube.com/watch?v=oumCArDjC7w

【摘要】

文章由瑞士苏黎世联邦理工学院、波恩大学和荷兰语天主教鲁汶大学的研究人员共同发表在CVPR2017上。作者创新性地结合了生成式对抗网络和半监督学习,充分利用了没有标签的深度图,从而改进了泛化性能。同时方法具有非常高的计算效率。

【问题】

● 从单一的深度图像估计3D手部姿态需要大量的标注训练数据,成本很高

● 以往基于图像合成的方法得到的结果真实感比较差

【解决方法】

结合生成式对抗网络(GAN)和半监督学习进行结构预测:基于变分自编码器(VAE)估计姿态估计,利用GAN生成高质量深度图用来训练模型,在一个多任务学习的框架下统一处理姿态估计问题。

整体处理流程图

【结果分析】

● 优势:

❖ 在NYU、MSRA和ICVL三个公开数据集上与分别与该数据集的当前2种state-of-the-art 方法进行对比。结果显示提出的方法在估计误差上要优于对比方法。

❖ 更好的泛化性

❖ 对于大视角的姿态变化的估计更加鲁棒

❖ 可以更好地利用无标记的数据

❖ 在CPU上可以达到实时估计

视觉跟踪 (Visual Tracking)

视觉跟踪一般也被称为目标跟踪,就是在连续的视频序列中,建立所要跟踪物体的位置关系,得到物体完整的运动轨迹。具体的,在第一帧图像给定目标的状态,一般是目标的bounding box信息,然后预测之后每帧图像中目标的状态,对应的也是目标的bounding box信息。

Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

原文链接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Yun_Action-Decision_Networks_for_CVPR_2017_paper.pdf

项目主页:https://sites.google.com/view/cvpr2017-adnet

【摘要】

本文来自韩国首尔国立大学的研究人员。作者创新性地将强化学习与目标跟踪结合起来,讲目标跟踪问题转化为一系列决策行为。提高了跟踪系统的准确率和计算效率。下图是文章核心思想的一个示意图。

预测跟踪目标未来的位置对应为一系列动作决策

【问题】

目前基于卷机神经网络的方法虽然获得了比传统方法更好的性能,但是也面临着以下问题:1)探索感兴趣区域的和选择最佳候选目标的搜索算法比较低效;2)需要大量带标记的视频序列用来训练模型

【解决方法】

提出了一个行为-决策网络(ADNet)结构,在新的一帧图像中,产生一系列动作来找到目标的位置和尺度。

ADNet目的在于学习一个策略来根据当前位置这一状态去选择最优的行为决策去跟踪目标。这个策略网络是一个深度卷积神经网络,输入是从前一帧图像中抠出来的图像块,输出包括在下一帧中的决策概率分布。

学习算法包括两部分:监督学习和强化学习。监督学习部分:使用从训练视频集提取的样本来训练网络。这一过程没有序列信息。强化学习部分:将监督学习得到的网络作为初始值,使用跟踪序列(采样状态、决策行为和奖励信号)来训练策略网络。

技术路线示意图

【结果分析】

● 优势:

❖ 不需要bounding box regression等后处理操作

❖ 计算高效:和state-of-the-art方法MDNet和C-COT方法相比,在准确率和成功率接近的情况下,标准算法版本要快要比两种方法快3倍;快速算法版本在降低3%性能的情况下,可以达到15 fps。

● 不足:提出的决策行为对于目标突然大幅度移动和目标比例大幅度改变这两种情况无法很好地适应,跟踪失败。

Tracking by Natural Language Specification

原文链接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Li_Tracking_by_Natural_CVPR_2017_paper.pdf

【摘要】

本文来自荷兰阿姆斯特丹大学的研究者。本文创新性地没有采用目标跟踪传统的给定bounding box的设置方法,而是采用了自然语言描述来指定感兴趣的目标。提出的方法被证明非常有效,并且以往的目标跟踪方法都可以嵌入到这个流程当中。下图是文章方法的结果示意图。

基于自然语言描述目标的视觉跟踪

【问题】

对于跟踪在真实场景的应用中,比如机器人和无人驾驶,使用自然语言来定义“目标”更加自然合理

【解决方法】

和以往做视觉跟踪的基本假设和处理流程不同,没有采用基于bounding box初始的ground truth,而是根据自然语言描述来跟踪目标。

给定视频中的一帧图像和一句自然语言描述来作为查询,目的是跟踪视频中由语言所指定的目标。

【结果分析】

在最常用的目标跟踪数据集OTB100和ImageNet Videos的基础上,为每个视频中的每个目标扩展了一句语言描述。加上ReferIt,在以上三个数据集上进行对比实验。

● 优势:

在目标跟踪中引入了一种创新的人机交互方式,并证明了其有效性。

● 不足:

缺乏和基于bounding box的方法的对比实验

NEXT技术快报:快速扫描学术/技术前沿进展,做出必要的分析归纳,寻找它们在产品中落地的可能性。希望能帮助大家了解前沿,拓宽视野,提高决策效率。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

WesleyJiang的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SIGAI学习与实践平台

人脸识别算法演化史

本文为人脸识别算法系列专题的综述文章,人脸识别是一个被广泛研究着的热门问题,大量的研究论文层出不穷,文中我们将为大家总结近些年出现的具有代表性的人脸识别算法。请...

1193
来自专栏目标检测和深度学习

CVPR 2018 | 哈工大提出STRCF:克服遮挡和大幅形变的实时视觉追踪算法

选自arXiv 作者:Feng Li等 机器之心编译 参与:Nurhachu Null、刘晓坤 视觉追踪在多样本的历史追踪结果中学习时,可能遭遇过拟合问题,并在...

3328
来自专栏AI研习社

教程 | Hinton 机器学习视频中文版:ANN的MNIST学习范例(1.4)

本套课程中,Hinton 重点介绍了人工神经网络在语音识别和物体识别、图像分割、建模语言和人类运动等过程中的应用,及其在机器学习中发挥的作用。与吴恩达的《Mac...

3448
来自专栏AI科技评论

大会 | 腾讯优图CVPR 2018论文:图片去模糊及快速肖像处理等多项技术解读

AI 科技评论按:CVPR 2018 将在美国盐湖城举行。腾讯优图实验室继在 ICCV 有 12 篇论文被收录(含 3 篇口头报告)后,在今年的 CVPR 20...

1192
来自专栏灯塔大数据

塔荐 | 关于GAN原理与应用的入门介绍

导读:生成对抗网络(GAN)是一类在无监督学习中使用的神经网络,其有助于解决按文本生成图像、提高图片分辨率、药物匹配、检索特定模式的图片等任务。Statsbot...

3534
来自专栏机器学习、深度学习

人车密度估计--Towards perspective-free object counting with deep learning

Towards perspective-free object counting with deep learning ECCV2016 https:...

21910
来自专栏华章科技

计算机视觉这一年:这是最全的一份CV技术报告

The M Tank 编辑了一份报告《A Year in Computer Vision》,记录了 2016 至 2017 年计算机视觉领域的研究成果,对开发者...

551
来自专栏机器之心

深入浅出:GAN原理与应用入门介绍

选自StatsBot 作者:Anton Karazeev 机器之心编译 参与:乾树、黄小天 生成对抗网络(GAN)是一类在无监督学习中使用的神经网络,其有助于解...

2966
来自专栏人工智能

计算机视觉这一年:这是最全的一份CV技术报告

The M Tank 编辑了一份报告《A Year in Computer Vision》,记录了 2016 至 2017 年计算机视觉领域的研究成果,对开发者...

2805
来自专栏新智元

【ICCV 目标跟踪性能最优】首个应用残差学习的深度目标跟踪算法

【新智元导读】不同于在目标检测和识别等领域取得的丰硕成果,深度学习在目标跟踪领域进展相对缓慢,很大原因是缺乏数据——目标跟踪只有第一帧的标定框作为训练数据,在这...

3307

扫码关注云+社区