《 NEXT 技术快报》:计算机视觉篇(下)

《 NEXT 技术快报》:计算机视觉篇(上)

Lifting from the Deep: Convolutional 3D Pose Estimation from a Single Image

原文链接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Tome_Lifting_From_the_CVPR_2017_paper.pdf

项目主页:http://www0.cs.ucl.ac.uk/staff/D.Tome/papers/LiftingFromTheDeep.html

结果视频:https://www.youtube.com/watch?v=tKfkGttx0qs

【摘要】

本文来自伦敦大学学院和爱丁堡大学的研究人员。作者提出了一个高效、统一的基于多阶段深度学习的框架来解决单幅图像中2维关节估计和3维姿态估计问题。

【问题】

以往的方法在解决2维关节估计和3维姿态估计问题时,往往是分步骤进行的,第一个过程的结果是第二个过程的输入,这样分步骤会造成信息损失,同时最终的估计结果也并不是最优的。

【解决方法】

提出一个统一的基于多阶段深度学习的框架来解决2维关节估计和3维姿态估计问题。

该框架提出了一个新的CNN架构,可以将基于图像外观特征提取的2D标志点位置信息与用预训练好的3D姿态模型提取的3D几何骨骼信息结合起来统一学习,最终提高2D姿态和3D姿态的估计精度。

基于多阶段深度卷积神经网络的人体姿态估计流程图

【结果分析】

● 优势:在Human3.6M数据集上分别进行2D和3D姿态估计,与当前最好的方法相比,估计准确性分别要高于对比方法。

● 不足:计算效率上还打不到实时。

● 手势(hand)

3D Convolutional Neural Networks for Efficient and Robust Hand Pose Estimation from Single Depth Images

原文链接:https://eeeweba.ntu.edu.sg/computervision/Research%20Papers/2017/3D%20Convolutional%20Neural%20Networks%20for%20Efficient%20and%20Robust%20Hand%20Pose%20Estimation%20from%20Single%20Depth%20Images.pdf

项目主页:https://sites.google.com/site/geliuhaontu/home/cvpr2017

【摘要】

本文来自新加坡南洋理工大学和新加坡A*Star 高性能计算研究所。作者提出了一种简单有效、实时的手部姿态估计的方法。对于深度图像利用一种三维数据体的表示方法,并有效利用数据的空间结构信息,提升算法性能。

【问题】

● 由2维CNN提取的基于图像的特征由于缺少3D空间信息,并不完全适用于3D手部姿态估计。

● 多视图CNN仍然无法完全充分利用深度图像中的3D空间信息

【解决方法】

从深度图像分割出手的部分,提取手的3D点云并编码为3维数据体,这一个数据作为3维CNN的输入,输出为一组手在3维数据体中的关节相对位置。最后利用简单的坐标变换来获得手在相机系统下的关节位置。

方法整体流程图

【结果分析】

● 优势:

❖ 在MSRA和NYU数据集上进行实验,并与当前最好的方法——层次回归方法——进行比较。当误差阈值维10mm时,提出的方法要由于当前最好方法。实验环境为2块CPU:Intel Core i7 5930K 3.50GHz, 64GB RAM,GPU:NvidiaQuadro K5200

❖ 实时运行,超过215fps

❖ 对于手部尺寸变化和整体方向变化比较鲁棒

Crossing Nets: Combining GANs and VAEs With a Shared Latent Space for Hand Pose Estimation

原文链接:https://arxiv.org/pdf/1702.03431.pdf

结果链接:https://www.youtube.com/watch?v=oumCArDjC7w

【摘要】

文章由瑞士苏黎世联邦理工学院、波恩大学和荷兰语天主教鲁汶大学的研究人员共同发表在CVPR2017上。作者创新性地结合了生成式对抗网络和半监督学习,充分利用了没有标签的深度图,从而改进了泛化性能。同时方法具有非常高的计算效率。

【问题】

● 从单一的深度图像估计3D手部姿态需要大量的标注训练数据,成本很高

● 以往基于图像合成的方法得到的结果真实感比较差

【解决方法】

结合生成式对抗网络(GAN)和半监督学习进行结构预测:基于变分自编码器(VAE)估计姿态估计,利用GAN生成高质量深度图用来训练模型,在一个多任务学习的框架下统一处理姿态估计问题。

整体处理流程图

【结果分析】

● 优势:

❖ 在NYU、MSRA和ICVL三个公开数据集上与分别与该数据集的当前2种state-of-the-art 方法进行对比。结果显示提出的方法在估计误差上要优于对比方法。

❖ 更好的泛化性

❖ 对于大视角的姿态变化的估计更加鲁棒

❖ 可以更好地利用无标记的数据

❖ 在CPU上可以达到实时估计

视觉跟踪 (Visual Tracking)

视觉跟踪一般也被称为目标跟踪,就是在连续的视频序列中,建立所要跟踪物体的位置关系,得到物体完整的运动轨迹。具体的,在第一帧图像给定目标的状态,一般是目标的bounding box信息,然后预测之后每帧图像中目标的状态,对应的也是目标的bounding box信息。

Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

原文链接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Yun_Action-Decision_Networks_for_CVPR_2017_paper.pdf

项目主页:https://sites.google.com/view/cvpr2017-adnet

【摘要】

本文来自韩国首尔国立大学的研究人员。作者创新性地将强化学习与目标跟踪结合起来,讲目标跟踪问题转化为一系列决策行为。提高了跟踪系统的准确率和计算效率。下图是文章核心思想的一个示意图。

预测跟踪目标未来的位置对应为一系列动作决策

【问题】

目前基于卷机神经网络的方法虽然获得了比传统方法更好的性能,但是也面临着以下问题:1)探索感兴趣区域的和选择最佳候选目标的搜索算法比较低效;2)需要大量带标记的视频序列用来训练模型

【解决方法】

提出了一个行为-决策网络(ADNet)结构,在新的一帧图像中,产生一系列动作来找到目标的位置和尺度。

ADNet目的在于学习一个策略来根据当前位置这一状态去选择最优的行为决策去跟踪目标。这个策略网络是一个深度卷积神经网络,输入是从前一帧图像中抠出来的图像块,输出包括在下一帧中的决策概率分布。

学习算法包括两部分:监督学习和强化学习。监督学习部分:使用从训练视频集提取的样本来训练网络。这一过程没有序列信息。强化学习部分:将监督学习得到的网络作为初始值,使用跟踪序列(采样状态、决策行为和奖励信号)来训练策略网络。

技术路线示意图

【结果分析】

● 优势:

❖ 不需要bounding box regression等后处理操作

❖ 计算高效:和state-of-the-art方法MDNet和C-COT方法相比,在准确率和成功率接近的情况下,标准算法版本要快要比两种方法快3倍;快速算法版本在降低3%性能的情况下,可以达到15 fps。

● 不足:提出的决策行为对于目标突然大幅度移动和目标比例大幅度改变这两种情况无法很好地适应,跟踪失败。

Tracking by Natural Language Specification

原文链接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Li_Tracking_by_Natural_CVPR_2017_paper.pdf

【摘要】

本文来自荷兰阿姆斯特丹大学的研究者。本文创新性地没有采用目标跟踪传统的给定bounding box的设置方法,而是采用了自然语言描述来指定感兴趣的目标。提出的方法被证明非常有效,并且以往的目标跟踪方法都可以嵌入到这个流程当中。下图是文章方法的结果示意图。

基于自然语言描述目标的视觉跟踪

【问题】

对于跟踪在真实场景的应用中,比如机器人和无人驾驶,使用自然语言来定义“目标”更加自然合理

【解决方法】

和以往做视觉跟踪的基本假设和处理流程不同,没有采用基于bounding box初始的ground truth,而是根据自然语言描述来跟踪目标。

给定视频中的一帧图像和一句自然语言描述来作为查询,目的是跟踪视频中由语言所指定的目标。

【结果分析】

在最常用的目标跟踪数据集OTB100和ImageNet Videos的基础上,为每个视频中的每个目标扩展了一句语言描述。加上ReferIt,在以上三个数据集上进行对比实验。

● 优势:

在目标跟踪中引入了一种创新的人机交互方式,并证明了其有效性。

● 不足:

缺乏和基于bounding box的方法的对比实验

NEXT技术快报:快速扫描学术/技术前沿进展,做出必要的分析归纳,寻找它们在产品中落地的可能性。希望能帮助大家了解前沿,拓宽视野,提高决策效率。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

WesleyJiang的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯高校合作

ICML 2018 | 腾讯AI Lab详解16篇入选论文

1852
来自专栏CreateAMind

重磅 | 开发能够"想象"与"推理"的机器 -深度学习暑期班 ppt及视频

1041
来自专栏机器之心

人人都能读懂的无监督学习:什么是聚类和降维?

选自Medium 作者:Vishal Maini 机器之心编译 参与:Panda 机器学习已经成为了改变时代的大事,一时间似乎人人都应该懂一点机器学习。但机器学...

30510
来自专栏AI科技大本营的专栏

迁移学习到底是什么?让我们来解读一下杨强、Bengio和龙盛明的论文

作者 | 王晋东不在家 《小王爱迁移》之一:迁移成分分析(TCA)方法简介 之前整理总结迁移学习资料的时候有网友评论,大意就是现在的类似资料大全的东西...

1.3K5
来自专栏AI科技大本营的专栏

ECCV 2018|商汤37篇论文入选,为你解读精选论文(附链接+开源资源)

【导读】9 月 8 日-14 日,每两年举办一次的 2018 欧洲计算机视觉大会(ECCV 2018)在德国慕尼黑召开,本次会议总共收到了 2439 篇有效的论...

3055
来自专栏CSDN技术头条

如何选择机器学习算法

如何针对某个分类问题决定使用何种机器学习算法?当然,如果你真心在乎准确率,最好的途径就是测试一大堆各式各样的算法(同时确保在每个算法上也测试不同的参数),最后选...

18510
来自专栏AI科技评论

学界 | 谷歌最强 NLP 模型 BERT 解读

AI 科技评论按:本文是追一科技潘晟锋基于谷歌论文为 AI 科技评论提供的解读稿件。

1032
来自专栏CreateAMind

Sensorimotor Robot Policy Training using RL(ref163篇 90页) 笔记 超长

1234
来自专栏IT派

深度学习调参入门之小技巧

导语:按照惯例,主推文只能推送内容相关的东西,但是今天同日推文里有一个很有趣的文章,大家有兴趣的不妨移步去一探究竟! AI科技评论按:作者杨军,从事大规模机器学...

2793
来自专栏大数据文摘

Kaggle大赛:债务违约预测冠军作品解析

3703

扫码关注云+社区