首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

学界 | 对抗式协作:一个框架解决多个无监督学习视觉问题

深度学习方法已经在使用大量数据进行监督的计算机视觉问题上取得了优秀成果 [10,17,19]。然而,对许多需要密集连续值输出的视觉问题而言,全面收集真实数据繁琐或不切实际 [6]。本文主要针对以下四个问题:单目深度预测、摄像机运动估计、光流和运动分割。之前的研究已经试着用真实数据 [5] 和合成数据 [4] 通过监督学习解决这些问题。然而在真实数据和合成数据间还是存在现实差距,真实数据不仅有限,而且不准确。例如,一般用 LIDAR 获取的深度真实数据 [6] 是稀疏的。此外,也没有可以提供真实光流数据的传感器,所以所有现有的存有真实图像的数据集都有其局限性或类似 [2,6,12]。运动分割真实数据需要手动标记一张图中所有的像素 [23]。

02

开源 | CVPR2020 人体姿态估计网络,不同于其他基于图像的方法,该方法直接对视频数据进行训练,更关注时间上的变化

人体运动分析是理解行为的基础。虽然在基于单帧图像的三维姿态和形状估计取得了优秀的表现,但是由于缺少用于训练的真值数据,现有的基于视频序列的人体姿态估计仍然无法直接、准确、自然的生成运动视频序列。为了解决该问题,本文提出了VIBE(Video Inference for Body Pose and ShapeEstimation)算法,使用一个大规模的运动捕获视频数据集(AMAS),包含自然场景下未配对的2D标注关键点。本文算法的创新点在于提出了一个对抗框架,使用AMASS数据集区分真实的人体运动,还是由网络回归产生的时间运动序列。定义了一个时间网络框架,在不需要自然场景3D标注数据的情况下,在图像序列上进行对抗训练,并且产生模拟运动的运动视频序列。经过大量的试验分析了运动估计的重要性,并且证明了VIBE算法在具有挑战性的3D姿态估计数据集上具有SOTA的表现。

04
领券