Google能以深度学习重建动态人物视频的深度信息

文章来源：企鹅号 - 十轮网科技

Google发布了最新的计算机视觉研究，现在他们能够使用深度学习，良好地推测出一般视频中人物与场景深度信息，而这个深度信息能够进一步应用在合成视频中，产生像是散焦视频，或是加入摇摆镜头等特效。Google提到，之前虽然有其他研究对视频场景深度进行预测，但这项研究是第一个，能够处理摄影机以及物体同时移动的视频。

人类的眼睛与大脑可以从2D投影回推3D世界，即便在多个移动物体的场景，也能够理解物体几何形状的变化以及深度排序（Depth Ordering），而过去在计算机视觉发展的过程，人类以2D图像数据重建3D场景几何结构，试图让计算机也拥有相同的能力，但是在部分的案例上，依然很难取得足够稳定的成果，Google提到，特别是在场景的物体以及摄影机都在移动的时候，计算机特别难以正确计算深度。

因为基于三角测量的3D重建算法前提，同一物体至少要被两个不同的视点观察到，而要满足这样的条件，需要使用摄影机数组，如果只使用单一摄影机拍摄，则需要且只能移动摄影机，并保持其他场景物体静止。不过，无论什么方法，对于场景中移动的物体，现有的算法皆无法良好的处理。

Google最新研究成果的特别之处，在于他们使用深度学习，让模型习得人类的姿势与形状，由模型填补人物区域的深度值，避免进行直接3D三角测量而导致错误的结果，Google表示，这篇论文之所以针对人物研究，是因为人是增强实境与3D图片效果的重要主题。

研究人员使用YouTube上视频，他们找到两千个以手持摄影机，拍摄人类以各种静止姿势，模仿衣服模特儿假人的视频，让模型进行监督式学习，习得人类各种静止的自然姿势，且由于整个场景都是静止的，只有摄影机在移动，因此Google可以取得包括人物在内，整个场景精确的深度信息。

Google提到，要以监督式的方法训练深度模型，需要提供模型场景视频以及精确的深度图（Depth Map），除了要取得自然的人类行为，还要将真实的场景纳入考量，以虚拟建模后渲染，以取得大量训练数据有其困难度，而使用像是Kinect这类RGBD传感器，通常仅限于室内场景，并且该领域还有其他待解决的3D重建挑战，因此Google最终考量，还是使用YouTube视频。

计算训练数据深度信息由两个步骤组成，先找出静态的深度，再算出动态的部分。Google使用运动视差，就能从两个视点观测单一静态物体，以取得深度信息，Google计算了不同时的两个影格像素位移量（2D Optical Flow），而决定该位移量的变量有场景的深度，以及相机的相对位置，而由于相机位置为已知信息，因此模型就能推算出初始的深度图。

而初始的深度图仅包含静止的部分，为了要处理视频中移动的人物，Google会先将初始深度图的人物以遮罩遮掉，作为输入信息的一部分，完整输入回归网络的数据，包含RGB图像、人物遮罩，以及用遮罩处理过的视差深度图，而该回归网络的工作，就是用来修复人物区域的深度值，Google提到，由于人物具有大同小异的形状以及尺寸，因此网络经过样本学习后，就能推测出人物的深度信息。

经过训练之后的模型，可以处理相机与人物随意运动的视频，而找出人物和场景的深度值，就能为视频加入3D感知的特效，像是为视频加入景深，合成散焦特效，也能进一步重置为立体的视频，或是将CG对象放到视频中，而结合不同影格的图像信息，还能做出摇摆摄影机的功能（下图）。

发表于: 2019-05-282019-05-28 22:36:27
原文链接：https://kuaibao.qq.com/s/20190528A0TOCU00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Google能以深度学习重建动态人物视频的深度信息

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐