本文来自Fourth Workshop on ComputerVision for AR/VR的一篇演讲,演讲者是微软科学合作伙伴总监Jamie Shotton,他主要从人类理解的角度,介绍了微软的混合现实设备HoloLens中使用到的相关技术。
Jamie首先介绍了微软开发的混合现实设备HoloLens,其第二代产品HoloLens 2包含了头部、手部、眼部追踪相机,激光扫描显示器,嵌入式计算处理器等诸多硬件,拥有更强的沉浸感、更舒适的佩戴和上手体验,已经在一些医院里得到了应用。HoloLens的功能与人类理解与表征 (human understanding and representation)息息相关,Jamie从三个主题对其进行了探究,分别是本能互动 (instinctualinteraction)、合成数据(synthetic data)以及神经渲染 (neuralrendering)。
为了实现互动,HoloLens中集成了手部关节追踪技术,该技术可以准确地追踪到穿戴者手部关节的运动,从而实现多样化且精准的交互。这项技术面临着许多挑战,手部会呈现多种多样的姿态、自遮挡、全局的3D旋转以及系统的帧率和延时。早期的算法需要大量的计算资源和成本,而Jamie团队16年发表的论文极大地提升了算法的运行效率,这一提升主要依托于:1) 其使用了平滑细分的表面表征,从而减少了局部极小值;2) 对姿态和对应性进行联合优化,大大提高了收敛速度。算法的整体思路是先提取出手部附近的感兴趣区域,以上一帧的结果作为初始点,基于能量进行模型的拟合,同时使用机器学习找到另一个初始点同样进行优化,比较得到的局部极值,选择更好的一个作为该帧的结果。为了将该算法真正应用到产品中,需要考虑到更多的因素,Jamie团队通过使用更高效的表面模型、基于深度学习的加速器等技术,在提升准确性和鲁棒性的同时提升了算法的速度。
另一个HoloLens中使用的关键技术是眼部追踪,其可以提供凝视向量、水平位置(瞳孔间距)、竖直位置。该技术同样使用混合模型拟合的框架:通过相机捕捉到眼部区域后,利用深度学习去提取特征,得到眼部模型后,对基于能量的模型进行拟合,获得最终的结果。
接下来Jamie对合成数据进行了相关阐述,相比于真实数据其具有以下三个优点:1) 更容易控制数据,提升多样性同时减小bias;2) 更高质量的标注;3) 可以实现对相机的控制。为了提升合成数据的多样性、丰富性以及真实程度,Jamie介绍了这些年来其团队的一些工作,包括合成虚拟的不同大小和姿态的人体,通过参数化的3D手部模型合成逼真的手部,渲染多样化的人脸并且模型能够很好地泛化到真实的人脸上。
最后,Jamie简要地介绍了神经渲染技术,包括他们近期的一项工作,其基于编解码器的结构,通过让真实人脸和虚拟人脸共享一个隐空间,实现对人脸的各种控制,包括姿态、表情、光照、头发等等。
附上演讲视频: