前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >从人类理解的角度解读HoloLens

从人类理解的角度解读HoloLens

作者头像
用户1324186
发布2020-07-02 15:32:01
4200
发布2020-07-02 15:32:01
举报
文章被收录于专栏:媒矿工厂

本文来自Fourth Workshop on ComputerVision for AR/VR的一篇演讲,演讲者是微软科学合作伙伴总监Jamie Shotton,他主要从人类理解的角度,介绍了微软的混合现实设备HoloLens中使用到的相关技术。

Jamie首先介绍了微软开发的混合现实设备HoloLens,其第二代产品HoloLens 2包含了头部、手部、眼部追踪相机,激光扫描显示器,嵌入式计算处理器等诸多硬件,拥有更强的沉浸感、更舒适的佩戴和上手体验,已经在一些医院里得到了应用。HoloLens的功能与人类理解与表征 (human understanding and representation)息息相关,Jamie从三个主题对其进行了探究,分别是本能互动 (instinctualinteraction)、合成数据(synthetic data)以及神经渲染 (neuralrendering)。

为了实现互动,HoloLens中集成了手部关节追踪技术,该技术可以准确地追踪到穿戴者手部关节的运动,从而实现多样化且精准的交互。这项技术面临着许多挑战,手部会呈现多种多样的姿态、自遮挡、全局的3D旋转以及系统的帧率和延时。早期的算法需要大量的计算资源和成本,而Jamie团队16年发表的论文极大地提升了算法的运行效率,这一提升主要依托于:1) 其使用了平滑细分的表面表征,从而减少了局部极小值;2) 对姿态和对应性进行联合优化,大大提高了收敛速度。算法的整体思路是先提取出手部附近的感兴趣区域,以上一帧的结果作为初始点,基于能量进行模型的拟合,同时使用机器学习找到另一个初始点同样进行优化,比较得到的局部极值,选择更好的一个作为该帧的结果。为了将该算法真正应用到产品中,需要考虑到更多的因素,Jamie团队通过使用更高效的表面模型、基于深度学习的加速器等技术,在提升准确性和鲁棒性的同时提升了算法的速度。

另一个HoloLens中使用的关键技术是眼部追踪,其可以提供凝视向量、水平位置(瞳孔间距)、竖直位置。该技术同样使用混合模型拟合的框架:通过相机捕捉到眼部区域后,利用深度学习去提取特征,得到眼部模型后,对基于能量的模型进行拟合,获得最终的结果。

接下来Jamie对合成数据进行了相关阐述,相比于真实数据其具有以下三个优点:1) 更容易控制数据,提升多样性同时减小bias;2) 更高质量的标注;3) 可以实现对相机的控制。为了提升合成数据的多样性、丰富性以及真实程度,Jamie介绍了这些年来其团队的一些工作,包括合成虚拟的不同大小和姿态的人体,通过参数化的3D手部模型合成逼真的手部,渲染多样化的人脸并且模型能够很好地泛化到真实的人脸上。

最后,Jamie简要地介绍了神经渲染技术,包括他们近期的一项工作,其基于编解码器的结构,通过让真实人脸和虚拟人脸共享一个隐空间,实现对人脸的各种控制,包括姿态、表情、光照、头发等等。

附上演讲视频:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-06-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档