前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >什么是真实感渲染(四): 前沿趋势之VR&AR

什么是真实感渲染(四): 前沿趋势之VR&AR

作者头像
Peter Lu
发布2022-05-17 12:09:36
8260
发布2022-05-17 12:09:36
举报
文章被收录于专栏:LETLET

2021年,元宇宙火了一把,微软推出了自己的元宇宙技术栈,Facebook直接改名Meta,全面拥抱元宇宙。电影头号玩家,失控玩家也让大家直观感受到虚拟现实,增强现实,混合现实这些技术对未来生活的影响。本篇则针对VR、AR相关的内容,给出个人的一点理解。先坦白,我之前对这块知之甚少,本文主要参考了GAMES中的VR专题。所以,这篇文章也可以算是我对VR专题的Review。

首先是具体的概念,虚拟现实VR,比如Occlus类的头显,这类头显相比传统屏幕提供更好的视觉体验,但所有内容都来自数字世界;增强现实AR,比如HoleLens和智能眼镜等设备,这时我们会将数字化的内容映射到物理世界中,为我们提供一定的推荐和决策辅助。混合现实MR则是VR+AR,我们可以将物理世界的内容投射到数字世界中进行模拟,实现了两者之间的相互作用,比如电影失控玩家中描述的情节。通常,我们会把VR、AR以及MR统称为XR

之前我简单的认为这类XR应用不过是传统的渲染技术+新的设备环境,这个认知过于简单。XR应用通常涵盖多种技术形成一个方案,这些技术大概可以分为3D重建实时渲染以及导航三大模块。

3D重建

上图游戏中,皮卡丘和草地间存在一种数字空间和物理空间的转换,该转换关系由一个矩阵实现,《坐标系与矩阵(7): 相机校正》有专门介绍。

电影’王牌特工’中的虚拟会议在本质上也是同样的技术,当我们戴上眼镜,则能看到不同空间的人共聚一堂,这个眼镜将不同空间的人,通过各自的矩阵转换到共同的虚拟场景中,完成了一个虚拟场景的重建。其原理如下图所示

VirtualCube

当然,这种重建只是简单的复制,缺少空间之间的语义理解。比如我们可以实现皮卡丘在草地上踢球,跳舞,但这些动作都是预先设置好的,皮卡丘并不知道它是在什么背景下做这些东西;在王牌特工这个虚拟会议场景下,我们也只是像素级别的将不同空间的物体映射到一个全局空间而已,我们不知道具体的物体分类,也无法解决不同角度的遮盖问题。所以,我们还需要go deeper。

‘ARAnimator’

ARAnimator这篇论文的思路是利用手机的定位和陀螺仪来模拟运动的轨迹和姿态,人用手机一顿操作后,数字模型则可以基于采集的信息进行对应的动画模拟,既然空间信息不容易识别,那我们就人肉。

‘Learning to Reconstruct 3D Manhattan Wireframes from a Single Image’

另一个方向则需要借助深度学习和视觉,提取轮廓(特征值),这样,我们将2D的像素信息重建为3D空间的信息,解决遮盖等难题,很好的实现了不同角度下还原地物的能力。最近热门的NeRF则是通过多张图片的方式来解决重建问题,这里不深入展开NeRF的话题。

‘Single Depth View Based Real-Time Reconstruction of Hand-Object Interactions’

同理,借助深度学习,我们可以基于具体的场景,通过定制化的约束条件、目标函数来进行更准确的语义分割。如上图,实现人手和瓶子之间的几何重建。

实时渲染

3D重建技术的不断增强,我们可以高效地将物体的空间,语义等信息数字化,实现数字世界和物理世界之间的相互转换。同时,随着新的XR技术,用户的视觉体验也得到了极大的提升。对于VR头显,左右眼对应不同的影像,这种视差会产生更好的立体感,同时,VR的视觉范围是整个球体(720°),提供了更好的沉浸感。

但这些优势也带来了挑战:左右眼需要基于不同的视角渲染,每一帧需要更高的fps,以及更大范围的视角。简单的事情渲染领域早就做的差不多了,在这些方面投入精力不一定会有重大的突破。

于是,在XR领域,人们对渲染的优化往往基于人眼的视觉感知。我们先科普一下人眼的一些特性。

wiki

上图,当人眼注视某一个焦点时,越靠近中心,人眼感知的分辨率越高。如何获取人眼的焦点,也成为了一项关键技术,eye-tracking。比如静态场景,动态场景,以及基于任务的场景,不同的环境下,可以采用不同的策略,更准确的获取人眼的焦点。这样,我们可以让渲染结果的分辨率和人眼的焦点相关,提供了一种基于凝视点的渲染优化,如下图。

图片来自tobii网站

另外一个则是我们的前庭系统,负责平衡,当我们人眼接收到的信息和前庭系统的感知不匹配时,则会产生很多不适的感觉。比如晕车现象。当我们在头显中遇到高速运动的场景,而我们身体仍处在静止状态,这种瞬间的反差会很不舒服,刷新的帧率也达不到平时的效果,积累久了也会让我们不舒服,出现晕倒,呕吐等现象。

最后还有两个有意思的现象,一个是人眼的扫视(saccade),当我们来到一个新的环境时,眼部肌肉会不自觉的快速运动,控制人眼快速扫描,在这个过程中,人眼会快速获取整个场景的内容,但内容的分辨率则会降低。另一个则是人眼的偏好(eye dominance),人的左右眼其实和手一样,一只眼(手)是主视眼,比如右手,另一只眼(手)并不常用,这样,我们降低某一只眼镜的视觉效果时,人脑并不会感觉到这种变化。

图片来自GAMES 198期 ‘3D-Kernel Foveated Rendering for Light Fields’

凝视点渲染的思路是将像素的分布来模拟人眼视觉细胞的分布,从而实现符合人眼感知的自定义分辨率。

Log-polar mapping

如上图,半径间隔相同的圆环,采用Log-polar的映射关系,靠近圆心的面积占比越大,反之越小。栅格化中可以直接采用这种思路来模拟 人眼的这种分布特性。如下图,我们调节σ值,越大则在边缘的分辨率越低,fovea区域的分辨率几乎没变化,而边缘处随着σ变大而逐步模糊。我们也可以采用类似的思路来调整实时光线追踪中每个像素的采样数。

3D-Kernel Foveated Rendering for Light Fields

除了foveated rendering之外,云渲染也是虚拟场景下的一种解决方案,但这个主要是优化传输层。比如当虚拟会议中每增加一个角色,是否每个人的下行传输量都变大?如果每个角色都根据自身的viewport来确定当前帧的数据量,优点是即便虚拟会议中来了100个人,只要不在我的视线范围内,都不会增加下行传输的数据量,缺点是这种判断会增大低延迟的难度。反之,如果是云渲染,不同角色的视角不同,渲染的计算量则会增大,但不需要将场景的数据传输给每个终端。因此,不同的策略,以及数据之间的传输优化,是云渲染架构中需要考虑的问题。

交互式与导航

在虚拟场景中,HCI人机交互会直接影响XR的用户体验。比如一个近距离的物体和远距离物体的拾取操作就会有所不同,而多人交互操作同一个物体时,则需要根据一定的规则来确定谁来主导,比如一个有经验的医生,或者视线范围更佳,或者距离目标位置更近的人选等。

图片来自GAMES 218期 ‘Robust Tightly-Coupled Visual-Inertial Odometry with Pre-built Maps in High Latency Situations’

Navigation也是XR应用中一个重要环节,比如结合高精地图下的VIO的轨迹模拟,则在精度和平滑度上都有较高的质量,可以应用在AR导航中。

‘Towards Virtual Reality Infinite Walking: Dynamic Saccadic Redirection’

另一个有意思的导航场景是我们在一个小范围内分享较大空间的浏览效果。如上图,橙色是用户感知的路线图,而蓝色是用户实际的路线图,很明显,我们节省了很多空间。这里,利用的是眼镜的扫视原理,在扫视阶段调整焦点,让你实际行走的路线产生弯曲,但感知上还是直线。

最后,在虚拟场景中的混音效果,比如一个人发出声音,在全局场景下如何模拟该声音的方向感,从而逼真的还原场景,也是一个很有意思的挑战。

总结

本篇主要介绍了VR,AR方面的前沿技术,这些领域不仅仅限于渲染的真实感,而是包括视觉,听觉,触觉等全方位的体验,从而达到更高的沉浸感。这种需求推动了传统技术的进一步提高,以及跨学科和学术与工业界更紧密的联系。

其次,这些技术领域都不同程度地采用了AI技术,AI是未来技术的代表,可以说,未来的渲染是CG+XR+AI的综合应用。

最后,人眼中有两类细胞,视锥细胞(Cone)和视杆细胞(Rod),Cone数量很少,集中在中心区域,随着偏心角的增大而急剧减少,Cone能感受到R,G,B三种光谱,所以让我们感受到了颜色;Rod恰恰相反,数量较多,但中心区域稀少,在某个偏心角度下急剧增大,然后逐步减少,Rod能感知光线的强弱,这也是为何在夜晚我们能分别明暗但无法识别颜色的原因。所以,当我戴上VR头盔,把所有目光放在你身上时,你是彩色的,世界是灰色的,我是真诚的,头盔是假冒的。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-04-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 LET 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 3D重建
  • 同理,借助深度学习,我们可以基于具体的场景,通过定制化的约束条件、目标函数来进行更准确的语义分割。如上图,实现人手和瓶子之间的几何重建。
  • 实时渲染
  • 交互式与导航
  • 总结
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档