文章/答案/技术大牛

发布

深度解读苹果Vision Pro交互魔法|眼动追踪|PCCR|G2OM|动态畸变补偿|Varifocal|Tobii

文章来源：企鹅号 - AR圈

引言

在Apple Vision Pro（下文称AVP）推出之前，XR行业对手势与眼动结合的交互方式充满了期待与幻想。在AVP面世后，业者得以真正跳出技术评估阶段，以用户的视角切身体验“交互魔法”的成品性能。

手眼协作是否能成为XR交互的核心模式，这个疑问已经被AVP抢答。对于XR从业们来说，当前的挑战在于如何开发出能够匹敌乃至超越AVP交互体验的产品。为了进一步推动眼动追踪技术在XR行业的应用，本文将从底层、中间层及应用算法等多个维度，深入介绍眼动追踪技术。

底层眼动追踪算法

眼动追踪技术将眼球运动转换为数据流，其中包含瞳孔位置、每只眼睛的注视向量和注视点坐标等信息。从本质上说，这项技术对眼球运动进行解码，并将其转化为可用于广泛应用的洞察或作为一种额外的输入模式。

根据AVP的硬件构成以及苹果公司收购的眼动追踪公司SMI的专利分析，AVP所采用的底层眼动技术很可能是瞳孔中心角膜反射法（PCCR）。这一技术是目前市场上最常见、跨行业并且已经经过长期量产验证的眼动追踪方案。其系统包括一个或多个摄像头、若干光源以及算法，后者通过机器学习和高级图像处理技术，将摄像头捕获的图像转换为数据点。

作为一款面向消费者市场的产品，AVP所整合的眼动方案面临的挑战非常严峻：

人口覆盖率高：AVP目标市场是全球，这意味着其产品的眼动性能要在跨种族、跨性别和跨年龄的人群中保持稳定可靠的使用体验。根据Tobii发布的眼动追踪性能白皮书，要达到基本的消费级产品标准，眼动追踪的人口覆盖率至少需要达到95%，这意味着眼动的性能表现需要确保95%佩戴该产品的用户使用体验良好。而对于一款面向全球市场的消费电子产品，则需达到98%。此外，从AVP只支持官方配套的插入式镜片，以及Meta CTO Bosworth对Quest3未集成眼动追踪的解释可以看出，支持处方眼镜对眼动追踪算法构成了巨大挑战。Bosworth 指出：“值得注意的是，与我们迄今为止的传统光学器件相比，通过我们目前的镜片，即 Pancake 光学器件来实现眼动追踪会带来额外的挑战。苹果已经通过透镜拍摄解决了这个问题，但这就是为什么他们需要插入式镜片并且不支持眼镜，而且这也不适用于所有类型的视力。因此，在这方面有很多权衡取舍。”(更多分析详见XR白皮书，获取方式：关注公众号“Tobii Eyetracking”并回复“XR白皮书”）

眼动应用场景多:从虚拟形象的眼部动态到注视点渲染、UI交互，不同功能对性能的要求和指标各不相同。在PCCR的方案之外，尽管市场上其他的眼动追踪技术方案各具特色，如更高的刷新率、更低的功耗，或更低的硬件成本，但它们普遍面临的问题是性能稳定性不足以支持广泛的应用场景，且缺乏量产化的考验。在XR硬件的有限空间内集成一套眼动追踪硬件模块，如果不能同时满足不同的应用需求，不论其成本高低，都可能成为无法发挥实际价值的鸡肋。

低功耗，低时延。除了空间的限制，XR设备对于功耗的要求极为严苛。在扩大其应用价值的同时，降低功耗才能使更多的XR硬件搭载这项技术。通常来说，基于深度学习的算法对于功耗的需求会数倍于传统计算机视觉。除了算法本身，功耗的高低很大程度上依托于计算平台的处理性能。得到主流计算平台的支持及深度配合是解决功耗问题的关键。

鉴于苹果对技术验证一贯的严谨和严苛，相信未来较长时间内，PCCR依然会是XR硬件眼动方案的主流选择。

中间层眼动追踪算法

要迈向高品质的眼动交互体验，稳定的底层眼动追踪性能仅仅是第一步。

以AVP的眼动交互为例，苹果开发者网站提供了清晰的设计指南，并对眼动交互的用户界面（UI）设计提出了严格的要求。这是因为，眼动追踪技术的表现受限于人眼生理结构的固有限制。眼球的移动主要由六块肌肉控制，这些肌肉的相互作用通过收缩和放松来调节眼球的垂直、水平移动以及角度变换，从而改变视线方向。无论在注视还是扫视状态下，这些肌肉始终维持在微震颤状态，这一生理现象直接反馈在底层眼动技术输出的信号上，导致额外的噪声。

复杂的眼动状态，图源：https://animagraffs.com/human-eye/

因此，为了实现顺畅的眼动交互体验，需要在底层眼动信号和上层UI交互之间引入中间层软件算法。警长体验过Tobii眼动追踪的G2OM（Gaze to Object Mapping）demo，这是一种通过深度学习算法预测注视目标进而选择目标物的中间层软件算法，能在已有的眼动信号性能上提升交互应用层面的准确度。警长推测，AVP采用了同类方案。

以物件选择为例，射线投射是一种常见的选择方式，但其缺点在于难以克服人眼微震颤的生理限制。当目标物超出人眼常用视角（FoV约15°）或目标物间隔过小时，容易误选目标。

射线投射演示，图源：Tobii

一种较为常见的解决办法是加大目标物或者UI图标的碰撞体亦或热区。

注视点碰撞体，加大热区，图源：Tobii

但这种方案的问题在于，如果相近的目标物之间出现热区重叠，容易出现误判。

注视点碰撞体，图源：Tobii

基于Tobii G2OM的中间层软件算法，即使在目标物较小、相邻或角度分布较大的情况下，也能准确预测用户的实际注视意图，正确选中目标物。

Tobii G2OM，图源：Tobii

在处理移动目标物时，使用射线投射和增大热区的方法则变得更加困难。

射线投射和移动，图源：Tobii

当用户看小目标物时，三种不同方式的对比，图源：Tobii

视频：G2OM Demo，图源：Tobii XR Devzone

通过融合中间层软件算法、苹果对眼动UI交互的设计要求，以及通过眼动追踪对于用户交互体验的行为洞察，眼动技术得以为XR用户带来更流畅以及更符合直觉的交互体验。对于AI+XR产品而言，通过眼动追踪准确识别现实或虚拟物体，从而触发AI的信息检索和XR的信息呈现，方能真正实现对现实的增强。

动态畸变补偿

动态畸变补偿（Dynamic Distortion Correction），这是一项在XR行业中鲜少提及但由AVP首次实现的先进技术。与之前基于眼动追踪的功能相比，动态畸变补偿的特别之处在于，它依赖的眼动信号不仅仅是注视点，而是瞳孔在三维空间中的具体位置，即入瞳位置（Entrance Pupil Position）。该信号的目的是为了解决光学镜头畸变产生的扭曲效果及瞳孔游移（Pupil Swim）问题，减轻用户在使用VR设备时可能感受到的恶心和失衡感。

所有透镜均有一定程度的畸变，且畸变效应随着视场角（FoV）的扩大而加剧。XR产品采用的Pancake透镜结构包含一至三片透镜，自然也会引入畸变，因此必须对Pancake引入的畸变进行补偿。补偿策略包括静态畸变补偿、物理补偿，以及动态畸变补偿。

透镜导致的图像畸变，图源：Tobii

方案1、静态畸变补偿

目前的主要解决方案是静态补偿，通过软件技术实现。这种技术假设用户大部分时间都是通过透镜中心观看。

将透镜视为一个黑盒子，如果我们知道进入透镜的信息和行为，就能预测出通过透镜看到的内容。VR设备的设计者利用这一原理来克服静态畸变补偿镜头的自然缺陷，这已成为设备架构的一种标准做法。

为了纠正镜头所产生的畸变，显示器上的图像被预先扭曲。只要头显设备的位置正确，使用户的瞳孔与每个显示面板的中心对齐（见下图），用户就会体验到纠正后的无畸变图像。然而，由于不同的瞳孔位置所导致的畸变不同，如果用户的视线远离中心，先前校正好的图像就不再清晰。

中心和非中心瞳孔位置的光路变化

为了应对几何和波长的分散，图像被预先扭曲并调整颜色

方案2、物理补偿

从最初的厚透镜到菲涅尔透镜，再到Pancake透镜，物理补偿技术经历了多次演变。尽管如此，这些方法并不能完全消除畸变变化引起的不适，瞳孔游移问题仍然存在。

方案3、动态畸变补偿：基于眼动追踪驱动的新型解决方案

为适应头显设备的微小滑动和瞳孔位置变化，需要实时了解瞳孔的确切位置以进行畸变预补偿。这种方法称为动态畸变补偿（Dynamic Distortion Correction）。

Tobii为此引入了一种新的信号——入瞳位置信号，它通过在三维空间中对瞳孔进行低延迟追踪来提供必要的数据，实时纠正每个图像的畸变。瞳孔的三维位置坐标是通过两颗摄像头捕获的图像来计算的，这可能是AVP搭载单目双摄像头的原因之一。

AVP采用了单目双摄像头眼动追踪，图源：苹果

Pancake透镜与瞳孔追踪驱动的动态畸变补偿相结合，为头显制造商提供了一个极佳的平台，创造出光学效果最佳且最稳定的头显设备，并在显示分辨率上实现了“代际跨越”。(更多分析详见XR白皮书，获取方式：关注公众号“Tobii Eyetracking”并回复“XR白皮书”）

如果仅依赖光学设计来改善畸变问题，其成本可能是基于眼动追踪实现动态畸变补偿的数倍。

眼动追踪驱动的

可变焦显示技术

除了AVP上已经实现的眼动功能外，Meta在去年的SIGGRAPH展会上还介绍了一种基于眼动追踪技术的动态畸变补偿和可变焦显示技术（Varifocal Display）。这一技术是由Tobii设计的单目双摄像头眼动模组提供的convergence distance讯号所驱动，在代号为Butterscotch的原型机上实现。

Meta Butterscotch 原型机的搭载了Tobii设计的单目两摄像头模组，图源：uploadvr

在VR体验中，通过每只眼睛独立的视角产生立体视差，从而获得深度感，但这只是大脑判断景深的线索之一。目前市面上的头显设备使用的都是固定焦距镜头，这意味着图像聚焦于一个固定距离。尽管人眼可以对准(converge)虚拟物体，但实际上无法调焦(accommodate)至它们的虚拟距离，这一现象称为辐辏调节冲突(Vergence-Accommodation Conflict, VAC)。该冲突会使近处的虚拟物体看起来模糊，并引起视觉疲劳。

Meta的Butterscotch 变焦原型机采用的方案能够追踪用户当前注视的虚拟目标，并通过机械方式快速调整显示屏的前后位置，根据用户注视的距离动态调整焦点，以彻底解决辐辏调节冲突问题。

Meta原型机的变焦演示，视频源：Meta官方Youtube

写在最后

AVP在眼动追踪技术方面的成功实践，不仅为整个行业树立了新的标杆，也指明了未来的方向。在未来XR产品中搭载眼动追踪技术，已经成为行业共识。然而，在从底层眼动信号到上层应用开发的整个过程中，仍有一段距离。

眼动方案商在完整的XR眼动技术堆栈里全权负责的部分只到讯号接口交付（API）阶段，越往上层对于OEM的投入要求越高。例如系统层面对于眼动交互的设计，以及眼动驱动的注视点渲染、动态畸变补偿和可变焦屏这些功能实现的算法。

XR眼动的完整技术堆栈及对应的参与者的示意，图源：Tobii

即便底层眼动信号表现卓越，如何依据不同应用场景调用相应的眼动信号，并利用人因工程学来理解用户行为，从而设计出完整的应用方案，实现将眼动追踪技术变为“交互魔法”，依然是XR硬件制造商迈向卓越所需走过的最后一公里。

苹果对眼动方案的全栈管控

发表于: 2024-03-072024-03-07 07:50:00
原文链接：https://page.om.qq.com/page/OmCD3yp5VZu6nVERmo1NIh7Q0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

深度解读苹果Vision Pro交互魔法|眼动追踪|PCCR|G2OM|动态畸变补偿|Varifocal|Tobii

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐