首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AR设备的交互方式

我们已经看过很多关于AR的未来美好展望的文章,图片,视频;这些东西基本上都包含了同一种场景:在一个现实的世界中,角色佩戴着AR头显,虚拟信息环绕在他的周围,他点头微笑。这固然是我们对未来AR设备真正普及之后的畅想,但是这些宣传材料往往都有意或无意的忽略了一个基本问题:人类如何与这个增强的现实进行交互?

目前的业界的共识,是两个交互路径:裸手操作和语音控制。主要的理由在于在未来的实际场景中,AR头显作为一个移动设备,使用一个额外的控制设备会显得比较奇怪;而手势操作和语音控制都不涉及到额外的控制器。但我认为,在未来真正成熟的,面向大众市场的AR设备,这两者都不是合理的交互方式。下面我们来分析一下。

裸手操作在AR业界已经有相当多公司作为主要的技术方向;这其中当然包括Leap Motion,实际上几乎所有关于计算机视觉的研发方向都包括手势跟踪和面部跟踪。但是,在AR交互上的裸手操作实际上是分为两个不同的部分;而这两个部分经常会被人混为一谈。

第一个部分,是手势跟踪。通过计算机视觉的方式精确的追踪用户的双手位置和手部的姿态。反应到交互上,就是说,用户如何在不用佩戴任何设备的情况下,将手作为控制器来使用,比方说去直接空手点击一个在空间中的虚拟对象。这当然是很困难的:需要计算机视觉建立起对于用户手部姿态的空间重建,并且判断手的位置(比方说手指)是否与渲染出来的虚拟对象有接触,然后触发相应的动作。

第二个部分,是对于手势的理解。这需要计算机在手势跟踪的基础上,理解用户的动作的含义:比方说用手掌往左右拨就是左右翻页;或者HoloLens中,OK手势用拇指和食指接触就是确定。

第一个部分中,技术上限制最大的是精度。比方说我要做到“使用食指点击虚拟对象”这一条,那么就意味着,计算机视觉要对食指有非常精确的追踪,才能够判断出这个接触是否成立;如果精度不够,那么误操作就是非常自然的:有的时候在没有接触的情况下已经做了操作,有的时候在接触之后还没有做过操作。这就会带来一个最基本的问题:反馈的缺失。除非我们能够达到最理想情况下的追踪精度(这种精度不是不可能达到的,而是非常非常困难),那么对于用户来说,他很难感受到他的操作能带来的反馈——这种反馈在以往的屏幕操作上是非常基本的:比方说按钮的按下,键盘的敲击,确实点击到了屏幕和之后会带来的震动/声音/动画——而没有反馈的交互的体验是非常糟糕的,没有明确的反馈就会让用户无法通过学习来适应交互手段。这在我之前的文章《为什么裸手交互是伪需求》中已经阐述过了:有效交互的核心就是反馈。

第二个部分,其技术难度甚至还要高于第一个部分:手势追踪是要让计算机“看到”用户的手势,而手势理解则是要让计算机“看懂”用户的手势,这则是目前的人工智能正在研究但是遇到了极大困难的课题。一旦要将这个技术推广到市场上去,那么计算机除了要看懂用户的手势,还要看懂各个不同国家不同文化区域具体到每一个普通用户所做出的千变万化的手势,并且加以正确的解读,按我的理解,这可能是要强人工智能出现之后才能够做到的事情。

另外一个问题,则是手势操作的非直觉性。这可能和一般的主流看法不同——普遍认为手势是很直觉的。在广告中,我们经常看到的是用户只需要做一些酷炫的手势就能够做到相应的操作,但是,在这里会出现一个很基本的问题:手势如何和操作一一对应起来?我们对于手势操作的隐喻(Metaphor)是如何建立起来的?任何的交互界面都存在这样的隐喻,也就是怎样的元素对应怎样的内容,这种隐喻绝不是直觉(intuitive)的,而只能是一种约定俗成:就好比说左键确定,右键菜单在现代PC上是不言自明的,但是这种不言自明是随着Windows普及开来而成为了惯例;还比如说,使用一个向右的三角形表示“播放”,两根竖线表示“暂停”在现代音乐播放器上同样是不言自明的,而这要追溯到上世纪60年代的卷盘磁带机的设计。

这都说明,人机交互界面的隐喻的建立事实上是非常困难的事情;乔布斯的伟大就在于iPhone建立起了触摸设备的这一套隐喻,而其他的厂商都跟进。如何建立起一套基于手势的,能够让用户易于学习易于记忆的,在各个场景下都通用的AR交互隐喻,我并不觉得这个工作是不可能完成的;但的确非常困难。而将手势作为一套隐喻的本身的困难,再加上用户学习手势的困难,再加上不同的用户使用可能变形的不同手势的困难,我认为建立起这样一套交互系统的难度是接近不可能完成的。

手势操作的另一个问题,在于它的高能耗问题。能够广泛应用的交互手段,都是低能耗的:用户可以在任何场景下,通过最小的动作就完成交互:比方说鼠标和键盘,只需要手指和手腕的运动,而手机触屏更是只需要拇指的运动。而手势操作则需要用户把手抬起来挥舞,这在很多场景中是做不到的(比方说狭小的空间中,如电梯和地铁,或者用户处于不是特别方便的姿势下,比如躺着或者趴着)。而且这样的操作在短时间之后就会让用户感觉疲劳。语音也有相同的问题(有很多时候用户并不愿意出声)。

在这样的情况下,将来的手势操作在用户看来,就会是这样的一种东西:不方便,不直观,难学习,成功率低,费劲。这样的交互方式是无法成为主流的,除非有了突破性的技术革命(比如强人工智能)。

再来讨论语音交互。语音交互所面临的问题,很大程度上是与手势交互类似的:适应各种口音的命令,仍然是人工智能中很困难的一件事。那么另一个问题,则是跟技术关系不大,主要是场景的问题:在很多场景下,语音控制可能并不适用。比方说有很大噪音,很嘈杂的环境下,语音可能就会失效;在很多场合,出言发声也是不合适的(比方说剧场、图书馆等等)。语音操作还有一个问题,就是用户的操作并不是exclusive的:其他人同样也可能发出指令来进行操作(这可以通过识别声音来避免,但是同样需要很高的技术水平)。在这些场合,静默而且动作小的交互操作是更合适的。目前来看,手机是最适合的:在需要静默的情况下,手机不用出声,动作也比较小。而在未来的AR设备上,如果需要使用语音操作,或者挥舞手势进行操作,都会是一种对于其他人的打扰。

那么未来的AR设备究竟需要什么样的交互手段?我认为,一个实体的操作设备,也就是一个能够佩戴在手上的手柄,仍然是最合适的交互手段。这个手柄的形状和样式是不重要的,可以多种多样:它可能会像是一个腕带,或者指环,或者手套,或者传统意义上的手柄;我认为这些形态都会共存,作为不同的消费配件在市场上出现。但是它的特性应该包括:

1,拥有按钮,可以点击(理想情况下应该有一个使用食指操作的按键);

2,拥有小型的触摸板,可以使用拇指进行触摸的操作;

3,拥有振动反馈机制,类似于苹果的Haptic Engine;

4,拥有marker,能够让AR眼镜对其在三维空间中进行六自由度的定位;

5,有惯性传感器,在没有光学跟踪的情况下可以做三自由度的姿态;

6,拥有一定的接触感应,可以获得手指张开/握紧的状态,有有限的手势感应能力。这种手势感应能力不是必须具备的,也不需要一定跟踪五指;在最低状况下,可以只跟踪拇指/食指,中度情况下,跟踪拇指/食指/中指就可以获得绝大部分的手势能力;最理想状况下,跟踪五指;

7,只需要单手就可以完成所有操作。但是可以扩展到两手各戴一个设备完成双手操作。

从上面的描述来看,目前的Oculus Touch和MR Controller就已经完全能够完成。实际上我认为未来的AR头显的交互设备除了尽量的小型化便携化之外,所需要的功能确实并不超出目前的OculusTouch/Vive Controller/MR Controller的范畴;这实际上就让这样的操作设备有了一个非常重要的优势:其所需求的全都是现有技术,没有开发上的门槛。比起需要强大计算机视觉算法甚至是强人工智能的裸手手势/语音操作,这样的设备可以很容易的开发出来。

这样的一个交互设备,拥有两种不同的交互方式。

一,日常状态下的,低可视度的静默交互方式。

在这里我首先要引入一个“可视度”的概念:在某个场景下,用户所使用的交互方式是否会引起其他人的注意?这种注意会有多明显?可以说,手机即是一个在大多数情况下低可视度的交互设备:其他人不会注意到用户使用手机。在某些情况下(比方说电影或者演出),手机的可视度仍然会比较高(因为显示屏的照明还是会打扰到人)。以这个角度来看,AR头显应该是一个可视度比手机更低的设备(因为AR头显的显示屏只会在用户的眼睛上显示),然而如果使用语音或者手势操作的话,那么AR头显的可视度就变得高得多。

在这个场景下,我们的用户佩戴AR头显,通过视线的方式将焦点移动到窗口上,激活窗口,相当于某个特定的窗口或者对象获得onFocus的状态;获得焦点的窗口上出现一个光标,这个光标主要是由用户的视线所控制,然而用户使用交互设备上的触板或者摇杆,可以在一定的范围之内移动这个光标,并且,在触板上脱离操作之后,光标自动回到用户视线中心(相当于一个自动回中的特性)。也就是说,大范围的光标移动,依靠用户视线进行操作;而小范围的精细交互则交由操作设备上的触摸板/摇杆来执行。

在移到窗口中可以交互的对象之后,用户可以通过操作设备上的按钮点击来进行交互,并且通过按钮点击和触板触摸的配合来进行一些相对复杂的拖拽操作。比方说在窗口中拖动滑块或者任何对象。交互设备在可以进行三维姿态定位的情况下,也可以通过这种姿态定位来进行一些操作,比方说三维对象的某些姿态翻转。

这种操作的优势在于,它是一个完全静默的,极低可视度而且极端节约能量的操作模式。用户不需要出声,也不需要做任何手势,只需要使用手指的动作(以及手腕,如果使用三维姿态定位的话)和一定的头部动作就可以完成几乎所有日常操作,而且这个操作没有对用户的日常姿态做任何限制:他可以站着,坐着,趴着,躺着,半躺着,几乎任何姿势都可以完成操作。在任何场合,比如剧院,影院,电梯,地铁,外界环境极端嘈杂,或者极端静默,这些操作都是很容易完成的。他不需要抬起手,实际上他也不需要看着手上的设备,甚至把手塞进口袋仍然可以完成操作。使用这种交互设备,AR头显的可视度将会是极低,比手机还要低的多。

这种操作的可行性和可靠性毋庸置疑。它的极大的优势在于,在未来长时间佩戴AR设备的情况下,节约能量的交互手段是非常重要的;而毫无疑问,这要比手势操作和语音操作都要节约能量得多(尚不考虑手势操作和语音操作的可靠性)。Google在Daydream VR中引进了类似的手柄设计,Hololens的官方配件中搭配了Clicker,实际上的逻辑是一样的。

在AR设备的日常应用中,如果我们想要让AR设备取代手机的地位,那么在交互上至少要做到对于手机交互方式的覆盖式升级:也就是说,AR能够做到手机交互所做得到以及做不到的;而我所构思的这样一种AR交互设备则很好的完成了这一任务:在低可视度操作状态下,它引入了拇指和食指的运动,头部的简单运动,可以做到手机的所有操作,而比手机更加节省能量,可视度也更低。

二,工作状态下的,高可视度的空间交互方式。

在需要对三维空间中的对象进行交互的情况下,那么这个交互设备就变成了类似ViveController/Oculus Touch那样的可以进行六自由度定位的手柄。这样的6DOF定位是交由AR头显上的摄像头完成的;也就是说用户需要把手柄移动到AR头显能“看到”的位置,才能够对手柄进行定位,而这在现实的交互中是非常自然的一个行为:用户需要看到自己的手柄的位置来进行三维操作。手柄上配置有marker,AR头显根据自身的姿态和手柄上的marker的姿态计算出手柄的6DOF位置,用户可以在三维空间中使用手柄完成任何想要完成的操作,与目前的Oculus Touch/Vive Controller类似。这样在操作三维空间对象时,用户仍然有按钮触板和震动反馈,同时,在目前的技术条件下,有marker的设备追踪比markless的手部姿态追踪在技术上要容易非常多,也更容易做到更高的精度,适合于快速的产品推出和迭代。

基于上述的第六项,这个设备可以识别用户的手部姿态,可以做出一些基本的手势操作(OculusTouch和下一代的Vive Controller都有这样的功能)。

基于上述的第七项,在某些比较复杂的场景中,用户可以使用两个交互设备进行双手操作。

我在这里提出了未来的AR交互设备的一个范式,而且与目前主流意见中的手势/语音操作相去甚远。我认为语音和手势操作会仍然存在于未来的AR设备之中,不过只会是必要的辅助,存在于一些比较特殊的场景中(类似目前的语音助理的地位)。一种对于开发者友好(技术上比较容易)而且对于消费者也同样友好(操作简单;容易学习;极为可靠)的操作方式仍然会是未来的主流。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180315G1KPVS00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券