首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Meta为Quest头显和智能眼镜申请AI虚拟助手专利

在 4 月中旬,Meta 首席执行官马克·扎克伯格宣布了一项创新的人工智能虚拟助手功能。一个月后,Meta 成功获得了一项专利,该专利专注于通过客户端与服务器端流程的混合架构,为未来 Quest 头显和智能眼镜集成数字助手。

专利详细阐述了一种方法,该方法涉及在用户与虚拟助手 xbot 的互动中,基于 xbot 的推荐向头显用户展示相关建议。这些建议与助手系统即将执行的多个动作紧密相关。在会话期间,系统会实时访问来自头戴式设备惯性测量单元(IMU)传感器的数据,并通过设备上的头部手势检测模型,仅基于 IMU 传感器信号,精确识别用户在对话中执行的头部动作。随后,助手系统会根据会话中确定的头部手势选择并执行相应的动作。

未来的 Meta 数字助手系统预计将利用这种混合架构,为用户提供更加便捷和高效的协助。

在具体实施中,助手系统允许佩戴 Quest VR 头显或智能眼镜的用户通过头部动作进行响应。通过内置的客户端头部动作检测模型,系统能够识别头部手势,并将其与预定义的指示相匹配,从而理解用户的意图。这种检测过程仅依赖于 IMU 传感器的输入,能够在低延迟和低功耗的情况下,精准推断用户的头部动作,如点头、摇头等。

在其他场景中,头部动作检测也可能由其他系统负责。例如,头戴式设备可以独立进行头部动作检测,并将结果提供给助手系统或其他在客户端上运行的应用。

例如,在 VR 系统中,当用户佩戴 VR 头显时,系统能够检测并反馈用户的头部动作给助手系统或 VR 应用。同样,AR 系统也能在用户佩戴 AR 设备时,实现类似的头部动作检测与反馈。

Meta 专利图 12 详细展示了一个人工神经网络(ANN)的架构,而图 2 则揭示了助手系统的典型设计。在特定应用中,助手系统能够协助用户获取各种信息和服务。用户可以通过多种模态(如音频、语音、文本、视觉、图像、视频、手势、运动、活动、位置、方向等)与助手系统进行有状态和多轮对话,以获取所需的帮助。

作为示例,用户的输入可能包括基于语音的音频输入,这些输入会被客户端系统上的系统音频 API 处理。该 API 采用一系列技术,如回声消除、噪音消除、波束形成、用户语音激活、说话者识别、语音活动检测(VAD)等,以确保生成的音频数据易于被助手系统处理。此外,助手系统还支持单模态、多模态和混合/多模态输入,以满足不同用户的需求。

专利图 7 详细描绘了基于头部动作检测的用户辅助示例流程,而图 8C-8E 则展示了针对上下点头动作的响应示例。

此外,图 10A-10D 展示了另一个示例场景,即系统如何响应用户的左右横向摇头动作。在这个场景中,用户正在佩戴 VR 头显玩游戏,而手机可能放在旁边作为配套设备。当助手系统通知用户有来电时,用户可以通过摇头动作拒绝接听,而助手系统则会执行相应的操作,并通过 VR 头显向用户反馈结果。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O0phkyY7s_FxTbRFGXdbyAww0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券