前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Scale 2023 | 元宇宙中的实时通话

Scale 2023 | 元宇宙中的实时通话

作者头像
用户1324186
发布2023-09-09 09:03:28
1810
发布2023-09-09 09:03:28
举报
文章被收录于专栏:媒矿工厂媒矿工厂

作者:RAMAN WALIA; SHREYAS BASARGE 来源:@Scale 2023 MOBILE, VIDEO AND WEB 标题:REAL-TIME CALLING WITHIN METAVERSE 链接: https://atscaleconference.com/real-time-calling-within-metaverse/ 内容整理:鲁君一 本文讨论了在元宇宙中实现大规模实时通话的挑战。这些挑战包括人类代表性、世界状态管理和技术选择。文章强调了逼真性和规模两大方面的创新,以应对设备限制和用户数量的增长。作者还探讨了在元宇宙环境下实现端到端加密、网络拓扑选择等问题。整体而言,本文探讨了如何在不断发展的元宇宙中实现高度沉浸式的实时通话体验。

简介

在当今快速发展的技术环境中,虚拟交流已经成为新的常态。虚拟现实(VR)和增强现实(AR)的出现彻底改变了用户会面和聚集的方式。随着视频会议(VC)软件的广泛采用,远程通信变得比以往任何时候都更加简便和易于访问。AR和VR环境提供了更沉浸式的体验,使用户可以在虚拟世界中感受到身临其境的感觉。这带来了更加引人入胜和有意义的体验,有助于更好地协作和构思。此外,AR/VR环境为用户提供了更高级别的环境控制,允许用户根据自己的需求自定义周围环境。在VR中,与朋友一起看电影、玩游戏、共同设计规格、在相隔数百英里的情况下在白板上协作,这都是真实的可能性。彼此之间的互动从未如此轻松。

但是,我们如何使这种方式的“存在”成为现实呢?

人类形象(Human Representation)

在虚拟世界中存在的最重要方面是人类形象(Human Representation)。在传统的通话场景中,这是通过二维(2D)视频实现的。但是2D视频并不直接适用于元宇宙:首先,因为在佩戴头戴式设备时可能无法捕捉到用户面部的视频,其面部可能被设备遮挡;其次,我们需要更深入地了解用户在三维空间中的运动,以便他们能够与虚拟环境进行互动。

我们一直在研究各种人类形象的形式,从卡通化的化身到逼真的化身。我们可以大致分为以下三种形式:

  1. 风格化化身
  2. 逼真化身
  3. 体积光学视频(Volumetric Video)

对于这些不同的代表性,我们预期用户的设备能够捕捉某些表情数据。这可以通过头戴式设备上的内置摄像头、眼球追踪、基于麦克风音频的嘴唇同步等方式实现。

  1. 风格化化身

图1

这些化身相对低保真度,类似卡通。所有参与者在实时通话(RTC)开始时共享他们的化身资产。骨骼运动实时传输,然后在接收端重新创建化身。

  1. 逼真化身

图2

这些高度保真的化身与现实几乎难以区分。系统为通话中的每个参与者创建了专用的编解码器。在RTC会话开始之前,会共享资产、纹理和编解码器。使用神经网络(VADs)实时将面部表情数据压缩为中性嵌入,然后通过网络发送。使用最先进的机器学习技术,我们能够实现以30 KB为单位的30帧/秒的逼真化身。

  1. 体积光学视频

图3

这些是最高保真度的化身,通过这些化身,人的形象会被精确地反映出来。人的三维捕捉以RGB和深度的组合形式通过网络发送。尽管可以使用标准的2D编解码器来处理RGB组件,但需要开发特殊的编解码器来压缩深度。RGB和深度组件还需要在接收端进行完美同步和拼接,以呈现在虚拟环境中准确表示人物的场景。同时实现所有这些组件对于创造真正沉浸式和栩栩如生的虚拟体验至关重要。这种方法的带宽需求较高,并需要大量的后期处理来消除压缩产生的伪影。

根据设备限制、网络质量和用户活动,我们可以选择使用哪种形式的人类形象。在类似游戏的情境中,其中非RTC活动消耗系统资源,或者有大量参与者时,我们可以选择使用风格化化身。它们在计算上是最不昂贵的,在非正式的活动中不会显得格格不入。然而,在工作环境中,当参与者在白板上进行协作时,我们可能会选择使用逼真的化身。

世界状态(World State)

我们已经讨论了如何在虚拟空间中代表人类。现在我们需要为用户提供与周围环境和远程参与者互动的工具和能力。这就是实时世界状态发挥作用的地方。

协作的虚拟环境需要一个强大的系统来管理在参与者之间共享的对象。一个网络化的共享对象堆栈可以通过以下层次来进行推理:

图4

  1. API / IDL:供开发人员以人体工程学的方式定义/修改/读取其对象的状态。
  2. 复制:逻辑以低级别的传输API在参与者之间复制对象。
  3. 自定义可靠性:为状态实现定制的可靠性和顺序逻辑,以避免任何无谓的重试。
  4. 序列化:以最紧凑的方式高效序列化对象到线格式
  5. 传输:使用低级传输API发送和接收具有可配置特性(如可靠性、延迟、拥塞控制等)的数据包。
  6. 服务器:用于选择性转发或数据包扩散的服务器端基础设施。

为了为开发人员提供最人性化的体验,系统应该将这种体系结构的所有内部复杂性抽象化。通常情况下,我们希望开发人员能够使用为其对象定义模式的心理模型。一个对象是一组字段。对象可以在会话中创建、修改和销毁。底层框架负责在网络上实时传输这些变化。

随着会话中共享对象数量的增加,我们需要想出创新的方法来限制用于同步此数据的网络带宽的数量。可能的方法包括计算增量,有效利用视野,以及使用插值和外推进行较低的FPS。

多个参与者可以同时修改对象。为了解决冲突更新,我们需要建立一个所有权框架。完全由参与者拥有的对象只能由该参与者进行变更(例如,由一个化身持有的棒只能由该对象进行变更)。其他对象的所有权可能会在会话中转移。一些世界对象可能根本没有所有者,将由服务器拥有。

所选择的网络拓扑可以影响隐私、性能和开发体验之间的权衡:

  1. 无状态服务器:在这种选择下,服务器不维护任何状态,仅负责转发数据包。其中一个客户端被选为主要客户端并用于仲裁冲突。服务器可以根据网络特性更改主要客户端。主要客户端引起的网络问题可能会影响所有其他客户端。这种模式允许用户活动的端到端加密。
  2. 有状态服务器:在这种情况下,服务器维护状态,并且是所有共享世界对象的真实源头。虽然这种模式无法支持端到端加密,但更容易识别和调试。它还具有更好的性能,并且能够容忍参与者的变动。

展望未来

展望未来,我们将需要在两个方向上进行创新:

  1. 逼真度
  2. 规模

逼真度:在上面,我们讨论了关于人类代表性的各种权衡。随着设备变得更小(例如AR眼镜或VR头戴设备),并且预计设备寿命更长,热要求更严格,如何在这些约束下工作将对在逼真人类代表性方面的探索提出挑战。然而,可以通过在设备上优化驱动化身生成的机器学习(ML)模型以及将部分渲染卸载到云中来实现改进。后者对可接受的延迟(大约50毫秒)提出了更严格的限制,因为渲染的内容需要快速响应用户的实时运动,比如头部旋转。这可以通过分层方法部分缓解,其中服务器仅部分渲染场景,而设备则对用户的实时运动进行最终定位和修正。

规模:元宇宙中RTC体验的北极星将是为大型类似音乐会的活动提供动力,数以万计的人可以同时出席并实时互动。然而,这对产品和技术方面都带来了挑战。在产品方面,我们需要找出如何将不对称性融入这些互动中。让成千上万的人同时互相交流绝对不会奏效!更可接受的设置可能是让某些关键参与者扮演广播者的角色,就像音乐会上的歌手一样,而其他参与者——人群——则具有较小的影响范围。在技术方面,处理数以万计的参与者需要重新思考用于媒体转发的传统服务器架构。我们需要分布式设置和更多的计算能力,以便可以自定义每个单独用户接收的媒体,以考虑所需的详细程度(例如,远处参与者的模糊环境噪声与附近的人的清晰音频相比)。我们还需要降低延迟,以便使服务器端的媒体处理能够实时响应用户的移动。

总体而言,元宇宙为创造存在感的可能性是无限的。而RTC是将用户在其中的体验紧密联系在一起的纽带。有许多广泛和深入的技术挑战需要解决,现在成为从事RTC工程的工程师从未有过的好时机。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 人类形象(Human Representation)
  • 世界状态(World State)
  • 展望未来
相关产品与服务
媒体处理
媒体处理(Media Processing Service,MPS)是一种云端音视频处理服务。基于腾讯多年音视频领域的深耕,为您提供极致的编码能力,大幅节约存储及带宽成本、实现全平台播放,同时提供视频截图、音视频增强、内容理解、内容审核等能力,满足您在各种场景下对视频的处理需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档