【融云视角】沉浸式音频与通讯技术未来趋势

回顾互联网发展历程,从 PC 局域网到移动互联网,互联网使用的沉浸感逐步提升,虚拟与现实的距离也逐渐缩小。利用沉浸式音频与通讯技术未来将会很大程度提升用户的体验感,而在虚拟与现实的元宇宙中,对沉浸感、参与度、永续性等方面都有很高的要求,因此将会由许多独立工具、平台、基础设施、协议等来支持其运行。随着 AR、VR、5G、云计算等技术成熟度提升,基于沉浸式音频的通讯技术在元宇宙有望逐步从概念走向现实。

本文将和业内伙伴一同探索元宇宙技术发展对通讯行业带来的影响,未来沉浸式音频的发展趋势以及通讯技术在 VR、AR、AI 行业的应用。

元宇宙概念简述元宇宙(Metaverse)是指打造一个与现实生活平行的、体验几乎无差异的虚拟世界。人类可以利用虚拟身份在虚拟世界工作、社交互动、娱乐游戏,甚至买卖交易。总结出来就是,在元宇宙中,你可以想什么就有什么,无边无际的想象力给予你无限的自由。

Metaverse 元宇宙所创造的独立于现实世界的虚拟数字第二世界,使用户能以数字身份自由生活。VR、AR、AI 作为 Metaverse 的技术基础将迎来高速增长期。虚拟现实行业 2020 年全球市场规模约为 900 亿元人民币,预计 2020-2024 年均增长率约为 54%。据中国信通院预测,2021 年开始全球虚拟设备出货量将加速,预计 2024 年可达 7500 万台。(数据来源:天风证券《Metaverse 研究报告》)随着 VR 产业链的逐步完善,VR 对行业的赋能会展现出强大的飞轮效应。

那么我们怎么样才能从现实世界,逐渐进入到元宇宙世界中去呢?

真实感的维度如果把元宇宙场景中,用户体验到的真实感划分为两个维度:“沉浸感”和“自由度”。两个轴的起点,则是原生感知现实,例如正在阅读这篇文章的你。沉浸和自由的深度,共同决定了元宇宙中的用户体验是否足够真实。

真实感的等级

Lv1:从原生感知初步向虚拟世界迈进的阶段 Lv2:让大脑感觉部分真实的虚拟世界 Lv3:完全骗过大脑的全真虚拟世界 Max:和原生世界深度相同的虚拟世界

元宇宙现阶段发展趋势现阶段元宇宙概念的产业链,例如互动体验、人机交互等,大部分能力范围在 Lv1-Lv2 之间,仅有少部分尖端企业向 Lv3 迈进。未来阶段如何实现 Max 的目标,是否能真正实现,目前还无法得知。

Lv1-Lv2 范围的产业链已日渐成熟,目前已经实现 3D 体感电影、开放沙盒游戏、VR、AR、MR 游戏等应用。

如果说 Lv2 阶段的用户体验,是由某几个沉浸或自由因素堆积而成的“半真实”体验,那么升级到 Lv3 阶段的“全真实”体验,可以说是质的飞跃。“沉浸”和"自由"必须做到足够的深度,相辅相成。数字化的视觉和听觉感知体验是否可以完全骗过我们的大脑?3D 引擎是否能提供足够的自由体验?AI 是否能做到永续性、自生长?网络传输是否可实现无延迟?只要任何一个因素存在缺陷,就不可能真正实现“全真实”的用户体验。可见从“半真实”到“全真实”,实现难度会陡增。

到 Lv3 之后,元宇宙下一个阶段,就是实现终极目标,让人们的意识永生在虚拟世界。影响这一目标实现的因素,除硬件、软件、通讯等科技因素之外,还涉及到生物学和医学范畴。是否能真正实现,目前来看仍是未知。

头部厂商的进展

1.Facebook2020 年 9 月,Facebook Connect 2020 大会上,Facebook 发布了 AR/VR 十五大重要战略规划。会上公布的一系列 AR/VR 信息,涵盖最新硬件产品、软件产品、解决方案、开发者服务、前沿技术研究等。

其中 VR 头显 Oculus Quest 2 依靠平台提供的游戏和软件支持,已经成为目前市场上主流的 VR 头部穿戴设备。

值得关注的是,在会上发布的 Project Aria 是 Facebook 构建的帮助研究人员理解 AR 眼镜所需软件和硬件的研究设备。它使用传感器能从佩戴者角度捕捉视频和音频,通过 GPS 计算位置,捕捉多声道音频。

2.Apple 美国知名科技博客 Scobleizer 预测,苹果在未来一年内公布的产品计划中,将会包含一款全新的 AR/VR 头显。具体来讲,苹果计划在未来十年推出多款产品,包括 AR/VR 眼镜、AR/VR 隐形眼镜(分别在 2022 年到 2025 年之间推出)。这意味着苹果要从 2D 屏幕、界面和体验向 3D 形式升级。

Scobleizer 表示:苹果 AR/VR 头显将同时覆盖使用者的双眼和双耳,戴上之后你不仅看不到周围的环境,也听不到周围的声音。也就是说,苹果 AR/VR 头显的一大特点是视觉和听觉的沉浸感,有趣的是,它并不会将使用者与外界完全隔绝,也许可以通过 AR 透视功能让你看到和听到周围。在苹果 AR/VR 头显开机之后,你才能看到周围环境的虚拟影像,并且听到周围的声音。

值得关注的还有苹果车载环绕音频技术。Scobleizer 表示,该技术可以从汽车内部、家里等各种地方营造环绕式声音效果。利用苹果 AR/VR 头显的 LiDAR 模组,可以实现 3D 音频在空间中的定位。通过亲自体验,他表示该技术可模拟亲临现场的音频效果。

RTC 通讯技术的现状 RTC 的音频传输技术,是通过采样、量化、编码、压缩,实现模拟信号到数字信号的传输。目前常用的是双声道的采样,即左右两个声道的立体声,再经过压缩处理,传输时占用带宽少,符合目前大部分业务场景对传输效率的需要。随着 5G 到来,网络带宽不再是问题,在保证传输效率的基础上,人们会进而追求 3D 沉浸式的音频体验。双声道采样将不再符合未来需求。多声道采集(例如 Ambisonics 麦克风用四面体阵列形式采集 4 个声道)传输,或许成为未来通讯技术的主流。

除了上述办法使用户实现沉浸式的音频体验,还有没有其他方法?我们先来看一下,目前成熟的沉浸式的音频技术有哪些。

沉浸式的音频技术目前,沉浸式音频类型主要分为三大类:基于声道 Channel based audio (CBA)、基于对象 Object based audio (OBA)、基于场景 Scene based Audio (SBA)。Scene-Based Audio 主要是用来描述场景的声场,其核心的底层算法是 HigherOrder Ambisonic(HOA)。

根据业内专家分析的结论,未来 VR 音频专业领域则主要是 Object based audio 和 Ambisonics(HOA)两大趋势。

那么 VR 音频技术,可以应用在哪些 VR 社交场景中呢?

与社交场景的对应在元宇宙发展的现阶段,社交场景主要存在于 VR 游戏、VR 直播、和 VR 社交软件上。

因为 Object based audio 有大量的数据和运算,除了声道的音频外,还有关于声源的 metadata (元数据):声源(位置、大小、速度、形状等属性)、声源所在的环境(reverb (混响)和 reflection(回声)、attenuate (衰减)、几何形态),所以它更适合用于 VR 主机上的游戏。

Ambisonics 的特点是声源贴在提前渲染好的全景球上,所以玩家不一定能够将声源放在场景中想放的位置,即使有声源也被压缩在了这个球上。它适合移动端和流媒体视频。

如何利用沉浸式音频与通讯技术提升未来体验通过以上分析,我们怎样利用 RTC 的音频传输技术实现用户沉浸式的音频体验呢?

1.直接传输沉浸格式的音频使用 Ambisonics 技术,声音的采集和处理都交给 App 或者 VR 声音引擎,RTC 通道仅负责进行传输。

2.预处理后交给接收端还原对应 Object based audio 技术,声音的采集用 Ambisonics,但是在传输之前,降维到双声道进行编码和传输,这样 Web 端或移动设备能兼容。然后接收端通过双声道数据,再还原回 Ambisonics,根据虚拟场景的变化实时渲染,最后在用户端播放。

3.通过文字与语音的转换技术实现如果虚拟场景中是二次元的世界,我们不仅要避免人声的直接还原,还要让人物语音符合二次元世界中的设定。对于这种情况,可以借助融云 IM 技术,以及语音和文字的互转实现(asr 和 tts)。人声采集后先转成文字,再输入到声音建模中,最后转成二次元人物的声音。这种方法可以让每一个玩家的语音都符合游戏世界中的设定,从而增强沉浸感。

结束语

相关技术的不断升级进步,会使元宇宙概念继续向前发展。VR、AR、5G、AI、专业引擎和平台等产业链的发展,也会继续带动用户对沉浸式体验的追求。沉浸式音频通讯有可能会成为未来通讯的主流。我们对市场保持关注,希望和业内伙伴一同深入探索研究,沉浸式音频与通讯技术或可成为通讯业务未来的突破口。

  • 发表于:
  • 本文为 InfoQ 中文站特供稿件
  • 首发地址https://www.infoq.cn/article/78c8424b5603f49a181e0bcdd
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券