首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

比MP3小10倍,Meta公开全新音频压缩技术

前几天,Meta在一篇题为 “High Fidelity Neural Audio Compression”(高保真神经音频压缩)的论文中公布了一项名为 "EnCodec" 的开源音频压缩技术,该技术由 AI 驱动,可以在音频质量没有损失的前提下,将音频压缩到比 MP3 格式还要小 10 倍的程度。

Meta指出,压缩技术对目前互联网十分重要,借助于此用户可以十分容易的发送高画质图片、语音信息等。不过,发送这些多媒体信息需要充足的带宽和存储空间,尤其是在未来的时代,因此需要效果更好的压缩技术。

Meta 将这项技术的实现方法分成了一个由三部分组成的系统,经过训练后的 AI 可以将音频压缩到所需的目标大小,其实现过程如下:

首先,编码器将未压缩的数据转换为较低帧率的 "latent space" 表示(representation);

然后,量化器将这个表示压缩到目标大小,同时跟踪最重要的信息,这些信息以后将被用于重建原始信号(这个压缩信号将通过网络发送或保存在磁盘上);

最后,解码器使用单个 CPU 上的神经网络将压缩的数据实时地转变回音频;

至于应用,Meta 表示这种由人工智能驱动的 "超压缩音频" 可以在恶劣的网络条件下获得更快、更优质的通话效果。作为一家 “梭哈” 元宇宙的公司,这项技术还可以提供更加丰富的元宇宙体验(视频会议、影音流媒体、VR 游戏等),而不需要提高带宽。

除了语音通话,这项技术同样可以应用于音乐领域,未来我们有望可以获得高品质、小体积的音频文件。

编码器可将原始数据转换为较低影帧速率的格式,再由量化器将数据压缩到目标大小,最后,解码器通过神经网络对这些数据进行解码。

值得一提的是,虽然此前也有人尝试用神经网络压缩音频,但Meta是首个将此技术用于48kHz立体声的团队。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20221113A00C3800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券