前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >新型开源语音编码器Lyra最新进展

新型开源语音编码器Lyra最新进展

作者头像
潇湘落木
发布2021-04-13 14:21:31
6310
发布2021-04-13 14:21:31
举报
文章被收录于专栏:智媒黑板报智媒黑板报

问题背景:

Google最近开源了一种语音压缩的新型超低比特率编解码器,这种编码器的最大特点是基于机器学习原理,能够使用最少的数据来重建语音,这是和传统AAC和Opus编码原理的本质区别,这种基于机器学习的编码思想也逐渐应用的图像编码和视频编码上。

其次Lyra牛逼的地方在于不仅实现了以每秒3kb网络宽带提供听起来自然清晰的语音聊天,还可以在仅90ms延迟的情况下在从高端云服务器到中端智能手机的任何设备上运行。

随着谷歌的推广,估计WebRTC后续也有相关动作支持起来,特别在网络比较差带宽较低的场景下进行实时音视频互动有一定的优势。目前已经在Google Duo中进行了应用。


下面是收集的一些链接和资料,大家可以自行了解和学习。

开源git地址:

https://github.com/google/lyra

官网博客介绍:

https://ai.googleblog.com/2021/02/lyra-new-very-low-bitrate-codec-for.html

https://opensource.googleblog.com/2021/04/lyra-enabling-voice-calls-for-next-billion-users.html?m=1

编码效果对比:

https://mp.weixin.qq.com/s/y0QQ5JvKya-rnET9wZnQ7Q

采访记录:

https://mp.weixin.qq.com/s/Y1wceNAuMO7X8Vq3NiJ_GQ

Papers

  1. Kleijn, W. B., Lim, F. S., Luebs, A., Skoglund, J., Stimberg, F., Wang, Q., & Walters, T. C. (2018, April). Wavenet based low rate speech coding. In 2018 IEEE international conference on acoustics, speech and signal processing (ICASSP) (pp. 676-680). IEEE. 下载链接:https://arxiv.org/pdf/1712.01120
  2. Denton, T., Luebs, A., Lim, F. S., Storus, A., Yeh, H., Kleijn, W. B., & Skoglund, J. (2021). Handling Background Noise in Neural Speech Generation. arXiv preprint arXiv:2102.11906. 下载链接:https://arxiv.org/pdf/2102.11906
  3. Kleijn, W. B., Storus, A., Chinen, M., Denton, T., Lim, F. S., Luebs, A., ... & Yeh, H. (2021). Generative Speech Coding with Predictive Variance Regularization. arXiv preprint arXiv:2102.09660. 下载链接:https://arxiv.org/pdf/2102.09660

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-04-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智媒黑板报 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Papers
相关产品与服务
实时音视频
实时音视频(Tencent RTC)基于腾讯21年来在网络与音视频技术上的深度积累,以多人音视频通话和低延时互动直播两大场景化方案,通过腾讯云服务向开发者开放,致力于帮助开发者快速搭建低成本、低延时、高品质的音视频互动解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档