前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >腾讯多媒体实验室亮相GBA-IAS 2019声学论坛,深度分享音频前沿技术

腾讯多媒体实验室亮相GBA-IAS 2019声学论坛,深度分享音频前沿技术

作者头像
腾讯多媒体实验室
发布2019-12-30 14:10:04
1.3K0
发布2019-12-30 14:10:04
举报

12月16日,由中国香港科技大学深圳研究院主办的GBA-IAS 2019声学论坛(GREATER BAY AREA -INTERNATIONAL ACOUSTICS SYMPOSIUM),在深圳正式召开。随着虚拟现实技术的发展,音视频行业对3D音频等技术的需求也更加强烈,本此论坛以“感知与声音”为主题,来自国内外众多知名大学、科研机构的多名心理学、声学、信号处理和计算机科学的专家出席,对各自团队的研究进展和新思路进行了分享与交流。在音视频领域积累多年的腾讯多媒体实验室团队受邀参会,腾讯多媒体实验室高级总监商世东、专家研究员肖玮、王燕南等就多媒体实验室的音频前沿算法及应用进行了分享。

(GBA-IAS 2019声学论坛,与会专家合影)

多媒体实验室成立于2016年,专注音视频通信技术的前瞻性研究,包括全球实时音视频网络优化、音视频处理、音视频标准、多媒体编解码前沿算法研究、计算机视觉图像处理、基于AI的音频语音增强、声音美化及音视频质量评测等,在实时音视频通信等技术领域积累了十余年的研究经验,一直保持业界的技术领先性。商世东详细介绍了多媒体实验室的音频技术全景图、音频端到端方案的技术框架以及5G时代下音频技术发展面临的挑战和机会。

“腾讯多媒体实验室,对于声学领域的技术发展和产业落地始终秉持着开放的态度,也希望能和行业的企业、高校等机构共同合作,一起推动声学领域技术的进步和落地应用。”商世东介绍道,随后,商世东主持了基于球面谐波技术和声音场景分类的空间声学研讨会,与来自澳大利亚国立大学的Thushara教授和华南理工大学的师生展开了热烈的讨论。

(腾讯多媒体实验室高级总监 商世东)

高效率音频超分算法的无限可能

腾讯多媒体实验室专家研究员肖玮,基于多媒体实验室在高效率音频超分领域的进展,同与会专家进行了深入的交流与探讨。作为腾讯天籁音频解决方案的重要支撑,音频超分算法具有无需修改网络协议,无需额外数据传输,人工生成高频频谱提升用户主观体验的特点。“我们知道丰富的高频声音信号能够带来更加出色的听觉体验,但在实际应用中,受设备采样率等因素影响,我们时常会遇到不含高频信号的窄带语音,从而对听感产生影响。”肖玮介绍道。

为了解决这一问题,行业内已经公开一些利用深度学习的思路,完成宽带频段重建的工作;但由于对数据的强依赖,外加模型体积过大,复杂度也相对较高,难以部署在客户端。为了解决这一问题,多媒体实验室将深度学习技术与经典语音信号技术处理、心理模型等技术进行融合,通过轻量级建模,从而克服了一般深度学习算法中对数据的过度依赖以及网络模型过大等问题,仅2MB的技术模型就可轻松部署于各类客户端,同时保证宽带频段的重建精度和质量。此外,肖玮还向与会专家现场进行demo演示,就超分算法如何面对真实应用场景、优化建模方法以及功能扩展等方面与与会专家进行了深度交流。

目前这一算法已部署至腾讯会议,实现由窄带语音输入到宽带语音输出的转换;此外,在提升听障人士语音通信体验领域,超分算法也具备着巨大的应用前景。

(腾讯多媒体实验室专家研究员 肖玮)

深度学习算法助力语音增强

腾讯多媒体实验室专家研究员王燕南,就实验室在语音增强、伴奏分离等领域的研究进展进行了分享。在录音过程中,由于环境和采集设备的局限性,可能会捕捉到多种不同的声音,而在采访等场景中,我们很可能只需要一到两种声音,那么应该如何将有用的声音分离出来呢?为了解决这一问题,多媒体实验室提出基于神经网络深度学习的概率学习框架。

以往处理这类问题,业内人通常会采用一种名为常规最小均方误差的训练准则,进行深度学习,在信号处理的过程中,这一模型能够通过矩阵式的运算,让输出的信号尽可能接近输入的信号。由于较高的计算量难以满足即时通信环境下的需求,无法实现高效的语音分离,多媒体实验室自研了基于深度神经网络的非线性谱映射单通道语音分离的最大似然法。简单说来,这一方法是基于概率模型对海量语料数据进行深度学习,从而实现高清晰度与高效的语音分离工作,同时由于计算量的降低,它还具备更出色的泛用性,能够适用于更多的场景,诸如语音增强、伴奏分离等。

此外,王燕南还针对深度学习算法在应用中面临的挑战,如模型的鲁棒性(在极低信噪比、数据失配等情况下的效果)、计算量优化的挑战等内容,和与会专家进行了交流。

(腾讯多媒体实验室专家研究员 王燕南)

名校师生Lab Tour,深度开展校企交流

会后,腾讯多媒体实验室向澳大利亚国立大学、中国香港科技大学以及华南理工大学的师生发出邀请,一同前往腾讯多媒体实验室参观访问,并就未来进一步展开校企合作进行了热烈的探索与讨论。

目前,仅在音频领域,多媒体实验室所打造的包括唱歌修音、语音增强、端到端音频评估等解决方案,已在腾讯公司内外的众多产品中进行应用。此外,多媒体实验室有近50项提案被下一代视频编码标准VVC/H.266采纳。在虚拟现实(VR)、点云(PCC)、网络传输协议 (DASH)、多媒体系统(OMAF、CMAF、NBMP)等相关多媒体标准中,也取得了突破性进展,获得多项标准核心专利,多名团队成员在多个全球标准组织担任董事、编辑、领域主席等重要席位。与此同时,多媒体实验室也大力投入国家自主标准建设,成为国际行业标准不可忽视的影响者。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯音视频实验室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
实时音视频
实时音视频(Tencent RTC)基于腾讯21年来在网络与音视频技术上的深度积累,以多人音视频通话和低延时互动直播两大场景化方案,通过腾讯云服务向开发者开放,致力于帮助开发者快速搭建低成本、低延时、高品质的音视频互动解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档