INTERSPEECH 2022｜快手斩获音频丢包隐藏挑战赛世界冠军

文章来源：企鹅号 - 语音之家

近日，在由全球语音技术顶尖会议INTERSPEECH 2022与微软联合举办的音频丢包隐藏挑战赛中，快手音视频技术团队在主办方评估的丢包隐藏平均主观意见分（PLCMOS），深度降噪平均主观意见分（DNSMOS），众包平均主观意见分（CMOS）和语音识别字准确率（WAcc）四项指标中均排名第一，综合得分获得世界冠军。

图1：INTERSPEECH 2022音频丢包隐藏挑战赛成绩

在语音通话、直播互动等实时通讯场景中，网络传输条件限制造成的音频数据包丢失问题，会对通讯过程中的音质体验带来极大负面影响。在语音数据包丢失的情况下，丢包隐藏（Packet Loss Concealment, PLC）技术能够根据接收到的音频信号恢复丢失信息，从而保障弱网下音频音质，并提升用户体验。在实际应用中，PLC技术一般需要通过系统延迟、主观意见分数和语音识别准确率等多个指标进行衡量。

本次音频丢包隐藏挑战赛盲测集数据多达近千条音频，涵盖了多说话人语音音频、噪声音频和音乐等多种类型。并且，采用真实场景采集的丢包模型对上述音频进行丢包处理，丢包率涵盖多种网络条件下的丢包比例，部分数据丢包率高达80%以上。

此外，本次比赛要求参赛队伍的算法延迟不超过20ms，低延迟下对多样化、高丢包率数据的处理也为本次比赛的任务增加了不小的难度。

针对以上任务，快手音频团队研发了一种基于神经网络的低延迟端到端PLC系统，原理图如下图2所示。

图2：快手PLC网络训练原理图

该系统基本架构为生成对抗网络（Generative Adversarial Network, GAN），由生成器（Generator模块）和判别器（Discriminator模块）组成，并创新性地提出了综合考虑主观听感、客观指标等多样化评估标准的组合损失函数（Multi-Loss模块），基于上千小时的多样化数据进行训练，使得系统能够将输入的丢包音频和丢包信息进行处理，最终输出高音质音频信号。

后续，以该PLC系统为代表的快手语音编解码技术将继续提升和优化，并将在快手的实时通讯场景中逐步落地，为弱网环境下的音频交互体验保驾护航。

发表于: 2022-05-072022-05-07 21:06:37
原文链接：https://kuaibao.qq.com/s/20220507A0C1WV00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

INTERSPEECH 2022｜快手斩获音频丢包隐藏挑战赛世界冠军

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐