Meta开发能边听边看的语音识别模型，语音转文本错误率大幅下降

文章来源：企鹅号 - 十轮网科技

Meta发布最新语音识别技术成果，这个被称为AV-HuBERT（Audio-Visual Hidden Unit BERT）的语言模型，是一个先进的自我监督框架，可同时利用视觉和听觉信号来理解语音内容。研究人员提到，这是第一个利用未标记资料，连接语音和嘴唇动作建模的系统，且只要使用十分之一的训练资料，就可有效提升语音识别准确率。

目前人工智能被广泛地用于语音识别和理解任务，开发像是语音助理或是听障应用，但研究人员提到，这些语言理解系统，常在最需要的场景中无法正常运行，像是多人同时说话，或是有大量背景噪音时，即便是复杂的噪音抑制技术，也难以克服沙滩上的海浪声，和车水马龙街头市场的嘈杂声。

而之所以在这些情况下，人们可以比人工智能更好地理解语音，原因之一便是人类不只使用耳朵，还会同时用上眼睛，像是当有人的嘴巴在动，便会主动认为声音来自于那个人。通过这样的启发，Meta开发最新的对话式人工智能系统，使系统能够在对话中，关联看到和听到的内容，就像人类一样。

目前的语音识别系统，都只采用音频输入，因此必需要猜测有几个说话者，或者是否包含背景噪音等问题，而AV-HuBERT与人类一样采用多模式学习，通过结合音频和嘴唇动作提示，来感知和学习语言。研究人员使用公共LRS3和VoxCeleb录像资料集来训练模型，而由于多了视觉线索，因此AV-HuBERT可以有效地捕捉输入流媒体的细微差别，可大幅减少用于预训练的资料量。

研究人员提到，一旦预训练模型学习了结构与相关性，便只需要少量标记资料，就可以完成对特定任务或不同语言的模型训练。实验证实，AV-HuBERT能够获得高品质的语音识别效果，当语音和背景噪音一样大声的情况下，目前最先进的模型AV-ASR，即便在使用433小时的标记资料训练后，仍然有25.5%的错误率，但是AV-HuBERT却只有3.2%。

也就是说，AV-HuBERT每听到30个单词，仅会犯1个错误，研究人员表示，当噪音和要转录的语音一样大声时，纯音频语音识别模型不可能知道，哪一个才是转录的目标，而相比之下，AV-HuBERT只转录可见的说话者语音，因此WER（Word Error Rate）只有3.9%，而纯音频识别软件WER则高达37.3%。

当标记资料只有30小时的低资源配置，在各种分贝的杂音、语音和音乐等噪音干扰下，AV-HuBERT与没有预训练的纯语音识别模型相比，绝对WER减少51.4%。而且当系统可以看到说话者，但无法听到声音的情况，过去最先进的模型，在经过31,000小时的转录视频资料训练后，可以在标准LRS3基准资料集上，达到33.6%的WER，而AV-HuBERT大幅超越了这项成果，仅使用30小时的标记资料，以及少一个量级的未监督图片资料，就可以达到28.6%的WER，而且在使用433小时的标记资料后，可以达到26.9%的WER，刷新目前记录。

AV-HuBERT不仅能应对棘手转录场景的对话式人工智能系统，由于训练所需要的监督资料要少得多，因此还可以用来开发少资源的语言模型。另外，AV-HuBERT能够从语音和嘴唇动作中学习，所以也可用来开发更具包容性，适用于语言障碍者的应用。

因为AV-HuBERT能够捕捉声音和嘴巴的精细关联，也有助于侦测深度伪造，和其他被操纵，用来误导观众的内容，从另一方面来看，AV-HuBERT还能够被用于在虚拟现实中的替身角色，实现逼真的嘴唇动作，提供更真实的感觉。

发表于: 2022-01-112022-01-11 22:10:57
原文链接：https://kuaibao.qq.com/s/20220111A0CKL700?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Meta开发能边听边看的语音识别模型，语音转文本错误率大幅下降

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐