首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Meta开发能边听边看的语音识别模型,语音转文本错误率大幅下降

Meta发布最新语音识别技术成果,这个被称为AV-HuBERT(Audio-Visual Hidden Unit BERT)的语言模型,是一个先进的自我监督框架,可同时利用视觉和听觉信号来理解语音内容。研究人员提到,这是第一个利用未标记资料,连接语音和嘴唇动作建模的系统,且只要使用十分之一的训练资料,就可有效提升语音识别准确率。

目前人工智能被广泛地用于语音识别和理解任务,开发像是语音助理或是听障应用,但研究人员提到,这些语言理解系统,常在最需要的场景中无法正常运行,像是多人同时说话,或是有大量背景噪音时,即便是复杂的噪音抑制技术,也难以克服沙滩上的海浪声,和车水马龙街头市场的嘈杂声。

而之所以在这些情况下,人们可以比人工智能更好地理解语音,原因之一便是人类不只使用耳朵,还会同时用上眼睛,像是当有人的嘴巴在动,便会主动认为声音来自于那个人。通过这样的启发,Meta开发最新的对话式人工智能系统,使系统能够在对话中,关联看到和听到的内容,就像人类一样。

目前的语音识别系统,都只采用音频输入,因此必需要猜测有几个说话者,或者是否包含背景噪音等问题,而AV-HuBERT与人类一样采用多模式学习,通过结合音频和嘴唇动作提示,来感知和学习语言。研究人员使用公共LRS3和VoxCeleb录像资料集来训练模型,而由于多了视觉线索,因此AV-HuBERT可以有效地捕捉输入流媒体的细微差别,可大幅减少用于预训练的资料量。

研究人员提到,一旦预训练模型学习了结构与相关性,便只需要少量标记资料,就可以完成对特定任务或不同语言的模型训练。实验证实,AV-HuBERT能够获得高品质的语音识别效果,当语音和背景噪音一样大声的情况下,目前最先进的模型AV-ASR,即便在使用433小时的标记资料训练后,仍然有25.5%的错误率,但是AV-HuBERT却只有3.2%。

也就是说,AV-HuBERT每听到30个单词,仅会犯1个错误,研究人员表示,当噪音和要转录的语音一样大声时,纯音频语音识别模型不可能知道,哪一个才是转录的目标,而相比之下,AV-HuBERT只转录可见的说话者语音,因此WER(Word Error Rate)只有3.9%,而纯音频识别软件WER则高达37.3%。

当标记资料只有30小时的低资源配置,在各种分贝的杂音、语音和音乐等噪音干扰下,AV-HuBERT与没有预训练的纯语音识别模型相比,绝对WER减少51.4%。而且当系统可以看到说话者,但无法听到声音的情况,过去最先进的模型,在经过31,000小时的转录视频资料训练后,可以在标准LRS3基准资料集上,达到33.6%的WER,而AV-HuBERT大幅超越了这项成果,仅使用30小时的标记资料,以及少一个量级的未监督图片资料,就可以达到28.6%的WER,而且在使用433小时的标记资料后,可以达到26.9%的WER,刷新目前记录。

AV-HuBERT不仅能应对棘手转录场景的对话式人工智能系统,由于训练所需要的监督资料要少得多,因此还可以用来开发少资源的语言模型。另外,AV-HuBERT能够从语音和嘴唇动作中学习,所以也可用来开发更具包容性,适用于语言障碍者的应用。

因为AV-HuBERT能够捕捉声音和嘴巴的精细关联,也有助于侦测深度伪造,和其他被操纵,用来误导观众的内容,从另一方面来看,AV-HuBERT还能够被用于在虚拟现实中的替身角色,实现逼真的嘴唇动作,提供更真实的感觉。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20220111A0CKL700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券