在不重新训练的情况下教语音识别器学习新词
近年来,自动语音识别(ASR)已转向全神经网络模型。连接时序分类(CTC)损失函数因其预测不依赖于先前上下文,从而产生推理延迟低的简单模型,成为端到端ASR的一个有吸引力的选择。与早期使用词典匹配音素和候选词的混合ASR模型不同,全神经模型难以适应生僻词或不熟悉的词。对CTC模型进行新词偏置尤其困难,因为它缺乏上下文:即模型在任何给定时间步的预测都独立于先前时间步的输出,这种相同的预测方案虽然能实现低延迟解码,但也带来了挑战。
对于操作词汇不断变化的ASR应用而言,这是一个问题。例如,当像“Zelenskyy”这样的新名字进入对话时,或者当用户向通讯录添加新名字时。通过包含新词的新数据集重新训练ASR模型来更新大型模型,是耗时且计算密集度极高的方法。
在今年的SLT研讨会上发表的一篇论文中,描述了一种使CTC模型能够正确转录新实体名称而无需重新训练的方法。该方法包含多种技术,用于使模型偏向列表中的名称。这些技术既适用于模型的编码器(将输入转换为向量表示),也适用于其集束搜索解码器(评估候选输出序列)。这些技术可以组合应用,以最大化准确转录的可能性。
在一个包含疾病和药物名称等困难医学术语的数据集上,使用该方法将ASR模型在这些实体上的F1分数从无偏置模型的39%提升至62%。同样,在一个包含欧洲议会录音的公开数据集上,该方法将罕见实体(城市名称、人名等)的识别F1分数从49%提升至80%,且无需重新训练基础ASR模型。
偏置方法
联合模型
最后,提出了一个联合模型,结合了上述编码器和解码器偏置技术。正如预期的那样,这些技术是互补的,并产生了叠加的增益。从概念上讲,编码器偏置方法有助于为其复制的罕见子词生成更高的概率分数,这有助于防止罕见子词在子词图的集束搜索解码过程中被剪枝。而解码器偏置技术则进一步提升了罕见词和OOV词的候选路径在图中排名靠前的可能性。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。