首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Alexa实时对话翻译技术解析

Alexa实时对话翻译技术解析

原创
作者头像
用户11764306
发布2025-10-30 13:00:05
发布2025-10-30 13:00:05
1010
举报

Alexa实时对话翻译功能技术解析

编者注:某中心的实时翻译功能已于2023年10月31日停止服务,但支撑该功能的技术创新已适配部署到其他智能助手功能中。

某中心推出了智能助手的新实时翻译功能,使使用两种不同语言的个体能够相互交谈,智能助手充当翻译器,转换对话双方的语言。

通过此新功能,用户可以要求智能助手启动一对语言的翻译会话。会话开始后,用户可以用任一种语言说出短语或句子。智能助手将自动识别正在使用的语言并翻译对话的每一方。

该功能首发支持六对语言——英语与西班牙语、法语、德语、意大利语、巴西葡萄牙语或印地语——在区域设置为美国英语的智能音箱设备上运行。

技术架构

实时翻译功能利用了多个现有系统,包括智能助手的自动语音识别系统、某机构的机器翻译服务和智能助手的文本转语音系统,整体架构和机器学习模型专为会话语音翻译设计和优化。

语言识别

在翻译会话期间,智能助手并行运行两个自动语音识别模型,同时运行一个独立的语言识别模型。输入语音同时传递给两个自动语音识别模型。然而,根据语言识别模型的分类结果,仅将一个自动语音识别模型的输出发送到翻译引擎。

这种并行实现对于保持翻译请求的延迟在可接受范围内是必要的,因为等待语言识别模型返回结果后再开始语音识别会延迟翻译音频的播放。

此外,发现语言识别模型在基于语音信号的声学信息和两个自动语音识别模型的输出做出决策时效果最佳。自动语音识别数据通常有帮助,例如在处理非母语使用者的情况时,其语音通常具有一致的声学特性,无论所说的语言如何。

语言识别系统选择语言后,相关的自动语音识别输出经过后处理并发送到某机构的翻译服务。生成的翻译结果传递到智能助手的文本转语音系统进行播放。

语音识别

与大多数自动语音识别系统一样,用于实时翻译的系统包括声学模型和语言模型。声学模型将音频转换为音素(语音的最小单位);语言模型编码特定词串的概率,这有助于自动语音识别系统在相同音素序列的替代解释之间做出决策。

用于实时翻译的每个自动语音识别系统,如同智能助手现有的自动语音识别模型,包含两种类型的语言模型:传统语言模型(编码相对较短词串的概率,通常约四个词)和神经语言模型(可以考虑更长范围的依赖关系)。实时翻译语言模型经过训练,处理比智能助手现有自动语音识别模型更会话化、覆盖更广主题的语音。

为了训练声学模型,使用了连接时序分类,随后进行多轮状态级最小贝叶斯风险训练。为使声学模型更稳健,还在训练集中混合了噪声,使模型能够聚焦于在不同声学条件下变化较小的输入信号特征。

细节优化

适应会话语音还需要修改智能助手的端点检测器,该检测器确定用户何时结束说话。端点检测器已经能够区分句子末尾的停顿(表示用户已停止说话,智能助手需要跟进)和句子中间的停顿(可能允许持续稍长时间)。对于实时翻译,修改了端点检测器以容忍句子末尾更长的停顿,因为参与长时间对话的说话者通常会在句子之间花时间组织思路。

最后,由于某机构的神经机器翻译系统设计用于处理文本输入,实时翻译系统调整了常见的非流利现象,并为自动语音识别输出添加标点和格式化。这确保发送到某机构翻译服务的输入更类似于其习惯看到的书面文本。

持续改进

在持续工作中,正在探索几种进一步改进实时翻译功能的方法。

其中之一是半监督学习,其中智能助手的现有模型为未标记数据添加注释,并使用最高置信度的输出作为翻译特定自动语音识别和语言识别模型的额外训练示例。

为了提高翻译的流畅度及其对口语输入的稳健性,还在努力使神经机器翻译引擎适应会话语音数据,并生成包含相关上下文(如语调或正式与非正式翻译)的翻译。最后,持续努力改进整体翻译质量,特别是口语和习惯表达的质量。

研究领域

对话AI

标签

智能助手、机器翻译

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Alexa实时对话翻译功能技术解析
    • 技术架构
      • 语言识别
      • 语音识别
      • 细节优化
    • 持续改进
    • 研究领域
    • 标签
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档