首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Google云计算语音转文本服务采用Conformer新模型,将大幅提升识别品质

Google云计算在其语音转文本API(Speech-to-Text API,STT)采用Conformer新模型,以提高STT所支持23种语言和61种区域口音的语音识别准确性。新模型可能与现有模型的功能略有不同,不过皆提供相同的稳定性和支持。

Google提到,这是一项重大技术改进,使用当前最新的机器学习技术,是他们在语音识别神经串行到串行模型研究8年来的阶段性成果,其经过大量研究和优化,使模型能够适用于不同的用例、噪音环境,并提供最佳的结果。

Google解释了新模型与当前模型的不同,过去自动语音识别技术都是基于单独的声音、发音和语言模型,这三个单独的组件会独立训练,最后组装在一起进行语音识别,而Conformer新模型,则是单一神经网络。

与过去需要组合三个独立模型的方法不同,Conformer模型能够更有效地使用模型参数,由于这个架构是带有卷积层(Convolution Layer)的Transformer模型,因此才称为Conformer,该架构能够捕捉语音信号中的区域和全局资讯。

开发者现在使用STT API可立即看到新模型所带来的品质改进,虽然用户仍然可以通过调整模型,来改进模型性能,但是Conformer新模型不需要用户进行任何动作,就能明显感觉品质提升。

新模型支持更多不同类型的语音、噪音和声音条件,使得用户可以将语音技术嵌入应用程序中,并在更多环境产生更准确的输出。智能应用程序的用户,将可以自然地用更长的句子,跟应用程序交互,不需要担心语音能否被准确截取。

用户只要在使用STT API时,添加新标签latest long和latest short,便可以访问最新的Conformer模型,latest long针对视频等应用设计,可以处理长篇语音,而latest short则是用于命令或是短语上,能提供更好地品质和低延迟。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20220423A09NTZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券