首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Meta运用圣经译本与录音改进语音模型,现可支持超过千种语言

Meta大幅推进语音识别技术,发布的单一多语言语音识别模型MMS(Massively Multilingual Speech)模型,能够识别超过4,000种的口说语言,而这个数量是目前已知技术的40倍。MMS也使得文本转语音,以及语音转文本技术,从原本只能用于约100种语言,现在扩展到1,107种。

要训练出能够识别大量语言的模型,Meta第一个遭遇到的困难是收集各种语言的音频资料,目前最大的语音资料集,也只不过涵盖100种语言而已,研究人员想到一个克服难题的方法,是利用圣经等宗教文本,这些文本已经被大量翻译成各种不同的语言,而且圣经翻译本也被广泛地用在文本语言翻译研究上。

这些宗教文本翻译也有公开的录音,因此Meta研究人员利用这些录音,创建出1,100多种语言的新约圣经音频资料集,每种语言平均有32小时的录音资料。除了圣经之外,还有许多基督教宗教读物无标签录音,也能够被拿来训练模型,使Meta得以将可用语言数量扩张至4,000多种。

Meta研究人员提到,经过他们的分析,虽然这些录音资料主要都是男性说话者的声音,但MMS模型处理男性和女性声音的性能表现一致,另外,训练资料内容来自于宗教,不过这并不会使模型产生更多的宗教语言。

语音技术被大量用在虚拟以及增强实境上,目的是让每个用户通过母语,理解网络上其他人的话语,官方也表示,目前地球已知有7,000多种语言,许多语言正不断的消失,更强大的语言技术将有助于保护这些语言。Meta现在开源MMS模型以及程序代码,供研究社群能够以这些基础进行后续研究。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230524A06DE800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券