首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

跨所有语言?Meta发布新语音模型,简直能让全球人无障碍交流

我们都知道,Facebook全身心all in 元宇宙,连“Face”都不要了,自家名字都改成了Meta。可能也正是为了自己的元宇宙愿景,Meta发布了自监督语音处理模型XLS-R,不要小看这个人工智能模型,它可是支持高达128种语言。

这个新的语音模型,简直可以说跨越全球人的不同语言障碍了,可以让大家各说各的,还能互相理解,彼此交流起来如同以同一种语言来沟通一样。可能说起来,类似于一个直译,把我说的语音以你的母语的方式转化出来。机智客这里表达的意思是,XLS-R要实现的场景是,我说我的汉语,你说你的英语,可是我们彼此之间都能丝滑秒懂,如同我们都在说汉语或者英语。这个语音模型,神奇吧。

虽然,多语言模型并不罕见,彼此翻译也实不鲜见。不过,据了解,XLS-R则是基于以前自己也就是以前的Facebook发布的wav2vec 2.0技术,通过自监督技术对10倍的语音数据进行训练,而大大改善了以前的多语言模型,尤其是针对小语种的处理。

可能有朋友知道谷歌发布的BERT模型,而wav2vec2.0则和BERT类似,不过它们的区别是,语音音频是一种连续的信号,不能轻易清晰地分割成单词或其他单位。机智客看资料显示,wav2vec 2.0通过学习25毫秒长的基本单元来解决这个问题,以便能够学习高级上下文表示。通过少量有标记训练数据的情况下,Meta的技术通过后续无监督的训练数据,在LibreSpeech测试基准的100小时子集上达到SOTA水平。之后,又通过高性能语音识别模型wav2vec-U来从录制的语音音频和未配对的文本中学习。其中还用到了GAN技术来学习识别音频录音中的单词。

也就是有了这一系列的技术实现基础,Meta这才推出了包含53种语言的XLSR。而最新的发布的XLS-R则远超XLSR,包含高达128种语言。它,包含20亿参数。其表现优于先前的工作,哪怕是小语种识别上。

遥想到,上帝为了阻止人类造通天塔而变乱人类的语言,使之各不相同,无法彼此直接沟通。现在Meta要“冒天上之大不韪”——把上帝扰乱的东西再捋顺统一过来,公然“逆天而行”,其心壮哉——厉害了我滴哥。算了不皮了,其实吧,当机智客试玩了那个在线Demo,随便录了一句汉语语音,Submit后看到Output的结果,差点笑出声来。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20211124A089YM00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券