Voiceitt将语音革命延伸至言语不标准的人群
根据美国国家耳聋与其他沟通障碍研究所的数据,美国约有750万人存在言语使用障碍。随着计算机技术从文本界面转向语音界面,言语不标准的人群面临着被时代抛弃的风险。
位于以色列拉马特甘的初创公司Voiceitt表示,致力于确保这种情况不会发生。通过Voiceitt,用户可以训练适应其自身语音模式的个性化语音识别模型,从而与语音控制设备或其他人进行交流。
上周,Voiceitt宣布其应用正式公开发布。某中心的风险投资基金项目——Alexa基金是Voiceitt的早期投资者,与Alexa的集成已内置在Voiceitt应用中。
Voiceitt产品副总裁Roy Weiss表示:“我们看到确实有用户专门为了使用Alexa而选择Voiceitt。他们能看到直接且相当即时效果。从第一条指令开始,他们就解锁了以前无法访问的功能。”
一位患有脑瘫的Voiceitt用户说:“现在我不必再叫我的父母进来,或者叫我的护工或助手进来,告诉他们‘嘿,我需要这个,我需要那个’,我可以独立完成了。我一直在用它……我用它来做所有事情。”
另一位Voiceitt用户写道:“在经历了三年多的言语运动障碍,包括三年的言语功能障碍和两年无法被理解的言语之后,Voiceitt是我重获声音的关键部分。”
应用功能
Voiceitt的界面是一个iOS移动应用,有两种模式:对话模式让用户使用合成语音和手机扬声器与他人交流;智能家居模式让用户与Alexa进行交互。
每种模式都有一组语音类别。对话模式的类别是诸如交通、购物、就医等场景;智能家居模式则是灯光、音乐、电视控制等Alexa功能。
每个类别包含一组常见的预定义短语。在智能家居模式下,这些短语是Alexa命令,例如“打开灯”用于开灯。命令可以配置为触发特定动作;例如,“打开灯”可以配置为打开特定房间的特定灯。用户需要多次重复每个短语来训练个人语音识别模型。
为不标准语音建模
Voiceitt语音识别团队负责人Filip Jurcicek表示,识别非标准语音与普通语音识别在一些根本方面存在差异。
当训练数据稀疏时(正如Voiceitt的情况,因为数据由用户即时生成),自动语音识别的常见方法是流水线方法。在该方法中,声学模型将声学数据转换为音素(语音中最短的单元);“词典”提供音素在单词层面的候选解释;语言模型则通过考虑每种可能的单词解释的概率,在可能的解释中进行裁决。
但Voiceitt的首席算法研究员Matt Gibson解释道:“我们需要看得比那些音素级特征更远。我们经常看到与标准发音的偏差。例如,如果一个单词以爆破音如‘b’或‘p’开头,说话者可能一致地在它前面加上‘n’或‘m’音——‘mp’或‘mb’。” 这可能会给从声音到音素、从音素到单词的传统映射带来问题。因此,Jurcicek说:“我们必须将短语作为一个整体来看待。”
近年来,大多数商业ASR服务已从流水线方法转向端到端模型,其中单个神经网络以声学信号作为输入并输出文本。这种方法可以提高准确性,但需要大量的训练数据。
通常,端到端ASR模型使用循环神经网络,该网络按顺序处理序列输入。声学信号在被传递给循环神经网络之前,会被分割成一系列仅持续几毫秒的“帧”。
为了“将短语作为一个整体来看待”,Jurcicek说,Voiceitt转而使用卷积神经网络,它以更大块的声学信号作为输入。卷积神经网络最初设计用于在图像中任何位置寻找特定的像素模式,同样地,它可以在信号中任何位置寻找具有指示性的声学模式。
Jurcicek说:“只要用户在发音上保持一致,这就给了我们利用这种一致性的机会。我相信这正是Voiceitt为用户真正增加价值的地方。发音不必遵循标准词典。”
当用户训练他们的定制模型时,Voiceitt使用他们的录音语音进行训练和测试。一旦模型的输出置信度超过某个阈值,该短语就被“解锁”,用户可以开始使用它来控制语音助手或与他人交流。
但训练并不会就此停止。用户每次使用一个短语,都会为模型提供更多训练数据,Voiceitt表示其会持续更新模型以提高性能。
未来发展
目前,Voiceitt有限的行动菜单意味着可以为每个用户学习和存储单独的模型。但Voiceitt计划大幅扩展服务规模,因此Voiceitt的研究人员正在研究更高效的模型训练和存储方法。
Gibson说:“我们正在研究如何聚合现有模型,以形成一个更通用的背景模型,然后将其作为适应新用户的起点。可能找到用户之间的共性并将他们聚类分组。”
然而,与此同时,Voiceitt已经在改变其用户的生活。许多有言语使用困难的人也存在肢体和手部活动困难。对他们来说,Voiceitt不仅提供了与语音助手交互的能力;它提供了有时是前所未有的控制其环境的能力。在上面的视频中,首次使用Voiceitt的用户的反应证明了这种能力可以带来多么巨大的改变。
Weiss说:“看到这些真的非常鼓舞人心。我们都感到非常荣幸能够创造出一个真正能在改变用户生活方面发挥作用的产品。”FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。