首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Google 推出 3 款语音识别应用,想用 AI 帮语言障碍者“说话”

如何让听障人群接听电话,如何让语言障碍人群与外界对话?在脑机接口技术并不成熟的现阶段,要想完成这种不可能之事,就要指望人工智能和机器学习了。

Live Transcribe

今年 2 月,Google 在 Android 手机上推出的 Live Transcribe 应用程序,再到 5 月的 Google I/O,发布了能够实时转录语音 / 文字支持通话的 Live Relay,以及能够为语言障碍者实现语音转写的 Project Euphonia 项目。

在「帮助人们更好地沟通」这件事情上,这些应该是人工智能目前最前沿,并且能广泛应用的进展了。

应该是目前世界上最先进的语音识别应用产品

Live Transcribe

Live Transcribe 是 Google 针对耳聋及听力障碍人群开发的一款免费 Android 无障碍服务。基于此前在自动语音识别技术(ASR)的研究,Live Transcribe 将自动生成字幕的功能引入了手机设备。

较亮的内部同心圆代表噪声层,外部同心圆表示手机麦克风对说话人声音的接收状况。

使用 Live Transcribe 的场景是这样的:打开 Live Transcribe 这个软件后,它会实时读取外界的语音,并实时讲语音转录成为文字,在手机屏幕上显示出来。即使是说话者大笑、吹口哨等细节,也会有相应的文字提示。

也就是说只需一部联网的手机,便可实现实时的语音转文字功能。目前该软件已经支持超过 70 种语言。

但 Live Transcribe 的实时转录,不仅需要手机设备上的神经网络做声音分类,还需要依赖云端的三个神经网络模型,去完成语音转录成为文字的过程。

Sagar Savla 在展示 Live Transcribe

在我们向 Google AI Research Group 产品经理 Sagar Savla 问及,何时 Live Transcribe 才能实现完全在本地运行、不依赖云端网络时,他告诉我们:

我们正在做这样的工作,但目前没有准确的时间表。比如像中文这个语种,需要很大的模型,要想把很大的模型融入到终端设备并且保证其准确性,是很有挑战的。

Live Relay

Google 在今年的开发者大会上展示了 Live Relay 的能力:如何在听不到或者没法开口说话的情况下,轻松地打电话。

如果你因为语言障碍、社恐、拔牙等各种情况没法开口说话,在 Live Relay 的页面输入单词,这个文本会被迅速转换为音频,发到另一个人的手机上。

如果你因为听力障碍、身处噪音等情况没法听到声音, Live Relay 也可以把通话对方的语音转录成为文本。

目前 Live Relay 依然处于研究阶段,只能在特定的 Pixel 手机上使用,并且暂时只支持英文。

Live Relay 将完全在设备上运营,通过使用设备上的语音识别和文本到语音识别功能。

借助即时响应和预测性输入建议(smart relay 和 smart compose),打字速度提高后是可以与电话呼叫保持同步的。

在我看来,虽然 Live Relay 被归类到 Google 的无障碍项目,尤其为听障用户提供帮助,但其实很多人也可能用得上。比如在开会时突然接到重要电话,没法跑出去接听,那么 Live Relay 就能派上用场了。

Project Euphonia

据统计,渐冻症、多发性硬化症、脑外伤、中风等神经系统疾病的患者,通常也会出现语言障碍,外界通常没法理解这类人群说的话,以及表达方式。

Euphonia 项目在为语言障碍人群建立语音识别模型,以及能够识别手势、眨眼、面部表情等基于计算机视觉的模型,帮助他们更好地与外界沟通表达。

他们通过与渐冻症组织合作,训练 AI 去学习和识别渐冻症患者的声音,从而实现对他们发音的转录。

与此同时,他们还在正对特定的患者,训练个性化的 AI。

比如被诊断患渐冻症十多年的 Steve Saling,受特殊训练的模型可以识别出他看体育赛事时的脸部表情,从而确定他想要对外表达的情绪。

在他想喝彩时,电脑会发出吹喇叭(airhorn)的声音;喝倒彩时,则发出嘘声(boo)。

Euphonia 项目的产品经理 Julie Cattiau 表示,他们所面临最大的困难是收集语音样本。因为有语言障碍的人在人群中占比不高,并且经常是有特定需求的,所以他们依然在招募寻找适合做这种语言识别研究的人。

无障碍的新定义:确保每个用户意图都被理解

尚有余力的科技公司,在产品设计、开发的时候都会或多或少地考虑信息无障碍(Accessibility)。

某种程度而言,信息无障碍是智能产品交互设计中针对特殊人群的一个功能,它可以让人们更加平等地享用产品在硬件和软件上的各项功能。

科技产品中的「无障碍」,相当于互联网世界中的盲道、扶手、助听器、义肢。

无论是 Android、iOS 系统中的无障碍功能菜单、读屏功能、放大镜功能、反差颜色设置,还是一些 app 接入了无障碍套件、为功能按钮添加「标签」,这些都是很基础的无障碍用户体验。

基础的无障碍用户体验,是为了让用户能够更准确接收到手机、电脑、app 等产品所发出的信息。

而 Google 借助人工智能和机器学习,让无障碍从「用户准确接收机器信息」,向「确保用户意图被机器理解」进化迭代。

这也意味着,「无障碍」在未来将是一种新的人机交互方式。它可以为特定人群展示提供更多的信息,也在让用户更便捷迅速地操作,更重要的是向「让我来帮助你完成」演化。

技术的发展在重新定义「无障碍」,也对产品、科技公司提出了新的要求。一个能将无障碍体验做好的产品,通常也能为普通用户提供更好的体验。

点一下,让更多人知道

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190804A0EC6S00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券