谷歌公司开发出高速、离线语音识别技术

据科技资讯网站zdnet(www.zdnet.com)报道,谷歌开发出了可在未联网的Nexus 5智能手机上实时运行的语音识别系统。该系统无需通过远程数据中心进行运算,所以在没有可靠网络的情况下亦可通过智能手机、智能手表或其他内存有限的电子设备使用语音识别功能。

谷歌的科研人员表示,研发该系统的目的是创建在本地运行的轻量级、嵌入式、准确度高的语音识别系统。轻量级是指这套系统仅20.3MB,而在搭载2.26GHz CPU和2GB内存的Nexus 5上测试时,系统在开放式听写任务中的错误率仅为13.5%。

当然,就像谷歌近年来许多研究一样,这套系统也受到机器学习技术的支持——也就是“长短期记忆(LSTM)递归神经网络(RNN),使用链结式临时分类(CTC)和状态级最小贝叶斯风险(sMBR)技术进行训练”。为降低系统要求,研究人员为听写和语音命令这两个截然不同的语音识别领域开发了同一个模式。他们使用多种技术,将声学模型压缩为原版的十分之一大小。

研究人员表示,如果提出“发送电子邮件给Darnica Cumberland:我们可以改天吗?”这样的命令,离线内嵌式语音识别系统就可以即刻转录并于之后在后台执行。但准确的转录需要结合个人信息才能实现,例如联系人的姓名。研究人员表示,在模型中集成设备联系人列表即可解决这一问题。

为训练声学模型,研究人员从谷歌语音搜索流量中提取了三百万句语音,时长达2000小时。为了让模型更加稳定,他们还加入了来自YouTube视频的噪音样本。他们开发出的原版声学模型有80MB。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-06-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏镁客网

黑科技 | 平面显微镜让失明者恢复视觉?莱斯大学推出可控制视觉系统

1777
来自专栏大数据挖掘DT机器学习

数据库数据挖掘知识点总结(Microsoft 时序算法)

前言 本篇文章同样是继续微软系列挖掘算法总结,前几篇主要是基于状态离散值或连续值进行推测和预测,所用的算法主要是三种:Microsoft决策树分析算法、Micr...

38610
来自专栏量子位

OpenAI推出开源机器人模拟软件Roboschool(附代码)

李林 编译自 OpenAI 量子位 报道 | 公众号 QbitAI 今天,马斯克和YC总裁Altman等硅谷名流共同创办的人工智能非营利组织OpenAI发布了一...

3489
来自专栏机器之心

前沿 | Science:自学习式人工智能可协助预测心脏病发作

选自Science 作者:Matthew Hutson 机器之心编译 参与:蒋思源、黄小天 近年来,将人工智能应用于医疗健康已经在蓬勃发展,机器之心也曾报道过医...

39012
来自专栏机器学习算法与Python学习

资源 | 中文NLP资源库

最近,在GitHub上,有人收罗了一份资源,汇集了40个关于中文NLP词库,涵盖了各个方面。

1372
来自专栏量子位

资源警告!有人收罗了40个中文NLP词库,放到了GitHub上

最近,在GitHub上,有人收罗了一份资源,汇集了40个关于中文NLP词库,涵盖了各个方面。

1793
来自专栏DT数据侠

信息过载叫苦不迭?机器学习教你如何将文本化繁为简

你在工作、学习中是否曾因信息过载叫苦不迭?有一种方法能够替你读海量文章,并将不同的主题和对应的关键词抽取出来,让你谈笑间观其大略。本文数据侠就使用Python对...

760
来自专栏BestSDK

Cloudsight推出图像识别API,免费开放给教育机构

如果自己研发做图像识别的成本比较高,尤其是在没有一个很好的硬件设施(GPU)的情况下,还是通过API比较合适。 ? 计算机科学学位的技术往往要落后于现实。许多学...

3883
来自专栏新智元

【ARM攒机指南——AI篇】5大千万级设备市场技术拆解

作者:重走此间路 编辑:闻菲 【新智元导读】单做算法无法挣钱,越来越多的公司都开始将核心算法芯片化争取更多市场和更大利益,一时间涌现出AI芯片无数。与CPU,G...

4016
来自专栏人工智能头条

七种基于云的机器学习服务

2364

扫码关注云+社区