谷歌公司开发出高速、离线语音识别技术

据科技资讯网站zdnet(www.zdnet.com)报道,谷歌开发出了可在未联网的Nexus 5智能手机上实时运行的语音识别系统。该系统无需通过远程数据中心进行运算,所以在没有可靠网络的情况下亦可通过智能手机、智能手表或其他内存有限的电子设备使用语音识别功能。

谷歌的科研人员表示,研发该系统的目的是创建在本地运行的轻量级、嵌入式、准确度高的语音识别系统。轻量级是指这套系统仅20.3MB,而在搭载2.26GHz CPU和2GB内存的Nexus 5上测试时,系统在开放式听写任务中的错误率仅为13.5%。

当然,就像谷歌近年来许多研究一样,这套系统也受到机器学习技术的支持——也就是“长短期记忆(LSTM)递归神经网络(RNN),使用链结式临时分类(CTC)和状态级最小贝叶斯风险(sMBR)技术进行训练”。为降低系统要求,研究人员为听写和语音命令这两个截然不同的语音识别领域开发了同一个模式。他们使用多种技术,将声学模型压缩为原版的十分之一大小。

研究人员表示,如果提出“发送电子邮件给Darnica Cumberland:我们可以改天吗?”这样的命令,离线内嵌式语音识别系统就可以即刻转录并于之后在后台执行。但准确的转录需要结合个人信息才能实现,例如联系人的姓名。研究人员表示,在模型中集成设备联系人列表即可解决这一问题。

为训练声学模型,研究人员从谷歌语音搜索流量中提取了三百万句语音,时长达2000小时。为了让模型更加稳定,他们还加入了来自YouTube视频的噪音样本。他们开发出的原版声学模型有80MB。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-06-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

数据库数据挖掘知识点总结(Microsoft 时序算法)

前言 本篇文章同样是继续微软系列挖掘算法总结,前几篇主要是基于状态离散值或连续值进行推测和预测,所用的算法主要是三种:Microsoft决策树分析算法、Micr...

36610
来自专栏奇点大数据

入门深度学习应该学什么

最近被人问的最多的一个问题是“我想入门深度学习,我应该学些什么”。 老实说,这个问题不是那么好回答,毕竟每个人的知识背景和技能背景实在是太不一样了。如果要假设...

3657
来自专栏BestSDK

不只是PS,5款最好的安卓界面设计工具

1. Balsamiq 如果说要追求一种静态手绘文艺风格的产品线框图,Balsamiq绝对是一个优秀的选择。这款工具中所有的组件都是手绘风格,相信这种文艺气息会...

2993
来自专栏AI研习社

Tensorflow 1.0;TensorFlow 兼容 Spark;Python 迁移到 GitHub | AI 研习社周刊

【AI研习社】关注AI前沿、开发技巧及技术教程等方面的内容。欢迎技术开发类文章、视频教程等内容投稿,邮件发送至:zhangxian@leiphone.com 2...

3024
来自专栏人工智能头条

七种基于云的机器学习服务

2044
来自专栏Python中文社区

Python自然语言处理资料库

LTP [1]- 语言技术平台(LTP) 提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。经过哈工大...

2599
来自专栏玉树芝兰

如何用Python做情感分析?

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地。本文帮助你一步步用Python做出自己的情感分析结果,难道你不想试试看?

792
来自专栏AI研习社

【头条】谷歌发布全新TensorFlow 库tf.Transform;百度将Ring Allreduce算法引入深度学习

谷歌发布全新 TensorFlow 库“tf.Transform” 谷歌表示,tf.Transform 将改善 TensorFlow 的数据预处理和格式转化难题...

3654
来自专栏BestSDK

Cloudsight推出图像识别API,免费开放给教育机构

如果自己研发做图像识别的成本比较高,尤其是在没有一个很好的硬件设施(GPU)的情况下,还是通过API比较合适。 ? 计算机科学学位的技术往往要落后于现实。许多学...

3213
来自专栏量子位

资源警告!有人收罗了40个中文NLP词库,放到了GitHub上

最近,在GitHub上,有人收罗了一份资源,汇集了40个关于中文NLP词库,涵盖了各个方面。

853

扫码关注云+社区