专栏首页AI科技评论动态 | 新里程碑!微软语音到文字转录已经达到人类水平

动态 | 新里程碑!微软语音到文字转录已经达到人类水平

AI 科技评论按:语音到文字的转换是语音研究领域的重要课题。自引入神经网络的方法以来,语音识别正确率有了长足的进展,也为苹果 Siri、亚马逊 Echo、科大讯飞语音输入法等等实际产品提供了生长的土壤。面对算法识别总还是比人类要差一些的现状,微软刚刚发布一篇博文公布了自己的最新成果,达到人类水平已经不是梦想。AI 科技评论编译如下。

2016年,微软语音和对话研究团队对外公布了一则里程碑性的消息,他们在 Switchboard 数据库的对话语音识别任务中达到了人类的一致性水平,这意味着他们的系统识别对话中文字的能力已经和专业的人类转录员一样好。

当时微软的研究人员们测量的这个转录系统的单词误识别率为5.9%,这个表现已经达到了他们测量的人类转录员的水平;其它的研究人员也进行了自己的研究,运用了一个更加深入的多转录员协作模式,达到了更好的5.1%的人类平均单词错误率。这个结果和更早的研究是相符的,其中表明如果人类更仔细、更努力地去做,他们就能够对对话中出现的确切单词有更高的一致性。

一年后的8月20日,微软语音和对话研究团队负责人黄学东兴奋地公布了他们的最新进展,他们的语音识别系统也达到了同样的5.1%的错误率。这是业界的新的里程碑,也比他们去年的成绩又有显著的提高。研究的细节在他们一同发表的论文「The Microsoft 2017 Conversational Speech Recognition System」中进行了详细介绍。

Switchboard 是一个录制的电话对话语料库,语音研究界用这个语料库测试语音识别系统的表现已经有20多年的时间。测试任务是对陌生人之间关于运动和政治话题的讨论进行从语音到文字的转录。

相比去年的单词误识别率,今年的系统又把它下降了12%。这个新系统在他们使用的基于神经网络的语音语言模型上又继续加入了一系列改进,其中添加了一个额外的 CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory,带有双向LSTM的卷积神经网络)用来提升语音建模的效果。并且,系统中以前就在使用的从多个语音模型进行综合预测的方法,如今在帧/句音级别和单词级别下都可以发挥效果。

除此之外,微软的研究员们还根据整个对话过程的历史记录来预测接下来可能会说的话,进一步加强了识别器的语言模型,大大增强了模型对话题和局部上下文的适应能力。

在开发过程中,研究团队也从自家的大规模深度学习软件 Microsoft Cognitive Toolkit 2.1 (CNTK) 中获益匪浅,不管是探索模型架构还是优化模型的超参数。并且,微软在云计算基础设置方面的投资,尤其是 Azure 云GPU,也帮助提升了训练模型、测试新想法的效果和速度。

在过去的25年中,达到与人类水平的错误率都是这个领域的研究目标。如今,微软在长期研究中的投入已经证明了它们的价值,微软未来也会在 Cortana、Presentation Translator、Microsoft Cognitive Services等自家产品和服务中让用户们感受到这些技术的好处。看到百万级的用户每天使用这些产品,微软的研究团队也感到非常欣慰。

在语音识别方面,业界和学术界有许多研究团队都做出了杰出的贡献,微软研究团队也表示自己从这个领域的整体发展中得到了很大收获。不过,虽然在 Switchboard 语音识别任务中取得了5.1%错误率这样的喜人成果,整个语音研究领域还有许多的挑战等待克服,比如在有噪音、录音距离较远的场景下,在语音有口音的情况下,在只有非常有限的讲话风格和语言训练数据的条件下,达到接近人类水平的语音识别效果都还是很大的困难。另一方面,在教会了电脑把语音转换为文字之后,下一步还要教会电脑理解其中的含义和目的。在微软研究团队看来,从语音识别到语音理解将会是语音相关技术的下一个重要前沿。

论文地址:https://www.microsoft.com/en-us/research/publication/microsoft-2017-conversational-speech-recognition-system/

via Microsoft Research Blog,AI 科技评论编译

本文分享自微信公众号 - AI科技评论(aitechtalk),作者:晓凡

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-08-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 干货 | 极限元算法专家:深度学习在语音生成问题上的典型应用 | 分享总结

    AI 科技评论按:深度学习在2006年崭露头角后,近几年取得了快速发展,在学术界和工业界均呈现出指数级增长的趋势;伴随着这项技术的不断成熟,深度学习在智能语音领...

    AI科技评论
  • 业界|科大讯飞语音识别框架最新进展——深度全序列卷积神经网络登场

    导读:目前最好的语音识别系统采用双向长短时记忆网络(LSTM,LongShort Term Memory),但是,这一系统存在训练复杂度高、解码时延高的问题,尤...

    AI科技评论
  • 业界 | 腾讯论文入选Interspeech 2017:在单通道语音分离中应用的深度神经网路的训练优化

    AI 科技评论按:2017年8月20日,语音通信领域的国际顶级学术会议Interspeech 2017在瑞典斯德哥尔摩召开,腾讯音视频实验室王燕南博士的一篇论文...

    AI科技评论
  • 语音巨头时代来临!谁将是中国Siri?

    大约一年前,中国移动以13.6亿人民币的代价获得了科大讯飞15%的股权,后者股价一路攀升,从不足30元到最高61元,成为一大牛股,市值高达240多亿人民...

    罗超频道
  • 近期分享干货,使用python实现语音文件的特征提取方法

    python编程语言无疑是人工智能最重要的语言之一,但是其中语音识别是当前人工智能比较热门的方向,百度的小度机器人、阿里的天猫精灵等其他各大公司都推出了各自的语...

    Python编程大咖
  • 语音直播平台源码打造不同服务场景常用技术解决方案

    以声音这种更方便、亲近的交流方式能传递的信息比文字更多,语音、语气、语调甚至停顿长短都能反应一个人的情绪变化,不少年轻用户看来,声音可以让自己更贴切地感知到对方...

    布谷安妮
  • 神一样的文字转语音软件,不仅免费功能还强大

    之前给大家推荐过小程序分享丨智能文字转语音神器,讯飞快读这个小程序可以解决大家文字转语音的问题,小轻论坛也绑定了讯飞快读,大家可以在公众号的菜单栏打开这个小程序...

    半夜喝可乐
  • 语音控制:企业计算的下一个重大突破

    如果说2007年 iPhone 的发布开启了近十年来消费者信息传达被屏幕和视觉统治的时代,那么,语音将成为继智能手机之后企业科技界下一个最大的颠覆。

    人称T客
  • AI语音交互领域常用的4个术语

    语音合成标记语言的英文全称是Speech Synthesis Markup Language,这是一种基于XML的标记语言,可让开发人员指定如何使用文本转语音...

    曼孚科技
  • 科大讯飞,站在十字路口

    在位于合肥规划中三到四平方公里的中国语音产业园,建筑机械群正在紧张作业。在竣工的讯飞大厦里,两千多名科大讯飞员工围绕“声音”忙碌着。在移动互联网的风口,...

    罗超频道

扫码关注云+社区

领取腾讯云代金券