专栏首页人工智能头条语音识别准确率首超专业速记员,微软论文要点解读

语音识别准确率首超专业速记员,微软论文要点解读

【文】王艺 关注人工智能

投稿请联系wangyi@csdn.net或公众号后台留言


本周一,微软人工智能科研小组在arXiv上发表了一篇名为Achieving Human Parity in Conversational Speech Recognition的论文(详见http://dwz.cn/4p4IBi),宣布其语音识别系统的误字率首次低于人类专业打字员(听音速记)。

据该团队的统计表明,专业速记员在Switchboard数据集上(两个初次见面的人围绕某一特定主题谈话的语音样本集)的误字率为5.9%,在CallHome上(朋友及家庭成员间随意谈话的音频样本集)的误字率为11.3%。在这两个数据集上,该团队的语音识别系统(ASR)均战胜人类速记员。其实验成功的关键在于,合理的利用卷积神经网络及LSTM神经网络,配以自由格人机界面听觉训练以及一种新的空间平滑法。

本次试验对于语音识别方向的研究具有如下几方面的重要意义:

训练样本来自闲谈录音

长久以来,只有在被测样本为文章、报纸内容朗读、新闻播报等准确编写的内容的情况下,语音识别系统的准确率才能逼近人类。而本次试验所用的两个样本集均为人类闲谈的电话录音,电话闲谈中用词语法方面的不正式、不准确导致了系统理解对话难度的加大。且电话闲谈中夹杂着大量的自我更正以及表示迟疑等情感因素的语气词,这对系统造成了不小的挑战。

论文中也有提到,目前,系统还不能很好地区分表示示意对方说话(当前讲者自己的话已经告一段落)的“嗯…”和表示迟疑(当前讲者还要继续讲话)的“嗯…”。二者虽然是同样的语气词,但包含的含义可是截然相反。论文中的表格9对此详细地进行了说明。

注:

CH:CallHome数据集

SWB:Switchboard数据集

数字表示发生错误的次数

数字后为发生混淆的词语A/B

从表格中不难看出,在这两个数据集上的测试结果均显示,该系统在上述两种情况下发生的错误远高于其他情况。

20年来重新测量人类误字率

人类对于音频识别的误字率曾长期被认为是4%,但该数据较为久远,于1997年提出。(详见http://dwz.cn/4p7QWz)该数据为糅合了从单个单词识别到闲聊对话共10个不同特性的数据集的测量结果,且数据源并不非常权威。

因此,微软小组对于人类的误字率进行了重新测量,结果为上文所示的Switchboard(5.9%)及CallHome(11.3%)。更细节一些,针对CallHome数据集,人类速记员会记错4.1%的单词,落记6.5%。ASR系统会错记6.5%,但只落记3.3%。ASR系统以微弱的比率超过了人类。

首超人类如何实现

本次试验的首创性在于其卷积神经网络层数更多更深,且层与层之间采用了线性回路的连接方式。体系结构方面,该系统应用LACE模型提升了整体性能。LACE模型通过迭代的方式逐层扩张有效的滑动窗口大小,且为权重不同的文本附加了额外的掩码。(LACE模型详见 http://dwz.cn/4p3ywq)

其空间正则化技术也在传统的深度神经网络基础上有所推进,不需要额外的监督信号来刺激网络。且首创性地使用了自由格人机训练方式,通过三音素与单音素混合的语料模式提升了实验效果。在语料建模方面,采用正反双向的LSTM-LMs加之域内域外两阶段训练模式。以上因素的结合使该团队的卷积神经网络系统比同行业误字率下降了23%。

本文分享自微信公众号 - 人工智能头条(AI_Thinker),作者:王艺

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-10-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 宇宙、人类、人工智能之春秋战国(1)分歧初现

    用户1737318
  • IBM PowerAI人工智能12小时编程马拉松大赛——“我是大侦探”成功落幕

    用户1737318
  • Infer:Facebook开源代码静态分析工具

    用户1737318
  • 这是300年后的人类生活!你相信吗?

    导读:随着科技的不断更新,关于未来,人们越来越向往。300年后人类社会的发展,又会是什么样子呢?对于未来,大家又是怎么预测的呢?

    华章科技
  • 300年后的人类生活,令人难以置信

    钱塘数据
  • 科学家教机器人学会尊重人类的私人空间

    关于人类,机器人还需要了解得更多,包括如何尊重他们的私人空间。阿根廷圣胡安国立大学自动化研究所的科学家正在教移动机器人一个避免与人类碰撞的速成课程。 研究人员将...

    机器人网
  • 【AI快报】IBM将大幅裁员换血 | 全国首个机器人学院在京成立

    机器人学院 机器人有了正规军 全国首个机器人学院在京成立 ? 北京联合大学机器人学院在京成立。这是全国首个机器人专业的全日制本科二级学院。该学院将于2016年首...

    新智元
  • 干货 | Java8 新特性指导手册

    小伙伴们,Java 版本都到 12 啦,我发现还有很多小伙伴对 8 的新特性不是很了解。

    Java技术江湖
  • java之==操作符和equals操作符

    说明:a1和b1指向的是同一个String,而a2和b2指向不同的String,所以a2.equals(b2)只比较值返回true,==比较引用返回false。

    绝命生
  • 特朗普放中兴一条生路, “玻璃幕墙”仍在,中国芯需加速自主生态

    新智元

扫码关注云+社区

领取腾讯云代金券