专栏首页ATYUN订阅号语音识别揭秘,它与人工智能是什么关系?

语音识别揭秘,它与人工智能是什么关系?

编辑 | TGS 发布 | ATYUN订阅号

自1962年IBM推出第一台语音识别机器以来,语音识别科学已经走了很长一段路。这已经不是什么秘密了。

随着技术的发展,语音识别已越来越多地渗透到我们的日常生活中,这些语音驱动应用程序包括Amazon的Alexa, 苹果的Siri,微软的Cortana或Google的许多语音响应功能。

从我们的电话,计算机,手表甚至冰箱,生活中的每一个新的语音交互设备都会加深我们对人工智能(AI)和机器学习的依赖。从语音识别来看,真正的人工智能距离我们还有多远?

简单了解语音识别

在我们的生活中,语言是传递信息最重要的方式,它能够让人们之间互相了解。人和机器之间的交互也是相同的道理,让机器人知道人类要做什么、怎么做。交互的方式有动作、文本或语音等等,其中语音交互越来越被重视,因为随着互联网上智能硬件的普及,产生了各种互联网的入口方式,而语音是最简单、最直接的交互方式,是最通用的输入模式。

在1952年,贝尔研究所研制了世界上第一个能识别10个英文数字发音的系统。1960年英国的Denes等人研制了世界上第一个语音识别(ASR)系统。大规模的语音识别研究始于70年代,并在单个词的识别方面取得了实质性的进展。上世纪80年代以后,语音识别研究的重点逐渐转向更通用的大词汇量、非特定人的连续语音识别。

90年代以来,语音识别的研究一直没有太大进步。但是,在语音识别技术的应用及产品化方面取得了较大的进展。

自2009年以来,得益于深度学习研究的突破以及大量语音数据的积累,语音识别技术得到了突飞猛进的发展。

深度学习研究使用预训练的多层神经网络,提高了声学模型的准确率。微软的研究人员率先取得了突破性进展,他们使用深层神经网络模型后,语音识别错误率降低了三分之一,成为近20年来语音识别技术方面最快的进步。

另外,随着手机等移动终端的普及,多个渠道积累了大量的文本语料或语音语料,这为模型训练提供了基础,使得构建通用的大规模语言模型和声学模型成为可能。在语音识别中,丰富的样本数据是推动系统性能快速提升的重要前提,但是语料的标注需要长期的积累和沉淀,大规模语料资源的积累需要被提高到战略高度。

今天,语音识别在移动端和音箱的应用上最为火热,语音聊天机器人、语音助手等软件层出不穷。许多人初次接触语音识别可能归功于苹果手机的语音助手Siri。

Siri技术来源于美国国防部高级研究规划局(DARPA)的CALO计划:初衷是一个让军方简化处理繁重复杂的事务,并具备认知能力进行学习、组织的数字助理,其民用版即为Siri虚拟个人助理。

语音识别与人工智能

人工智能由约翰·麦卡锡于1956年首次提出,可以定义为“机器展示的人类智能”。在最初用于分析和快速计算数据的地方,人工智能现在允许计算机执行通常只有人类才能执行的任务。

语音识别作为常见的人工智能应用,它可以将口语单词转换为文本,对文本进行处理以得出其含义。由于人类经常以口语,缩写和首字母缩写讲话,因此需要对自然语言进行大量的计算机分析才能产生准确的转录。语音识别技术面临的挑战众多,但范围正在缩小。

其中包括克服不良的录音设备,背景噪音,难以理解的口音和方言,以及人们各种声音的变化。教机器学习人类读口语的能力尚未达到完美。聆听和理解一个人说的话远不止是听到一个人说的话。作为人类,我们还通过人的眼睛,面部表情,肢体语言以及语音中的语调和语调,解读话语的含义。语音的另一个细微差别是人类倾向于缩短某些短语(例如“我不知道”变成“不知道”)。这种人为的倾向对语音识别中的机器学习提出了另一个挑战。

机器正在学习“侦听”口音,情绪和曲率,但是还有很长的路要走。随着技术变得越来越复杂,特定算法使用了更多数据,这些挑战正在迅速被克服。随着人工智能的发展以及可以轻松挖掘用于机器学习目的的大量语音数据,它成为下一个主要交互界面也不足为奇了。

本文分享自微信公众号 - ATYUN订阅号(atyun_com),作者:关注人工智能的

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-12-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 附带深度语音伪造检测的语音平台

    人工智能与机器学习是合成语音的强大工具。无数研究表明,在最先进的模型中,只需几秒钟就可以精确地模仿受试者的声音韵律和语调。例如,百度最新的深度语音服务可以用3....

    AiTechYun
  • 【AI科技】想要与用户建立更好的关系?AI语音技术来帮你

    AI将会与当初的互联网一样,为各行各业赋能。有自然语言处理、机器学习、计算机视觉、AI算法驱动的语言增强现实和聊天机器人等等,每一项技术都可以给企业提供相当大的...

    AiTechYun
  • DeepMind和谷歌用人工智能重现了前NFL后卫蒂姆•肖的声音

    今年8月,谷歌人工智能研究人员与ALS治疗发展研究所合作,分享了一个针对有说话障碍的人的语音到文本转录服务Euphonia项目的细节。他们表明,使用母语和非母语...

    AiTechYun
  • 干货 | 极限元算法专家:深度学习在语音生成问题上的典型应用 | 分享总结

    AI 科技评论按:深度学习在2006年崭露头角后,近几年取得了快速发展,在学术界和工业界均呈现出指数级增长的趋势;伴随着这项技术的不断成熟,深度学习在智能语音领...

    AI科技评论
  • AI语音交互领域常用的4个术语

    语音合成标记语言的英文全称是Speech Synthesis Markup Language,这是一种基于XML的标记语言,可让开发人员指定如何使用文本转语音...

    曼孚科技
  • 谷歌正在研究能够让计算机合成语音更加自然的技术 | 黑科技

    镁客网
  • 语音巨头时代来临!谁将是中国Siri?

    大约一年前,中国移动以13.6亿人民币的代价获得了科大讯飞15%的股权,后者股价一路攀升,从不足30元到最高61元,成为一大牛股,市值高达240多亿人民...

    罗超频道
  • 超过十分之一的报告篇幅给语音,互联网女皇为何看好麦克风?

    KPCB合伙人、享有“互联网女皇”称号的玛丽·米克尔的互联网趋势报告于今天正式发布。毫不夸张地说,这份报告是互联网行业分析的“超级碗”,它用200多页的Keyn...

    罗超频道
  • 神一样的文字转语音软件,不仅免费功能还强大

    之前给大家推荐过小程序分享丨智能文字转语音神器,讯飞快读这个小程序可以解决大家文字转语音的问题,小轻论坛也绑定了讯飞快读,大家可以在公众号的菜单栏打开这个小程序...

    半夜喝可乐
  • 语音控制:企业计算的下一个重大突破

    如果说2007年 iPhone 的发布开启了近十年来消费者信息传达被屏幕和视觉统治的时代,那么,语音将成为继智能手机之后企业科技界下一个最大的颠覆。

    人称T客

扫码关注云+社区

领取腾讯云代金券