选自Awni 机器之心编译 参与:Nurhachu Null、路雪 深度学习应用到语音识别领域之后,词错率有了显著降低。但是语音识别并未达到人类水平,仍然存在多个亟待解决的问题。本文从口音、噪声、多说话人、语境、部署等多个方面介绍了语音识别中尚未解决的问题。 深度学习被应用在语音识别领域之后,词错率有了显著地降低。然而,尽管你已经读到了很多这类的论文,但是我们仍然没有实现人类水平的语音识别。语音识别器有很多失效的模式。认识到这些问题并且采取措施去解决它们则是语音识别能够取得进步的关键。这是把自动语音识别(
语音助手已经成为现代生活中不可或缺的一部分。人们可以通过语音助手进行各种操作,如查询天气、播放音乐、发送短信等。语音助手的核心技术是语音识别。本文将详细介绍语音识别的语音助手。
▊《人工智能:语音识别理解与实践》 俞栋 邓力 俞凯 钱彦旻 著 电子书售价:79.5元 2020年11月出版 本书是全面且深入介绍语音识别及理解相关技术细节的专著。 与我们在2014年出版的《解析深度学习:语音识别实践》相比,《人工智能出版工程 人工智能:语音识别理解与实践》在它的基础上做了大量改写,并对内容有大幅补充,详细总结了新的语音识别算法及应用技术以及在口语对话系统研究中基于深度学习的自然语言处理技术。 本书首先概要介绍语音识别、口语理解和人机对话的基本概念与理论:接着全面深入地依次详述传统声学模
《钢铁侠》里的AI管家贾维斯,想必大家都不陌生,这样可以像人一样和自己对话的AI管家,我们是不是都想拥有一个? 贾维斯之所以可以像人一样和我们对话,必然离不开语音识别技术的加持。 如今,从语音输入法到智能家居等,生活中到处都可以通过语音进行人机交互。 拥有一个贾维斯的梦想好像越来越近了! 为了让这个梦想更近一步,学习好语音识别技术势在必行! 今天,博文菌就给大家推荐一本语音识别领域的扛鼎之作——《人工智能:语音识别理解与实践(精装版)》,该书被列入“国家出版基金支持项目”,并入选为《人工智能出版工程》系列丛
本文介绍了人工智能语音交互的基本环节,包括语音识别、语音合成、语义理解和对话管理。文章还列举了一些著名的语音交互产品,如苹果的Siri、亚马逊的Echo和天猫魔盒等。最后,作者提醒读者,语音交互技术目前仍在不断发展中,尚未完全成熟,但未来具有广泛的应用前景。
【新智元导读】微软语音识别系统取得最新突破:微软的语音对话研究小组在Switchboard语音识别任务中,将错误率从去年的 5.9% 再一次降低到 5.1%,达到目前最先进水平。 去年,微软的语音与对话研究小组宣布在Switchboard 对话语音识别任务上达到人类水平,实现里程碑式的突破。 微软技术Fellow黄学东在微软官方博客上称,这意味着,他们创造了一种技术,可以在对话中识别词语,且与人类专业的速记员水平相当。 黄学东在博客上说:“在我们的转录系统达到5.9%的错误率之后,其他研究人员进行了自己的研
大数据文摘作品 大数据文摘记者 刘涵 魏子敏 “自然语言技术的未来,其关键点是“自然”两个字。” 11月最后一天,思必驰联合创始人、首席科学家俞凯博士在清华x-lab主办的人工智能研习社第七课上,如此评价自然语言处理,并与现场听众一起畅想了这一潜力巨大的技术将走向哪里。 图:11月30日,思必驰联合创始人俞凯在清华做了题为《认知型口语对话智能》的讲座。 刘涵 摄 在这场题为《认知型口语对话智能》的讲座上,俞凯认为认知交互面临的最主要的挑战一定不是语音,因为从语音识别的角度上来说,问题明确,只要专门向这个领
最近在研究语音识别方向,看了很多的语音识别的资料和文章,了解了一下语音识别的前世今生,其中包含了很多算法的演变,目前来说最流行的语音识别算法主要是依赖于深度学习的神经网络算法,其中RNN扮演了非常重要的作用,深度学习的应用真正让语音识别达到了商用级别。然后我想动手自己做一个语音识别系统,从GitHub上下载了两个流行的开源项目MASR和ASRT来进行复现,发现语音识别的效果没有写的那么好,其中如果要从零来训练自己的语言模型势必会非常耗时。
AI 科技评论按:语音到文字的转换是语音研究领域的重要课题。自引入神经网络的方法以来,语音识别正确率有了长足的进展,也为苹果 Siri、亚马逊 Echo、科大讯飞语音输入法等等实际产品提供了生长的土壤。面对算法识别总还是比人类要差一些的现状,微软刚刚发布一篇博文公布了自己的最新成果,达到人类水平已经不是梦想。AI 科技评论编译如下。 2016年,微软语音和对话研究团队对外公布了一则里程碑性的消息,他们在 Switchboard 数据库的对话语音识别任务中达到了人类的一致性水平,这意味着他们的系统识别对话中文
1 新智元推荐1 来源:微软研究院AI头条 【新智元导读】继 9月13日微软将对话语音识别错误率降至6.3%的记录后,前天再次宣布进一步将错误率降至 5.9%,首次达成与专业速记员持平且优于绝大多数人的表现。该成功归功于他们采用了一种神经语言模型,该模型在空间中被表现为连续的向量,计算机能通过该模型得知比如“fast”和“quick”是具有紧密联系的近义词。 一个月前,2016年9月14日,微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率(word error rate
编者按:邓力博士原为加拿大滑铁卢大学教授,1999 年加入微软,2016 年起担任微软首席人工智能科学家,负责微软深度学习技术中心应用趋向的深度学习研究。 在上周的 AI Frontiers 会议上,邓力博士为参会嘉宾做了口语对话系统的专题演讲。AI 科技评论与会记者将现场演讲记录下来,结合 PPT 为大家整理出这份演讲实录。此次邓老师介绍了口语对话系统的分类,三代演变史,以及三大研究前沿领域,可谓干货满满。NLP 领域的童鞋们不可错过。 邓力: 今天,我想讲一讲口语对话系统(Spoken Dialog
【新智元导读】微软语音识别技术24年老将黄学东近日被评为“微软全球技术院士”,成功摘下这一微软技术的“桂冠”。 黄学东于1993年加入微软。1995年,黄学东最终把洪小文也拉入微软。黄学东还曾在Bing工作,一直跟随沈向洋博士。接受新智元的专访时,他谈到了去年微软对话语音识别词错率低至5.9%背后的故事。 同时,黄学东认为语音识别的下一个大难关是语义理解,目前看来最有希望的路线是 LSTM + Attention。 黄学东,微软语音识别技术 24 年老将,IEEE/ACM 双科院士,微软深度学习工具包CNT
随着人工智能技术的不断发展,语音识别技术越来越成熟,语音技术的应用也越来越广泛。智能客服是其中一个应用领域,它通过语音识别技术,将用户的语音输入转换为文本,并通过自然语言处理技术,解决用户的问题。本文将详细介绍语音识别的智能客服。
选自IBM 作者:George Saon 机器之心编译 参与:吴攀、黄小天 去年十月,微软人工智能与研究部门的一个研究者和工程师团队报告他们的语音识别系统实现了和专业速录员相当甚至更低的词错率(WER)——达到了 5.9%,参考机器之心文章《重磅 | 微软语音识别实现历史性突破:语音转录达到专业速录员水平(附论文)》。但 IBM 官方博客今日发文宣称人类的水平实际上应该是 5.1%,而同时该文章还表示 IBM 的系统的词错率已经超越了之前微软报告的最佳水平,达到了 5.5%。IBM 宣称这是一个全新的突破,
以前,人们习惯于通过键盘和触控屏操控智能设备。未来三到五年,人们或许可以随时给身边智能设备、机器人下达指令,帮助订餐、订票,乃至端茶递水。过去,机器对语音识别度不高,对自然语言的语义更难以理解,阻碍了语音交互的应用。随着降噪技术、方言识别、远场识别、全双工交互、机器学习等技术的发展,使语音和语义识别理解有了大幅提升,让机器准确理解并执行人类指令成为可能。
最近百度组织架构调整一则消息,值得关注:度秘升级为事业部,由原微软小冰创造者之一的景鲲担任总经理,直接向CEO陆奇汇报。 事实上,2017 年度秘已经占据了不少新闻版面。比如在 2017 CES 上,由度秘研发的 DuerOS 正式亮相,这是一个基于语音交互的新一代人工智能操作系统,同时还联合小鱼在家一起推出了个人助理机器人,该产品也被 CNN 评为 2017 CES 上 14 项最酷产品之一。此次升级度秘事业部,也彰显出度秘、DuerOS在百度整个人工智能布局里的重要地位。 一、度秘是什么? 度秘(英文名
随着人工智能产品在生活中的渗透率越来越高,其中技术的发展也成为了众人关心的重点所在。作为人机自然交互的基本途径之一,近期以来,语音识别的发展不可谓不快速。 当下,诸如科大讯飞、百度等多家企业声称,其研发的语音识别技术已经达到了97%的准确率。而在日前,谷歌研究员公开表示其语音识别的错误率(将一个词语从语音转录成为文字时的错误率)自2012年以来已经降低了30%以上……纵观过去的2016年,谷歌、苹果和微软等多家科技巨头都公布了自己在语音识别上的进展和突破,而在接下来的时间里,语音识别也将是2017年的发展重
你知道吗?人类每听20个词,其实就有一两个成为“漏网之鱼”。而在一段五分钟的对话中,这一数字达到了80。但对于我们而言,少听一两个词并不会影响我们对语意的理解,然而想象一下,计算机如果要完成这件事有多难? 去年,IBM已经在语音识别领域走到了一个新的里程碑:系统的错误率降低为6.9%;而AI科技评论了解到,近日IBM Watson的语音识别系统将这个数字降到了5.5%。 清华大学的邓志东教授此前在采访中向AI科技评论表示,只有AI技术达到人类水平,它才有商业化的可能性。技术越来越接近人类水平也一直是人工
【新智元导读】 微软语音识别研究团队在黄学东的带领下,去年将语音识别的单词错误率降至5.9%,又在最近降至5.1%。在本次专访中,我们讨论了语音识别错误率百分之几的小数点在研究和实际应用上的意义。黄学东认为,从研究角度来说,这个意义十分重大,即便是0.1%的差距,无论是运算量还是时间,耗费都是巨大的。 达到人类水平,超越人类水平,人工智能研究领域的突破性进展。 以上赞誉被给予了微软最近的语音识别研究成果:其语音识别研究团队在黄学东的带领下,去年将语音识别的单词错误率降至5.9%,又在最近降至5.1%。 从研
对话式人工智能正在改变我们与计算机交互的方式。简单来说,对话式 AI 就是人与机器之间的交互,它识别语音和文本、意图以及各种语言,以模仿自然语言或人类对话。 我们可以看到,如今语音识别的应用远不止于“替代输入法”,手机中必备的语音助手、小屏的便携设备,乃至于智能家居、无人驾驶汽车语音指令交互等众多场景中,语音接入都扮演着不可或缺的角色。然而,当下基于深度学习的语音识别技术应用在实践场景下依然有着门槛偏高、难以快速普及的难题。 而 Nemo,一个基于 PyTorch 的开源工具包,正是为对「对话式人工智能」感
AI科技评论按:本月 18 日,由美中技术与创新协会(Association of Technology and Innovation,ATI)主办的第一届“AI NEXT”大会在西雅图召开。本次会议的主要嘉宾包括:微软首席 AI 科学家邓力,微软院士黄学东,Uber 深度学习负责人 Luming Wang 等。华人之外,还有亚马逊 Alexa 首席科学家 Nikko Strom,微软小娜架构师 Savas Parastatidis 等业内知名专家。 大会主题是“探索 AI 的潜力,把 AI 技术应用于实用
8月21日,微软宣布该公司的语音识别系统的错误率已经降至5.1%,这是目前为止错误率最低的,已经超过了去年由微软AI研究团队所创造的5.9%的成绩。 这两项研究都转录了总机语料库的录音,这是一个从20世纪90年代初就开始被研究人员用来测试语音识别系统的2400个电话对话的集合,这项新研究是由微软AI研究团队完成的,旨在让AI的语音识别达到与人类相同的准确度。 总的来说,最新研究的研究人员通过改进微软语音识别系统的基于神经网络的声学与语言模型,将错误率降低了12%左右,值得一提的是,他们还使语音识别器能够
【新智元导读】微软的语音识别技术又获得了新的突破:9月13日,微软语音与对话研究团队在arxive上发表论文,宣布在 作为行业标准的 Switchboard 基准上,微软的错误率做到了6.3%,比上周 IBM 公布的 6.6 % 有小幅提升。要实现微软 CEO 纳德拉提到的“对话即平台”AI战略,语音识别准确度的提升是不可或缺的。 昨天,微软研究院在让计算机理解语音上又获得了里程碑式的突破。 在作为行业标准的Switchboard 语音识别任务中,微软研究团队将词汇错误率(WER)降到了6.3%,打破了此前
识别「谁说了什么」,也就是「说话人分类」任务是自动理解人类对话音频的关键步骤。例如,在一个医生与患者的对话中,「患者」在回答医生的问题(「你经常服用心脏病药物吗?」)时说了「Yes」,这和医生用反问的语气说「Yes?」的含义截然不同。
从 WaveNet 到 Tacotron,再到 RNN-T,谷歌一直站在语音人工智能技术的最前沿。近日,他们又将多人语音识别和说话人分类问题融合在了同一个网络模型中,在模型性能上取得了重大的突破。
小编新接触语音SDK项目,SDK无UI、底层调用多个C++算法库、提供的是AI服务。语音AI项目,识别效果是至关重要的一环,识别效果评测也是一项测试重点。为了制定一个专业、全面的效果评测的方案,小编学习了相关知识,对方案制定有了初步思路。希望对测试小伙伴有所帮助~~(●—●)
本期谈谈 《虚拟私人助理》相关的内容。 我们先大致看下人工智能10大细分行业的典型应用: 1、深度学习/机器学习: 预测数据模型与分析数据的软件平台; 垃圾邮件检测; 金融诈骗检测; 2、自然语言处理: 语音识别; 智能客服; 智能化软件帮助系统; 智能化知识管理系统; 智能企业形象代表; 智能导游; 智能查询系统; 3、计算机视觉/图像识别: 面部识别软件; 基于内容的图片检索; 智能交通; 医疗计算机视觉和医学图像处理; 军事探测和导弹制导; 无人驾驶环境检测; 4、手势控制: 电脑手势指令系统; 游
是磁带、光盘、录音笔、手机等录音工具,还是会议、访谈、沟通、演唱等场景?是键指如飞的神奇速录师,还是方便快捷的语音转文字AI小工具?
演讲:景鲲 编辑:田令、江磊 【新智元导读】4月19日,清华大学《人工智能前沿与产业趋势》系列课程第三讲开课,本讲主题是“自然语言处理技术的发展和行业应用”。自然语言处理(NLP)被认为是人工智能研究
“重复唤醒,答非所问,这不是人工智能,是‘人工智障智障’。”这是大部分智能网联汽车用户对语音交互的抱怨。
人工智能用于各种语音识别和理解活动,从启用智能扬声器到为失聪或有语言障碍的人设计辅助工具。然而这些语音理解算法经常在最需要它们的日常场景中表现不佳:当很多人同时说话或有很多背景噪音时。即使是先进的降噪技术也常常无法有效应对海滩旅行中的海浪声或嘈杂的街头市场背景的喧闹声。
AI 科技评论按:为期 5 天的 ICASSP 2018,已于当地时间 4 月 20 日在加拿大卡尔加里(Calgary)正式落下帷幕。ICASSP 全称 International Conference on Acoustics, Speech and Signal Processing(国际声学、语音与信号处理会议),是由 IEEE 主办的全世界最大的,也是最全面的信号处理及其应用方面的顶级学术会议。今年 ICASSP 的大会主题是「Signal Processing and Artificial Intelligence: Challenges and Opportunities」,共收到论文投稿 2830 篇,最终接受论文 1406 篇。其中,思必驰-上海交大智能人机交互联合实验室最终发表论文 14 篇,创国内之最。
Voicera获1450万美元融资,智能语音真的前途无限吗?
不管你来自哪个城市,相信在你的记忆中,都有自己的「家乡话」:吴语柔软细腻、关中方言质朴厚重、四川方言幽默诙谐、粤语古雅潇洒……
笔者在前文《Azure AI 服务之文本翻译》中简单介绍了 Azure 认知服务中的文本翻译 API,通过这些简单的 REST API 调用就可以轻松地进行机器翻译。如果能在程序中简单的集成语音转文本
在温正棋看来,鉴于开源等原因,智能语音的核心技术已经不存在太大差别,而他们相比之下的优势更多集中在业务服务能力及闭环技术的应用层面。 前段时间,亚马逊智能音箱Echo时而抽风的怪笑声令消费者“震惊”,虽然到底是什么原因造成的,我们目前尚不清楚。不过,我们可以确定的是,语音交互已经成为了人们智能生活中不可或缺的一个因素。 选择极限元 他的初衷就是把研究转化为产品应用到市场 “我自己是中科院自动化所模式识别国家重点实验室的副研究员,就想把研究做成产品运用到市场上,这是我当初加入极限元的初衷。”极限元CEO温正
Skype前几天推出了实时语音翻译的预览版,让用户可以跨越语言的障碍畅快交流。今天我们就来聊聊微软是如何做到这一点的。 Skype 的翻译系统主要分三步:首先,把你的实时语音转换成文字;然后,再把文字翻译成另一种语言的文字;最后,把文字转换成语音。其中,识别实时语音并转换成文字一直是最棘手的部分。 图像处理和语音识别是深度学习发展的两个主要方向。近几年来,由于深度学习的进步,语音识别依靠深度神经网络(deep neural networks)也取得了不少进展。神经网络在八十年代就已出现,但真正开始焕发光芒
AI 科技评论按:医疗AI已经火热了很有一阵子了,计算机视觉相关研究的进步让医学图像辅助诊断改头换面,不仅准确率日新月异,医疗影像创业公司也已经遍地开花。 那么除了医疗影像之外,深度学习还能以别的方式
广义上来讲智能语音技术有各种各样的定义,以上是常见的一些热门的场景。语音识别,刚才罗老师也分享了部分内容。语音合成是文字变成语音,这部分我们后面会详细展开。再往后看,声纹识别,在智能车里面有很多的功能需要人的发音媒介来控制命令的时候声纹就很重要。开一个车门,车上有一个小孩,突然哭闹,下一个不合适的指令,你区别不出来这个人,对语音控制来说不合适的。或者有一些不当的操作,可以通过声纹来做,通过声音来做对人的识别和认证的过程。声纹识别其实在未来的应用场景比较热门,实际应用当中遇到大的挑战点是什么?很多其他的生物识别靠人脸或指纹这类比较稳定的特征,可是声纹不稳定,人高兴的时候,第一天晚上唱了卡拉OK,第二天声音哑了,怎么能够在变化比较明显的生物特征上做识别是一个很大的挑战。
ChatGPT是一款基于人工智能的语言模型,它可以自动地生成文本,回答问题,完成翻译等任务。ChatGPT是由OpenAI公司开发的,使用了神经网络和深度学习技术。它可以帮助用户自动生成文本,以及模拟人类语言表达的思维模式。
对话式AI是一种基于自动语音识别(Automatic Speech Recognition,ASR)、文字转语音(Text To Speech,TTS)以及自然语言理解(Natural Language Understanding,NLU)等技术的复杂人工智能系统,能够人机之间实现类似于真人的交互。对话式AI系统能够识别语音和文本、识别语言习惯,并能够以适当的自然语言做出回应。
CCF-腾讯犀牛鸟基金由腾讯与中国计算机学会联合发起,旨在通过搭建产学合作平台,连接产业实践问题与学术科研问题,支持海内外优秀青年学者开展与产业结合的前沿科研工作。 2018年CCF-腾讯犀牛鸟基金共涵盖机器学习、计算机视觉及模式识别、语音技术、自然语言处理、大数据技术、区块链等6个重点技术领域,涉及31项研究命题。 上一期,我们介绍了机器学习、计算机视觉与模式识别两个申报主题,这期我们将介绍语音技术专题和自然语言处理技术专题。欢迎青年学者关注了解,希望大家可以从中找到适合自己的申报命题。 三、语音技
自然语言处理是一个庞大的领域,比如普通文本与对话就是两个不同的领域,对话领域里,任务型对话又不同于闲聊型对话,问答式对话又不同于协作型对话……
作为一个烧掉了数百亿美元、背靠1,750亿参数大模型的超大型语言生成模型,ChatGPT极致的自然语言处理能力生成的高质量结果令人耳目一新,也让人工智能的发展终于实现了阶跃式的突破。
对应的便是“耳”、“脑”、“口”的工作,机器要听懂人类说话,就离不开语音识别技术(ASR)。
在AI技术的推动下,智能对话机器人逐渐成为我们工作、生活中的重要效率工具,乃至是伙伴,特别是为企业带来最原始最直观的“降本增效”落地实现。
通常我们说到语音识别技术的时候,指的是整个语音对话系统,如图所示,语音对话系统通常包括四个主要组成部分的一个或多个:语音识别系统将语音转化为文本、语义理解系统提取用户说话的语义信息、文字转语音系统将内容转化为语音、对话管理系统连接其他三个系统并完成与实际应用场景的沟通。所有这些部分对建立一个成功的语音对话系统都是很关键的。
CCF-腾讯犀牛鸟基金由腾讯与中国计算机学会联合发起,旨在通过搭建产学合作平台,连接产业实践问题与学术科研问题,支持海内外优秀青年学者开展与产业结合的前沿科研工作。 2018年CCF-腾讯犀牛鸟基金共涵盖机器学习、计算机视觉及模式识别、语音技术、自然语言处理、大数据技术、区块链等6个重点技术领域,涉及31项研究命题。 上一期,我们介绍了机器学习、计算机视觉与模式识别两个申报主题,这期我们将介绍语音技术专题和自然语言处理技术专题。欢迎青年学者关注了解,希望大家可以从中找到适合自己的申报命题。 三、语音技术专
领取专属 10元无门槛券
手把手带您无忧上云