【文】王艺 关注人工智能 投稿请联系wangyi@csdn.net或公众号后台留言 ---- 本周一,微软人工智能科研小组在arXiv上发表了一篇名为Achieving Human Parity in Conversational Speech Recognition的论文(详见http://dwz.cn/4p4IBi),宣布其语音识别系统的误字率首次低于人类专业打字员(听音速记)。 据该团队的统计表明,专业速记员在Switchboard数据集上(两个初次见面的人围绕某一特定主题谈话的语音样本集)的误字率为
【新智元导读】微软的语音识别技术又获得了新的突破:9月13日,微软语音与对话研究团队在arxive上发表论文,宣布在 作为行业标准的 Switchboard 基准上,微软的错误率做到了6.3%,比上周 IBM 公布的 6.6 % 有小幅提升。要实现微软 CEO 纳德拉提到的“对话即平台”AI战略,语音识别准确度的提升是不可或缺的。 昨天,微软研究院在让计算机理解语音上又获得了里程碑式的突破。 在作为行业标准的Switchboard 语音识别任务中,微软研究团队将词汇错误率(WER)降到了6.3%,打破了此前
语音识别的目标是把语音转换成文本,这项技术在我们生活中应用很广泛。比如说谷歌语音助手和亚马逊的 Alexa ,就是把我们的声音作为输入然后转换成文本,来理解我们的意图。
选自IBM 作者:George Saon 机器之心编译 参与:吴攀、黄小天 去年十月,微软人工智能与研究部门的一个研究者和工程师团队报告他们的语音识别系统实现了和专业速录员相当甚至更低的词错率(WER)——达到了 5.9%,参考机器之心文章《重磅 | 微软语音识别实现历史性突破:语音转录达到专业速录员水平(附论文)》。但 IBM 官方博客今日发文宣称人类的水平实际上应该是 5.1%,而同时该文章还表示 IBM 的系统的词错率已经超越了之前微软报告的最佳水平,达到了 5.5%。IBM 宣称这是一个全新的突破,
AI 科技评论按:把一段输入音频转换为一段文本的任务「自动语音识别(ASR)」,是深度神经网络的流行带来了极大变革的人工智能任务之一。如今常用的手机语音输入、YouTube 自动字幕生成、智能家电的语音控制都受益于自动语音识别技术的发展。不过,开发基于深度学习的语音识别系统还不是一个已经完善解决的问题,其中一方面的难点在于,含有大量参数的语音识别系统很容易过拟合到训练数据上,当训练不够充分时就无法很好地泛化到从未见过的数据。
这种已经无处不在的音频转录成文本的技术,在缺乏足够大的数据集,模型过拟合严重。因此当前如何去扩增音频数据是个大问题。
【新智元导读】 微软语音识别研究团队在黄学东的带领下,去年将语音识别的单词错误率降至5.9%,又在最近降至5.1%。在本次专访中,我们讨论了语音识别错误率百分之几的小数点在研究和实际应用上的意义。黄学东认为,从研究角度来说,这个意义十分重大,即便是0.1%的差距,无论是运算量还是时间,耗费都是巨大的。 达到人类水平,超越人类水平,人工智能研究领域的突破性进展。 以上赞誉被给予了微软最近的语音识别研究成果:其语音识别研究团队在黄学东的带领下,去年将语音识别的单词错误率降至5.9%,又在最近降至5.1%。 从研
你知道吗?人类每听20个词,其实就有一两个成为“漏网之鱼”。而在一段五分钟的对话中,这一数字达到了80。但对于我们而言,少听一两个词并不会影响我们对语意的理解,然而想象一下,计算机如果要完成这件事有多难? 去年,IBM已经在语音识别领域走到了一个新的里程碑:系统的错误率降低为6.9%;而AI科技评论了解到,近日IBM Watson的语音识别系统将这个数字降到了5.5%。 清华大学的邓志东教授此前在采访中向AI科技评论表示,只有AI技术达到人类水平,它才有商业化的可能性。技术越来越接近人类水平也一直是人工
选自arXiv 机器之心编译 参与:晏奇、吴攀 语音识别是人工智能领域所研究的核心问题之一,研究者一直以来都在竞相努力以期能首先达到比肩人类的里程碑。去年十月,微软人工智能与研究部门的一个研究者和工程师团队报告他们的语音识别系统实现了和专业速录员相当甚至更低的词错率(WER)——达到了 5.9%。而前两天,IBM 官方博客却发文宣称人类的水平实际上应该是 5.1%,同时该文章还表示 IBM 的系统的词错率已经超越了之前微软报告的最佳水平,达到了 5.5%,实现了新突破。详见机器之心报道《IBM 宣称人类语音
各位小伙伴,最近全国各地陆续发现新型冠状病毒感染的肺炎疫情,又赶上春节,大家出门请注意戴口罩,做好防护~~
在 2018 年,Etsy 将它的服务基础设施从自我管理的数据中心迁移到云端配置(我们当时在博客上写了这件事)。这种改变提供了改善整个公司技术流程的机会。对于 Search 团队而言,云环境所带来的灵活扩展让我们可以完全重新评估一个有些繁琐的部署流程。在已有的金丝雀发布架构模式的启发下,我们编写了一个新的自定义工具来补充现有的部署基础设施。
选自Awni 机器之心编译 参与:Nurhachu Null、路雪 深度学习应用到语音识别领域之后,词错率有了显著降低。但是语音识别并未达到人类水平,仍然存在多个亟待解决的问题。本文从口音、噪声、多说话人、语境、部署等多个方面介绍了语音识别中尚未解决的问题。 深度学习被应用在语音识别领域之后,词错率有了显著地降低。然而,尽管你已经读到了很多这类的论文,但是我们仍然没有实现人类水平的语音识别。语音识别器有很多失效的模式。认识到这些问题并且采取措施去解决它们则是语音识别能够取得进步的关键。这是把自动语音识别(
【新智元导读】微软昨天宣布其研发的机器翻译系统首次在通用新闻的汉译英上达到了人类专业水平,实现了自然语言处理的又一里程碑突破。 由微软亚洲研究院与雷德蒙研究院的研究人员组成的团队今天宣布,其研发的机器翻译系统在通用新闻报道的中译英测试集上,达到了人类专业译者水平。这是首个在新闻报道的翻译质量和准确率上媲美人类专业译者的翻译系统。 微软技术院士,负责微软语音、自然语言和机器翻译工作的黄学东博士表示,这是自然语言处理领域的一项里程碑式的成就。“这是我们的情怀,是非常有意义的工作,”黄学东告诉新智元:“消除语言障
【新智元导读】微软语音识别技术24年老将黄学东近日被评为“微软全球技术院士”,成功摘下这一微软技术的“桂冠”。 黄学东于1993年加入微软。1995年,黄学东最终把洪小文也拉入微软。黄学东还曾在Bing工作,一直跟随沈向洋博士。接受新智元的专访时,他谈到了去年微软对话语音识别词错率低至5.9%背后的故事。 同时,黄学东认为语音识别的下一个大难关是语义理解,目前看来最有希望的路线是 LSTM + Attention。 黄学东,微软语音识别技术 24 年老将,IEEE/ACM 双科院士,微软深度学习工具包CNT
文本顺滑(Disfluency Detection)的目的是删除自动语音识别(ASR)结果中的不顺滑的词,从而得到更自然和通顺的句子。
在评估一个模型的时候,仅通过ROUGE、BLEU SCORE评价模型还是太单薄了,并不能全面的反馈模型的能力。在相完整评估一个模型的能力的时候,最重要的是提供一套有效的评估模型。现在常见的模型的基准测试有 GLUE、SuperGLUE、HELM、MMLU等等。
一个月之前,微软发布了基于深度神经网络的文本到语音(text-to-speech,TTS)系统,并且做为 Azure 认知服务中的一项,提供面向客户的预览版本。
云从表示,这已是云从在近半年以来第二次宣布刷新世界纪录。今年 4 月,云从科技跨镜追踪技术(ReID)技术在 Market-1501,DukeMTMC-reID,CUHK03 三个数据集刷新了世界纪录,其中最高在 Market-1501 上的首位命中率(Rank-1 Accuracy)达到 96.6%,让跨镜追踪技术(ReID)技术在准确率上首次达到商用水平。
本系列文章总结自然语言处理(NLP)中最基础最常用的「文本分类」任务,主要包括以下几大部分:
随着时间流逝,NLP在遇到诸多挑战的同时,也被寄予更大期望。人们在使用它的过程中收获很多,也在一直不断的改进完善它。
来源:中国大数据 本文为你介绍RedditSota 统计的各种机器学习任务的最顶级研究成果(论文)。 该 GitHub 库提供了所有机器学习问题的当前最优结果,并尽最大努力保证该库是最新的。如果你发现某个问题的当前最优结果已过时或丢失,请作为问题提出来(附带:论文名称、数据集、指标、源代码、年份),我们会立即更正。 这是为所有类型的机器学习问题寻找当前最优结果的一次尝试。我们都无法独自完成,因此希望每一位读者参与进来。如果你发现了一个数据集的当前最优结果,请提交并更新该 GitHub 项目。 监督学习 一、
呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!
选自arXiv 机器之心编译 参与:Panda 卡内基梅隆大学计算机科学学院最近一篇正在评议阶段的 ICLR 2018 论文在 arXiv 上公开,该论文证明使用分布式词嵌入的 Softmax 实际上没有足够的能力来建模自然语言,他们为此也提出了自己的解决方法。本论文的并列第一作者是 Zhilin Yang 和 Zihang Dai。杨植麟(Zhilin Yang)本科就读于清华大学计算机系,现就读于CMU。曾在清华 4 年保持全年级第一,同时也是清华大学 2014 年本科生特奖获得者。此外,领导苹果公司
该 GitHub 库提供了所有机器学习问题的当前最优结果,并尽最大努力保证该库是最新的。如果你发现某个问题的当前最优结果已过时或丢失,请作为问题提出来(附带:论文名称、数据集、指标、源代码、年份),我们会立即更正。
过去一年来,机器学习模型在 NLP 领域很多语言理解任务上的表现都获得了极大提升。Elmo、BERT、ALICE、之前被称为 BigBird 的模型(现在叫做 MT-DNN)都取得了显著进展,OpenAI GPT 也有一种非常有效的方案,即将用简单的多任务在大量文本数据集上预训练的语言建模方法与将所得模型适应到下游应用的迁移学习技术结合起来。
选自GitHub 机器之心整理 参与:黄小天、蒋思源 今日,机器之心小编在 Github 上发现了一个良心项目:RedditSota 统计了各种机器学习任务的最顶级研究成果(论文),方便大家索引查阅。机器之心对此项目做了介绍。 项目地址:https://github.com//RedditSota/state-of-the-art-result-for-machine-learning-problems 该 GitHub 库提供了所有机器学习问题的当前最优结果,并尽最大努力保证该库是最
项目地址:https://github.com//RedditSota/state-of-the-art-result-for-machine-learning-problems
【新智元导读】计算机在哪些领域已经超越了人类?准确地回答这个问题有助于我们更好地理解 AI 和自己。非盈利组织电子前哨基金会(EFF)的几位研究员整理了一份可能是目前最完善的资料,梳理了计算机已经超越人类水平的任务列表。一项项看过去,不啻纵览人工智能的发展,同时也能帮助我们将目光放到接下来要解决的问题上。列表持续更新,欢迎大家补充。 这是一个试验项目,旨在从AI研究的文献收集问题和指标/数据集,跟踪人工智能的进展情况。在这个项目页面你可以查看特定子领域,或查看AI/ML的整体进展现状。你可以把它作为报告你的
【新智元导读】微软语音识别系统取得最新突破:微软的语音对话研究小组在Switchboard语音识别任务中,将错误率从去年的 5.9% 再一次降低到 5.1%,达到目前最先进水平。 去年,微软的语音与对话研究小组宣布在Switchboard 对话语音识别任务上达到人类水平,实现里程碑式的突破。 微软技术Fellow黄学东在微软官方博客上称,这意味着,他们创造了一种技术,可以在对话中识别词语,且与人类专业的速记员水平相当。 黄学东在博客上说:“在我们的转录系统达到5.9%的错误率之后,其他研究人员进行了自己的研
https://github.com/snakeztc/NeuralDialog-CVAE
从2010年起,深度神经网络开始在各个领域引发人工智能技术的重大突破。在语音识别领域,截止到2017年,借助于深度学习技术语音识别在Switchboard数据集上的词错误率下降到5.1%,基本可与人工识别相媲美;而在图像识别领域、机器翻译、语音合成技术等其他领域也取得了巨大进步,使得机器基本已经做到和人一样能听、能看、能说。随着人工智能技术这些领域的不断突破,人们也更期待看到自然语言处理技术(NLP)带来更多的创新。
作者:常佩琦 弗格森 【新智元导读】 今天介绍Github上的开源项目,专门用于更新最新的研究突破,具体说来,就是什么算法在哪一个数据集上取得了state-of-the-art 的成果,包括语音、计算机视觉和NLP、迁移学习、强化学习。在这里,你可以读懂2017机器学习领域究竟在哪些方向上取得了突破,各大前沿机构和学术大牛们在哪些方向上发力。比如,Hinton掀起深度学习革命的Capsule 网络、再到谷歌的“一个模型学习所有”“Attention is all you need”以及Facebook在机器
来源:《中国计算机学会通讯》2017年第12期《CNCC2017特邀报告》 微软全球执行副总裁沈向洋博士在2017年10月25日在福州举行的中国计算机大会(CNCC2017)的特邀报告指出:人工智能在感知方向已取得重大突破,下一个突破将出现在自然语言的理解,“对话即智能”,并谈了未来人工智能的核心的三种可能。 📷 人工智能在感知方向已取得重大突破 下一个十年最重要的研究方向是什么?毋庸置疑是人工智能。人工智能近年来的发展近乎神速,特别是在深度学习方面有了极大进展,这主要得益于“两大一精”(大计算、大数据和精
2016 年,《财富》杂志在文章《Why deep learning is suddenly changing your life》曾如此描述这波 AI 浪潮的兴起,「最初的革命火花开始于 2009 年。那年夏天微软的邓力邀请神经网络先驱、多伦多大学的 Geoffrey Hinton 来参观并合作... 邓力的团队用神经网络做了大量语言识别方面的实验。」
在本文中,我们提供了一个用于训练语音识别的RNN的简短教程,其中包含了GitHub项目链接。 作者:Matthew Rubashkin、Matt Mollison 硅谷数据科学公司 在SVDS的深度
【1】 Temporal Analysis of Worldwide War 标题:世界大战的时序分析
“AI Index”(AI指数)是斯坦福大学AI百年研究的一个项目,它是一个开放的非营利性项目,旨在追踪人工智能的活动和进展。它的目的是促进以数据为基础的对AI的了解。本报告是AI Index的第一份年度报告,在这份报告中,我们通过多个视角来观察AI的活动和进展。我们汇总了网络上的数据,也贡献了原始数据,并从数据序列的组合中提取新的度量标准。
先来一首《好久不见》,给大家说一声抱歉,最近因为种种的原因,没有通过“计算机视觉战队”给打开带来好的文章和知识的分享,在此,代表“计算机视觉战队”向所有关注我们的您敬个礼,也非常感谢大家的支持,谢谢! 注:希望大家看这篇文章的时候,可以听着音乐来阅读,因为这是一篇简单易懂,并且可以给大家带来一丝放松的内容吧,希望能给有需要的您带来一些帮助,谢谢支持。 那我们就回归正题,来开始和您来聊聊已经占领了半片天的人工智能,作为学习者的我,也不敢说的太深入,更希望得到大家的指正与批评,来增加平台文章的质量。进一步
AI 科技评论按:语音到文字的转换是语音研究领域的重要课题。自引入神经网络的方法以来,语音识别正确率有了长足的进展,也为苹果 Siri、亚马逊 Echo、科大讯飞语音输入法等等实际产品提供了生长的土壤。面对算法识别总还是比人类要差一些的现状,微软刚刚发布一篇博文公布了自己的最新成果,达到人类水平已经不是梦想。AI 科技评论编译如下。 2016年,微软语音和对话研究团队对外公布了一则里程碑性的消息,他们在 Switchboard 数据库的对话语音识别任务中达到了人类的一致性水平,这意味着他们的系统识别对话中文
来源:aiindex.org 编译:编辑部 【新智元导读】“AI Index”(AI指数)近日重磅发布,这是斯坦福大学AI百年研究(AI 100)的一个项目,旨在追踪人工智能的活动和进展。该报告列出了2017年人工智能在计算机视觉、自然语言理解等方向上的最新进展,分学术、产业多个角度盘点人工智能进度。报告还综合学术论文数量、招生数量和VC投资数量,得出AI发展活力指数,数据显示,最新一波AI浪潮在2015年活力最高,自那以后其实活力开始有小幅减弱。 报告全文:https://aiindex.org/2017
作者 | Migüel Jetté 编译 | bluemin 编辑 | 陈彩娴 在过去的两年中,自动语音识别(Automatic Speech Recognition, ASR)在商用上取得了重要的发展,其中一个衡量指标就是: 多个完全基于神经网络的企业级 ASR 模型成功上市,如 Alexa、Rev、AssemblyAI、ASAPP等。 2016年,微软研究院发表了一篇文章,宣布他们的模型在已有25年历史的“Switchboard”数据集上,达到了人类水平(通过单词错误率来衡量)。 ASR 的准确性仍在不
【新智元导读】人工智能三大支柱之一的计算目前发展是什么样的?它足以支撑人工智能的火速发展吗,会不会拖后腿,让人工智能的发展停滞?9月7日首届AI计算大会上述问题得到了很好的解答。在会上发表演讲的嘉宾首先对“计算力对新一波人工智能浪潮的影响有多大”进行了讨论。浪潮集团VP胡雷钧在主题演讲中对新的model对计算能力的需求三个因素进行了剖析,这里其中一个是网络深度,一个是网络里节点单元的个数和节点单元连接的复杂度,一个是处理的数据集的规模。 AICC首届AI计算大会,9月7日上午在北京国际饭店盛大开幕,中国工程
当只配置一个仓库时,操作比较简单,直接在Maven的settings.xml文件中进行全局配置即可,以阿里云的镜像为例:
本文介绍了语音识别技术中的端到端模型、基于CTC的序列模型、基于序列学习的注意力机制模型、基于3D卷积神经网络的语音识别系统等。其中,端到端模型可以直接从原始音频数据中学习到针对语音识别的抽象表示,具有较好的可扩展性和鲁棒性;而基于CTC的序列模型则通过连接主义学习的方法,将CTC定义的序列映射问题转化为神经网络中的参数优化问题,进一步提高了语音识别的准确率;基于序列学习的注意力机制模型则借鉴了语言学中的注意力机制,通过对输入序列进行加权处理,进一步提高了模型的识别准确率;基于3D卷积神经网络的语音识别系统则利用3D卷积核对输入序列进行卷积处理,提取出序列中的特征信息,进一步提高了模型的识别准确率。
AI科技评论按:本月 18 日,由美中技术与创新协会(Association of Technology and Innovation,ATI)主办的第一届“AI NEXT”大会在西雅图召开。本次会议的主要嘉宾包括:微软首席 AI 科学家邓力,微软院士黄学东,Uber 深度学习负责人 Luming Wang 等。华人之外,还有亚马逊 Alexa 首席科学家 Nikko Strom,微软小娜架构师 Savas Parastatidis 等业内知名专家。 大会主题是“探索 AI 的潜力,把 AI 技术应用于
选自SVDS 作者:Matthew Rubashkin、Matt Mollison 机器之心编译 参与:李泽南、吴攀 来自 Silicon Valley Data Science 公司的研究人员为我们展示了循环神经网络(RNN)探索时间序列和开发语音识别模型的能力。目前有很多人工智能应用都依赖于循环深度神经网络,在谷歌(语音搜索)、百度(DeepSpeech)和亚马逊的产品中都能看到RNN的身影。 然而,当我们开始着手构建自己的 RNN 模型时,我们发现在使用神经网络处理语音识别这样的任务上,几乎没有简单直
1 新智元推荐1 来源:微软研究院AI头条 【新智元导读】继 9月13日微软将对话语音识别错误率降至6.3%的记录后,前天再次宣布进一步将错误率降至 5.9%,首次达成与专业速记员持平且优于绝大多数人的表现。该成功归功于他们采用了一种神经语言模型,该模型在空间中被表现为连续的向量,计算机能通过该模型得知比如“fast”和“quick”是具有紧密联系的近义词。 一个月前,2016年9月14日,微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率(word error rate
AI 研习社按:本月 18 日,由美中技术与创新协会(Association of Technology and Innovation,ATI)主办的第一届“AI NEXT”大会在西雅图召开。本次会议的主要嘉宾包括:微软首席 AI 科学家邓力,微软院士黄学东,Uber 深度学习负责人 Luming Wang 等。华人之外,还有亚马逊 Alexa 首席科学家 Nikko Strom,微软小娜架构师 Savas Parastatidis 等业内知名专家。 大会主题是“探索 AI 的潜力,把 AI 技术应用于实用
【1】 Analysis of Data Mining Process for Improvement of Production Quality in Industrial Sector 标题:提高工业部门生产质量的数据挖掘过程分析 链接:https://arxiv.org/abs/2108.07615
领取专属 10元无门槛券
手把手带您无忧上云