AI NEXT | 微软黄学东:微软在很多AI领域领先Google

AI科技评论按:本月 18 日,由美中技术与创新协会(Association of Technology and Innovation,ATI)主办的第一届“AI NEXT”大会在西雅图召开。本次会议的主要嘉宾包括:微软首席 AI 科学家邓力,微软院士黄学东,Uber 深度学习负责人 Luming Wang 等。华人之外,还有亚马逊 Alexa 首席科学家 Nikko Strom,微软小娜架构师 Savas Parastatidis 等业内知名专家。

大会主题是“探索 AI 的潜力,把 AI 技术应用于实用项目和服务”,对 CV、NLP、智能助手、深度学习框架均做了专题报告。微软首席语音科学家黄学东也发表了演讲,对微软的人工智能业务和进展做了全面的介绍和梳理。AI科技评论根据演讲录音和PPT整理成文。

AI科技评论注: 黄学东于1993年加入微软,目前领导微软在美国、德国、埃及、以色列的团队研发研发微软企业人工智能客服对话解决方案 、cris.ai 和 luis.ai 等认知服务、CNTK 开源深度学习工具等人工智能产品和技术。2017年2月,黄学东刚刚被评为“微软全球技术院士”,这代表着微软技术人员的最高荣誉。

微软的AI业务简介

其实,“人工智能(Artificial Intelligence)”一词最初是在1956年DARTMOUTH学会上提出的,但是为何一直到如今人工智能技术才步入快速发展的轨道?黄学东认为,主要是两方面的原因:海量的数据,以及计算能力的大幅提升。目前,人工智能主要集中在视觉、语音、语言和知识(图谱)四个领域,但是未来计算机将能够理解这个世界。

根据黄学东的介绍, 目前微软的AI业务可以分成代理(Agent)、应用( Application)、服务(Service)、基础设施(Infrastructure)这四大块。

  • 代理:Cortana(中文名:微软小娜)、微软小冰、Toronto Project(客服助手)
  • 应用:Office 365、Dynamicas 365(整合CRM和ERP的云服务解决方案)、SwiftKey(输入法)、Pix(拍照软件)
  • 服务 :聊天机器人框架(Bot Framework)、认知服务(Cognitive Services)、Cortana智能、认知工具包(Cognitive Toolkit)
  • 基础设施:适用于机器学习的Azure 、Azure N Series(GPU + FPGA)、FGPA(现场可编程门阵列)

计算机语言技术的发展史

  • 1954年,IBM和乔治城大学首次展示了能力非常有限的机器翻译系统。
  • 1966年,John Pierce发布了一份关于“语言技术”非常关键的报告。
  • 1975年——1986年,美国政府没有任何拨款支持机器翻译或者语音识别,发展陷入停滞。
  • 1985年,“共同任务(common task)”方法的出现,研究人员开始共享数据。
  • 2007年,基于统计学谷歌的翻译上线。
  • 2011年,Siri登陆iPhone。
  • 2016年,微软的语音识别系统的达到人类水平,同年谷歌发布支持8种语言的神经网络翻译系统。

虽然目前神经网络翻译系统还经常闹出各种笑话,但是黄学东认为,在未来几年内,计算机的翻译水平有可能会和目前的语音识别一样,达到人类(专家)的水平。

微软在语音识别领域的成就

黄学东在演讲中提到,微软于1991建立了Research Lab,该实验室的愿景是让计算机具备“看(see)、听(listen)、说(speak)”的能力。1993年,微软成立语音小组(Speech Group),希望能够让人与设备之间的语音交流成为主流。而如今,这一愿景正在实现。黄学东在演讲中特别提到了《经济学人》今年1月份的封面文章——“Now we're talking”,该文章认为语音技术让计算机不那么令人生畏,而且更易接近。

黄学东称,1993年的时候,他们做的语音对话识别的词错率(word error rate,简称WER)高达80%。然而2016年9月14日,由黄学东带领的微软语音团队在产业标准Switchboard语音识别基准测试中,实现词错率低至6.3%的这一技术突破,这比IBM的6.6%词错率更低,达到目语音识别领域错误率最低的水平。仅仅一个月后的10月18日,黄学东团队进一步将词错率降低至 5.9%,首次与专业速记员持平。

这个人类水平的对话语音识别系统用到了10个不同的DNN(深度神经网络)。据AI科技评论了解,其具体实现过程是:首先用包括了ResNet(残差网络)、LSTM(长短期记忆网络)在内的6个不同的神经网络组合并行工作,其结果再通过4个新的神经网络组合之后再输出,最终达到专业速记员的水平。

但是黄学东表示,目前计算机的对语音的识别还只停留在转录阶段,想要真正理解语义还非常困难。

微软客服助手Toronto

黄学东表示,语音技术除了能够用作娱乐用途之外,还能够做很专业的事,比如技术支撑(technical support)。它在演讲中提到,微软除了语音助手Cortana和聊天机器人小冰之外,还有一个代号为“Toronto”的客服助手项目。

Toronto是基于深度强化学习的人工智能,能够理解对话中的上下文,让客服聊天机器人更加人性化、更加高效。

根据PPT的介绍,Toronto不仅能自动回复,给出建议,还能在解答不了时提示用户转接人工服务。此外,它还能帮助人工客服快速了解用户信息,给出回答建议,并可以转接给其他的工作人员,甚至还有录音功能。

当然,黄学东也表示,这些聊天助手和语音识别不一样,并没有一个已经建立起来的有效训练方法(established recipe)。

微软在深度学习方面的进展

黄学东此前曾表示,微软的深度学习工具包CNTK其实比谷歌的TensorFlow开源的要早,但是由于一开始 并不是发布在GitHub上,所以外界知道的人相对少一些。但是黄学东表示,根据基准测试的结果,CNTK比谷歌的TensorFlow和亚马逊的MxNet的性能要更好:相同条件下,CNTK每秒能够处理的样本更多。

此外,黄学东还列举了ComputerWorld今年2月的评测结果,来证明微软在深度学习方面的实力。从图中可以看出,微软认知工具包(Cognitive Toolkit)v2.0 beta 1版本在性能、开发的难易程度、以及部署的难易程度这三个方面表现突出,而综合表现仅次于谷歌的TensorFlow r0.10。

微软认知工具包的优势

目前,微软认知服务的API主要包括语言、语音、机器学习、视觉、搜索、知识这几大类。据黄学东介绍,微软的认知工具包有以下三大优势:

  • 速度&可扩展性:微软认知工具包训练和评估深度学习算法比其他的工具包都快,而且可以在不同的环境下有效扩展的同时保持精度。
  • 商业级的质量:使用了复杂的算法以及大量的数据集。
  • 兼容性:可以使用C++、Python等语言,而且能够定制内置训练算法,甚至使用自己的算法。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-03-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

关于 AI,2017 年的 12 个期待——除了GAN、小数据学习,还有什么

【新智元导读】本文作者为龙星镖局。过去的2016是属于AI的,我们能透过不同渠道感受到AI浪潮。似乎经过去年的发展,AI已经取得了很大进步,那么,2017我们还...

3238
来自专栏钱塘大数据

2018全球人工智能突破性技术TOP10

人工智能是个高科技、宽领域、多维度、跨学科的集大成者,从立足大数据、围绕互联网的纯计算机应用,逐步衍生到人们日常生产生活的方方面面,在细微之处改善和改变着我们。...

872
来自专栏量子位

一个耗资数百万的AI数据集,和它背后的90后超人们

李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI ? 不够智能的人工智能,往往被调侃成“人工智障”,但不是所有人都清楚知道“智障”的原因。 199...

2714
来自专栏专知

【重磅】美国人工智能前沿峰会日程预告:吴恩达、田渊栋、任小枫等25位AI专家分享最新成果

【导读】人工智能前沿峰会( AI Frontiers)将在美国圣塔克拉拉会议中心11月3号到5号举行。这次大会邀请来自谷歌、Facebook、微软和亚马逊等人工...

3814
来自专栏新智元

【微软芮勇】人工智能时代,我们能做什么?

【新智元导读】微软亚洲研究院常务副院长芮勇在《新智元:机器+人类=超智能时代》书中畅想人工智能发展6大阶段,详细介绍微软语音识别、图像识别、牛津计划等多项人工智...

2958
来自专栏吉浦迅科技

人们都在说人工智能,其实现在我们真正做的是智能增强

自20世纪50年代以来,人工智能(The Artificial Intelligence / AI)与智能增强(Intelligence Augmentatio...

4078
来自专栏新智元

【走近2050】为全球脑编程——关于人机关系的新思考

? 张江,北京师范大学系统科学学院副教授。主要关注领域:计算社会科学、复杂系统、人工智能。2003年创办早期的集智俱乐部网站,2007年开始俱乐部的线下活动,...

3607
来自专栏大数据文摘

对话微信智聆团队:坐拥近10亿用户,微信如何用好语音这一入口?

2075
来自专栏镁客网

吴恩达谈深度学习局限:AI 经济价值目前仅来自监督学习

1345
来自专栏钱塘大数据

【大咖说】英特尔首席工程师:大数据是上帝智能

本文作者:吴甘沙 全文3214字,建议阅读时间:5分钟 上期回顾:【大咖说】吴军:数据为王和机器智能的时代 一、大数据之道 我认为把一件事情讲清楚,就要从这五个...

3436

扫描关注云+社区