微软人工智能首席科学家邓力：深度监督学习的局限和破解思路

用户1737318

发布于 2018-06-06 13:24:04

3710

发布于 2018-06-06 13:24:04

文章被收录于专栏：人工智能头条

8月26至27日，由中国人工智能学会（CAAI）发起并主办、中科院自动化研究所与CSDN共同承办的第二届中国人工智能大会（CCAI 2016）将在北京盛大召开。本次大会将持续汇聚全球人工智能领域的顶级专家学者和产业界人士，围绕人机交互、机器学习、模式识别、产业实战人工智能前沿话题进行深入交流和探讨。

微软人工智能首席科学家邓力博士将受邀出席本次大会，并做题为《驱动大数据人工智能多种应用的三类深度学习模式》的主题报告。大会前夕，邓力博士接受CSDN记者的简短采访，针对大数据、深度学习以及人工智能的其他技术领域进行解析。

邓力博士介绍，他的主题报告将会讲述深度监督学习、深度非监督学习和深度强化学习之间的关系和区别，以及这三类深度学习模式跟大数据的关系，并通过实践案例来说明三类学习算法的适用环境及效果。他认为，目前基于大数据的人工智能的应用局限之一在于依赖于要求输入输出有匹配的大训练数据的深度监督学习，而破解目前大数据人工智能的缺失的思路包括深度非监督学习和深度强化学习，以及新型的基于高维张量的结构表征。

他还解释了强化学习的适用领域，深度学习与强化学习结合的优势，并指出深度强化学习对微软的Bot愿景的作用——深度强化学习不但掌控每一单种Bot的对话输出的内容，更掌控各种Bots之间的协调和切换。

微软人工智能首席科学家邓力

世界著名人工智能、机器学习和语音语言信号处理专家，现任微软人工智能首席科学家和深度学习技术中心研究经理。他在美国威斯康星大学先后获硕士和博士学位，然后在加拿大滑铁卢大学任教获得终身正教授。其间，他还任麻省理工学院研究职位。1999 年加入微软研究院历任数职，并在2014 年初创办深度学习技术中心，主持微软公司和研究院的人工智能和深度学习领域的技术创新。邓力博士的研究方向包括自动语音与说话者识别、口语识别与理解、语音–语音翻译、机器翻译、语言模式、自然语言处理、统计方法与机器学习、神经科学，听觉和其他生物信息处理、深层结构学习、类脑机器智能、图像语言多模态深度学习，商业大数据深度分析预测等。他在上述领域做出了重大贡献，是ASA（美国声学学会）会士、IEEE（美国电气和电子工程师协会）会士和理事、ISCA（国际语音通信协会）会士，并凭借在深度学习与自动语音识别方向做出的杰出贡献荣获2015年度IEEE 信号处理技术成就奖和2013年度最佳论文奖。同时，他也曾在顶级杂志和会议上发表过与上述领域相关的300 余篇学术论文，出版过5 部著作，发明及合作发明了超过70 多项专利。邓力博士还担任过IEEE 信号处理杂志和《音频、语音与语言处理学报》（IEEE/ACM Transactions on Audio, Speech & Language Processing）的主编。

以下为采访内容实录

AlphaGo战胜李世石并不令人惊讶

CSDN：当前人工智能领域的技术研究和应用进展，有哪些是您意想不到的？AlphaGo？

邓力：基于我自2009年来对深度神经网络巨大学习容量的体验和理解，我对目前深度学习对人工智能领域的技术研究和各方应用的大规模的成功推动以及成就没有感觉有意想不到进展。由深度强化学习主导的 AlphaGo 以四比一战胜李世石并不令人惊讶。

CSDN：您对强化学习和深度学习的结合赞赏有加，那么强化学习适合在哪些领域普及？

邓力：强化学习适用于控制和决策任何有阶段性的过程，好比下棋，机械机器人行动，和很多商业决策。应用强化学习时最好回报信号要清楚或容易定义，比如下棋。否则就要用内在动机来驱动强化学习，比如用于聊天机器人。方向之一是整合信息论与动态规划，这还属于研究阶段。大型状态空间以前对强化学习是个大难题，但现在引入深度学习之后问题就基本解决了。具有大型行动空间（比如把合成型的自然语言作为对话机器人的“行动”输出）的强化学习我们团队正在深入研究。用深度学习来解决大型行动空间要比解决大型状态空间麻烦不少。我们团队在这方面发了一些论文。

CSDN：您如何看待深度学习与更多的其他方法（如贝叶斯方法）结合及前景？

邓力：目前基于神经网络的深度学习可以很好地同贝叶斯方法和生成式模型结合起来。优点在于能够赋予深度学习以解释性，也可降低深度学习对输入输出匹配的训练数据量的要求。如用到深度强化学习, 这种结合能大大提高学习效率，因为它让强化学习中的探索步骤更为快速而且探索空间变成更为广大。

CSDN：除此之外，您认为哪些与深度学习完全无关的技术领域也值得我们关注？

邓力：命题逻辑和一阶逻辑的推理表面上看似乎与深度学习无关。近来用深度学习做逻辑推理出了不少很好的工作。我们团队在2016年ICLR有篇长文章。然而用纯符号的命题逻辑和一阶逻辑做推理要比用深度神经网络容易解释得多，好比计算机的高级语言要比汇编语言容易看懂得多。这种解释性在实际应用上很重要。但是纯符号的逻辑方法和模型比起深度神经网络难学的多。幸好在认知科学中有一套正在发展的理论，它把任意一个纯符号树状或图状结构（可以高效率且具有强解释性用在逻辑推理上）跟一个高维度的张量建立起同构。因为张量是最自然用于深度学习的数据结构，这种同构就让我们的人工智能系统能有效地实现结构到结构的符号映射（比如自然语言或计算机程序的输入输出），但同时又能直接用深度神经网络的方法去学习和优化这种结构映射（这包括复杂多步的逻辑推理）。

微软人工智能研发路线

CSDN：微软计划在人工智能领域成为领军者，能否介绍您的工作在其中的作用？您最近半年的主要工作进展在哪方面？

邓力：我目前用50%时间在微软美国总部的研究院管理和领导深度学习技术中心，这里有一支很强的技术和研究团队。另外50%时间在微软的商业部门任首席人工智能科学家，将人工智能和各类深度学习的技术和研究成果应用到人工智能产品和云端服务。最近半年我们团队的主要工作包括：

将深度学习技术成功地应用到商业大数据的分析、预测、客户评分，等等，取得显著成果；
利用深度强化学习推动多类自然语言对话机器人的研发；
自然语言、视觉和知识库相结合的多媒态研究与应用；
新型深度学习架构、算法、结构表征基础研究的进展。

CSDN：微软做了不少人工智能的API提供给开发者，您是否认为人工智能会成为未来app的普遍属性？当前开发人员需要学习哪些人工智能相关的知识？如何上手？

邓力：微软的Cognitive Services （微软认知服务，其开发文档和教程可以参考官网：https://www.azure.cn/cognitive-services/）会提供越来越多的人工智能工具给开发者。不少已经可以从Microsoft Bot Framework 调用了。Microsoft Bot Framework 网站https://dev.botframework.com/ 有相当详细的信息。

CSDN：关于微软Bots的理想，您认为它的实现需要哪些主要的技术积累？

邓力：具有强大功能的人工智能是Bots的理想愿景实现的最关键之一。主要的技术积累是以上讲到的深度学习，特别是深度强化学习。深度强化学习不但掌控每一单种Bot 的对话输出的最佳内容，更掌控各种Bots 之间的最佳协调和切换。

CCAI分享大数据与深度学习

CSDN：请简要介绍您在本次大会的报告主题《驱动大数据人工智能多种应用的三类深度学习模式》？

邓力：主要想讲三类深度学习模式——深度监督学习、深度非监督学习和深度强化学习之间的关系和区别。在哪种人工智能应用中选用哪种模式？为什么？洞见（insights）在哪里？想用我团队用过的成功（和失败）的例子来为大家提供一些洞见。

还想讲这三类深度学习模式跟大数据的关系。输入输出有匹配的大训练数据一般会让深度监督学习成功（端到端的backpropagation 对有匹配的大数据的训练实在有效），但输入输出匹配成本很高。相反，无输入输出匹配的大数据成本要低得多。要利用比现有输入输出有匹配的大训练数据高出几个数量级的无输入输出匹配的大训练数据来训练深度学习系统，必须开发全新的深度非监督学习算法。如果成功，这会给人工智能带来一个新的里程碑。

CSDN：能否再解释基于大数据的人工智能的应用局限，以及一些破解高质量的大数据人工智能的缺失的一些思路？

邓力：目前基于大数据的人工智能的应用局限之一在于依赖于深度监督学习，就是说要在有输入输出匹配的大训练数据之后才能使用端到端的backpropagation。不但成本很高，而且系统很不灵活，很难快速适应新环境。如果需要解决复杂的逻辑推理问题，基于大数据和深度学习的人工智能系统往往给不出理想的答案。这种依赖于深度监督学习的系统还缺乏常识和直觉。

破解高质量大数据缺失的思路包括以上讲的深度非监督学习和深度强化学习，以及新型的基于高维张量的结构表征和知识库。

CSDN：哪些人适合听这个报告？需要什么预备知识？他们会有什么收获？

邓力：研究人员，研究生，ICT 公司和政府管理者。对人工智能和深度学习感兴趣的人。希望听完这个报告之后会对人工智能和深度学习有更深一步的理解，尤其在如何把理论用到实践。

CSDN：最后一个问题，您如何看待国外与国内人工智能技术和应用的差异？在企业应用、人才培养上，国外有哪些好的经验值得国内借鉴？

邓力：国外与国内人工智能技术和应用的差异日趋缩小。我很多以前在美国、英国从事人工智能和深度学习的朋友都回国创业。

国外好的经验是注重创新，鼓励快速失败。