开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >【重磅】微软AI首席科学家邓力：深度学习技术及趋势报告（75页PPT下载）

【重磅】微软AI首席科学家邓力：深度学习技术及趋势报告（75页PPT下载）

新智元

发布于 2018-03-21 17:25:52

1K0

发布于 2018-03-21 17:25:52

举报

文章被收录于专栏：新智元新智元

【新智元导读】微软人工智能首席科学家邓力博士在上海IEEE-ICASSP2016大会上的演讲报告。本报告分为深度学习的机器感知、机器认知和未来挑战三大部分，着重介绍了机器认知部分，总结了微软在深度学习方面的最新进展。

邓力率先提出将深度神经网络应用于语音识别，显著提高了机器对语音的识别率，由此获得2015年IEEE技术成就奖。根据微软亚洲研究院官网，在展望2016年深度学习领域会出现哪些关键性技术突破和进展时，邓力认为基于深度学习的自然语言处理技术会继续保持高速发展，而基于深度学习的注意力导向型序列学习技术将让机器翻译日益完善。

邓力照片

标题：人工智能中的深度学习——从机器感知到机器认知

维基百科上对深度学习的定义

深度学习是一种经典的机器学习算法，它

使用一种包含了许多层非线性处理过程的瀑布流；
是以数据来推动的端对端最优选择为代表的机器学习领域的一部分；
学习多层次的样本，并对高层概念抽象作出回应。

维基百科对人工智能的定义

人工智能（AI）是机器或软件展现出来的智能。在学术领域，它也指那些关于如何创造能够体现智能行为的计算机或计算机软件的研究。

通用人工智能（AGI）是一种从理论上能够成功地处理所有人类可以处理的智能任务的机器智能。它是人工智能研究的首要目的，也是科幻小说作家和预言家们的重要主题。通用人工智能也被称为“强人工智能”。

人工智能/通用人工智能与深度学习：主要理论

人工智能/通用人工智能 = 机器感知（语言、图像、视频、手势、触觉……） + 机器认知（自然语言、推理、关注、记忆/学习、知识、决策、行动、互动/对话……）

强人工智能：灵活、通用、万能的人工之智能

深度学习 + 增强/无监督学习 = 人工智能/强人工智能

AlphaGo 如何运用人工智能/强人工智能与深度学习

目录

机器感知中的深度学习

语言
图像

机器认知中的深度学习

语义模型
自然语言
多模态
推理，关注，记忆（RAM）
知识呈现/管理/开发
最佳决策（通过深度强化学习）

深度学习和AI研究中的三大热门领域及挑战

深度学习研究：以神经信息处理系统（NIPS）为中心

2010年到2012年，安卓在语音识别错误率上取得的突破

全球语音行业中深度神经网络（DNN）的应用

当下语音识别技术的最新发展状况

谷歌的神经网络架构（NNA）ASR

百度的深度语音中英文端对端 DL系统

苹果DNN-HMM ASR 中学习的跃迁概率

科大讯飞的 FSMN-based LVCSR系统

IBM的英语对话语音识别

微软牛津计划

深度学习同样也覆盖到图像认知（从2012年起）

对象认知过程

微软的神经网络证明，深度学习可以更深

深度非常关键

机器认知中的深度学习

语义模型
自然语言
多模态
推理，关注，记忆（RAM）
知识呈现/管理/开发
最佳决策（通过深度增强学习）

符号嵌入中的深度语义模型

深度语义模型的应用

自动写图说

COCO挑战的结果（CVPR-2015，Boston）

机器认知中的深度学习

深度增强学习
最优行动：控制和商业决策

nature文章通过深度增强学习让机器达到人类水平的控制

增强学习——长期价值的最优化

用深度神经网络和树形搜索学会下围棋

AlphaGo中的DNN学习管道

AlphaGo中使用的DNN架构

AlphaGo中四个DNN的分析

AlphaGo中蒙特卡洛树形研究

机器认知深度学习——存储网络和注意力机制（用于机器翻译）

长短期记忆循环神经网络（LSTM）

LSTM细胞随时间展开情况

门限循环单元（GRU），比LSTM简单，没有输出门。（图2）和LSTM一样，乍看很难看出哪部分是GRU功能的关键。

神经网络的序列学习

神经网络机器翻译

这种模型反馈“思想向量”性能不佳
尤其是长语料句子
因为你不能把 %&!$# 整句话缩到一个 $&!#* 向量里！

采用注意力机制的神经网络机器翻译

全局注意力模型和局部注意力模型

图像说明注意力模型

机器认知深度学习

推理神经网络：存储网络
更好的推理神经网络：带结构化知识再现的张量积表征

推理存储网络

TPR：结构化神经网络表征

未来研究挑战

结构化嵌入从而更好地推理：结合神经网络表征
结合深度判别模型和深度生成模型/贝叶斯模型
深度无监督学习

深度无监督学习

无监督学习近来成了深度学习领域一大热点
需要有一个任务为无监督学习设定基准，比如提高预测精度
语音识别和图像说明的例子
4种知识来源

理论上说理论和实践没有区别，但在实践中理论和实践是有区别的。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2016-04-11，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

相关产品与服务

语音识别

腾讯云语音识别（Automatic Speech Recognition，ASR）是将语音转化成文字的PaaS产品，为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用，适用于录音质检、会议实时转写、语音输入法等多个场景。

产品介绍产品文档

录音文件识别、一句话识别等多款语音产品新用户14.9元起