微软IJCAI2016演讲PPT:深度学习在语音识别上不再难有用武之地

微软研究院在IJCAI2016第一天的Tutorial上讲述了自己将深度学习、深度神经网络应用于语义理解上的一些经验和收获。作为小娜和小冰的开发者,微软在自然预言语义理解上的造诣无疑是很高的。而早在一月就将其深度学习开发工具包CNTK开源的举动也表明微软确实希望促进人工智能的发展。这次就让我们通过Tutorial上演讲PPT的概览部分,看看微软在他们最擅长的语义识别领域会分享给我们一些什么样的经验。我们将PPT的文字翻译直接放在了幻灯片内,有兴趣的读者可以点开大图查看,不过大家也可以直接观看我们在每张图后写下的注解,一样能帮你理解微软的意思。

微软首先介绍了深度神经网络的简要历史。经过了上图中所示技术爆发点,幻灭的低谷,生产平稳期,膨胀期望巅峰等几个阶段。终于迎来了新的高潮。

在2013年,深度学习成为了MIT评选的年度十大科技突破之一。

而对深度学习的学术研究也从2012年开始到2015年出现爆发式的增长。在NIPS 2015会议中集中爆发,典型的证据就是主会场内的相关研究参与人数有了巨大增长,相关话题的指导报告更是增加了100%还多。

2012年纽约时报的报道“科学家们在深度学习上看到了希望”被视为深度学习崛起的标志之一。

DNN是一种完全连接的深度神经网络,简单来说,先训练每个都含有一个隐含层的生产力模型,然后把它们组合成一个深度信任网络,然后添加输出并利用反向传播来训练DNN网络。

上图是微软在各种领域对基于深度学习的语义识别的应用。

今天微软要讲的这个指南的焦点,并非集中在语音识别或者图像识别上,而是语音文本的处理和理解,一共分为5部分,点开大图可看到细节。

上图是一个需求分类问题的举例,比如输入一个问题:丹佛市中心的寿司店,但这个店属于餐馆,酒店,夜店,航班那个领域的店或者馆呢?这个是需要搜索引擎更加细化分类的。

上图给出了一个单神经元模型的原理,当输入一个X值后,函数最终会将其通过logistic回归进行分类,决定是否要给Y加上标签,并与事先准备好的标签核对。以此来完成学习的过程。

上图是单个的神经元模型,把一个数值转化为概率,然后把概率转化为一个非线性激活函数,再进行logistic回归。

在上图中,微软给出了训练模型的思路,由于是只有一个神经元组成的神经网络,因此方法比较简单,要训练的数据集是一组由二维数组组成的数对。

训练参数的过程,就是不断的更换w,使得损失函数最小。具体方式是使用随机梯度下降,将所有训练样本更新直到函数收敛。

实际问题基本不可能用单个神经元的网络就能解决。上图是一个多层神经网络的流程图,实际上也和目前绝大多数的神经网络结构类似。如果我们忽略下部的结构,只看输入层、最上面的一层隐含层和输出层,我们就会发现这正是一个单神经元神经网络的架构示意。而包含了下面的其他隐含层之后,就是一个多层神经元的结构了,将原始数据(词语向量)输入隐藏层中,经过参数w的投射生成新的向量,这个过程就称作特性生成。

可以看到,标准机器学习的过程同深度学习最大的区别,正在于特征训练的方式,传统的特征训练需要开发者手动提取特征,显得比较累。而深度学习可以自动从训练数据中学习到特征。显得灵活很多,不过代价就是函数优化和参数选择等的工作量会更重。

为什么要使用多个隐含层呢?毫无疑问的,适当增加隐藏层会让算法的效果更好。对特征的学习和转换也更灵活。类似深度学习用于图像识别时的像素→边缘→纹理→主题→局部→物体整体的过程。深度学习用于文本分析的时候也遵循了一个从字母→单词→词组→从句→句子→整个故事的过程。训练层数越多,对这些特征的描述就越精确。最终提取出来的效果也会越好。

DNN有许多中不同的表现形式,它们分别有各自的应用场景和优势。在此微软将其分为了三大类和六小类:

分类任务——通过X将Y分类标注

主要应用:多层感知机,卷积神经网络。

分级任务——通过计算X和Y的加权和进行分级。

主要应用:汨罗神经网络、深度语义相似模型

文本生成任务:由X的值生成Y

主要应用:序列对序列网络、记忆网络

在上图中,微软开始讲解一个具体的例子:深度语义相似模型(DSSM)。这种模型的处理方式是使用X和Y组成的文本流来计算语义相似度。方式是使用深度神经网络先在潜在语义空间建立一个x和y的两个特征向量。然后计算特征向量之间的余弦相似程度。

上两图是一个具体的原理图。表现了计算相似语义空间的方法,而最后一张图给出了一个基于此方法的整个卷积DSSM网络的示意图和原理说明。

总结:

深度学习曾被认为不适合用来做语义理解。主要是因为词语之间的相似程度与其含义的相似程度并无太大关系。词表的出现一定程度上解决了这个问题。而现在,深度学习在语义理解上的障碍已经基本不存在了,微软此次提供的思路也是一个很好的参考。相信应用上了深度学习的语义理解程序的表现将会有极大的提升。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-07-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

机器学习工程师需要了解的十种算法

1684
来自专栏智能计算时代

当机器学习遇到计算机视觉——上篇

image.png image.png 计算机视觉在上一个世纪60年代脱胎于人工智能与认知神经科学,旨在通过设计算法来让计算机自动理解图像的内容。为“解决”计算...

3085
来自专栏BestSDK

Google开源的“Show and Tell”,是如何让机器“看图说话”的?

| 机器的Image Captioning(自动图像描述)能力 电影《HER》中的“萨曼莎”是一款基于AI的OS系统,基于对西奥多的手机信息和图像内容的理解,“...

2737
来自专栏新智元

【技术必备】解读 2016 年十大机器学习算法及其应用

【新智元导读】 机器学习领域都有哪些常用算法?本文带来盘点。 毫无疑问,过去两年中,机器学习和人工智能的普及度得到了大幅提升。 如果你想学习机器算法,要从何下手...

3816
来自专栏IT派

干货!一文读懂行人检测算法

行人检测可定义为判断输入图片或视频帧是否包含行人,如果有将其检测出来,并输出bounding box 级别的结果。由于行人兼具刚性和柔性物体的特性 ,外观易受穿...

1215
来自专栏ATYUN订阅号

【学术】在机器学习中经常使用的6种人工神经网络

人工神经网络是是类似于人类神经系统功能的计算模型。有几种人工神经网络是基于数学运算和确定输出所需的一组参数来实现的。让我们来看看吧: ? 1.前馈神经网络-人工...

35013
来自专栏人工智能

深度学习与机器学习

机器学习和深度学习变得风靡一时!突然之间,每个人都在谈论他们 —— 不管他们是否了解这两者的区别!无论您是否关注数据科学,你肯定听过这些术语。

25311
来自专栏AI科技大本营的专栏

绝密 | 机器学习老手不会轻易告诉你的12件事儿

编译 | AI科技大本营 参与 | 彭硕 刘畅 编辑 | 明明 机器学习是人工智能的核心,而机器学习的算法是其最重要的武器。机器学习算法可以从例子中归纳出执行...

3529
来自专栏AI科技评论

UC伯克利 NIPS2018 Spotlight论文:依靠视觉想象力的多任务强化学习

AI 科技评论按:NIPS 2018 的录用论文近期已经陆续揭开面纱,强化学习毫不意外地仍然是其中一大热门的研究领域。来自加州大学伯克利分校人工智能实验室(BA...

623
来自专栏老秦求学

Deep Learning综述[下]

1294

扫码关注云+社区