微软IJCAI2016演讲PPT:深度学习在语音识别上不再难有用武之地

微软研究院在IJCAI2016第一天的Tutorial上讲述了自己将深度学习、深度神经网络应用于语义理解上的一些经验和收获。作为小娜和小冰的开发者,微软在自然预言语义理解上的造诣无疑是很高的。而早在一月就将其深度学习开发工具包CNTK开源的举动也表明微软确实希望促进人工智能的发展。这次就让我们通过Tutorial上演讲PPT的概览部分,看看微软在他们最擅长的语义识别领域会分享给我们一些什么样的经验。我们将PPT的文字翻译直接放在了幻灯片内,有兴趣的读者可以点开大图查看,不过大家也可以直接观看我们在每张图后写下的注解,一样能帮你理解微软的意思。

微软首先介绍了深度神经网络的简要历史。经过了上图中所示技术爆发点,幻灭的低谷,生产平稳期,膨胀期望巅峰等几个阶段。终于迎来了新的高潮。

在2013年,深度学习成为了MIT评选的年度十大科技突破之一。

而对深度学习的学术研究也从2012年开始到2015年出现爆发式的增长。在NIPS 2015会议中集中爆发,典型的证据就是主会场内的相关研究参与人数有了巨大增长,相关话题的指导报告更是增加了100%还多。

2012年纽约时报的报道“科学家们在深度学习上看到了希望”被视为深度学习崛起的标志之一。

DNN是一种完全连接的深度神经网络,简单来说,先训练每个都含有一个隐含层的生产力模型,然后把它们组合成一个深度信任网络,然后添加输出并利用反向传播来训练DNN网络。

上图是微软在各种领域对基于深度学习的语义识别的应用。

今天微软要讲的这个指南的焦点,并非集中在语音识别或者图像识别上,而是语音文本的处理和理解,一共分为5部分,点开大图可看到细节。

上图是一个需求分类问题的举例,比如输入一个问题:丹佛市中心的寿司店,但这个店属于餐馆,酒店,夜店,航班那个领域的店或者馆呢?这个是需要搜索引擎更加细化分类的。

上图给出了一个单神经元模型的原理,当输入一个X值后,函数最终会将其通过logistic回归进行分类,决定是否要给Y加上标签,并与事先准备好的标签核对。以此来完成学习的过程。

上图是单个的神经元模型,把一个数值转化为概率,然后把概率转化为一个非线性激活函数,再进行logistic回归。

在上图中,微软给出了训练模型的思路,由于是只有一个神经元组成的神经网络,因此方法比较简单,要训练的数据集是一组由二维数组组成的数对。

训练参数的过程,就是不断的更换w,使得损失函数最小。具体方式是使用随机梯度下降,将所有训练样本更新直到函数收敛。

实际问题基本不可能用单个神经元的网络就能解决。上图是一个多层神经网络的流程图,实际上也和目前绝大多数的神经网络结构类似。如果我们忽略下部的结构,只看输入层、最上面的一层隐含层和输出层,我们就会发现这正是一个单神经元神经网络的架构示意。而包含了下面的其他隐含层之后,就是一个多层神经元的结构了,将原始数据(词语向量)输入隐藏层中,经过参数w的投射生成新的向量,这个过程就称作特性生成。

可以看到,标准机器学习的过程同深度学习最大的区别,正在于特征训练的方式,传统的特征训练需要开发者手动提取特征,显得比较累。而深度学习可以自动从训练数据中学习到特征。显得灵活很多,不过代价就是函数优化和参数选择等的工作量会更重。

为什么要使用多个隐含层呢?毫无疑问的,适当增加隐藏层会让算法的效果更好。对特征的学习和转换也更灵活。类似深度学习用于图像识别时的像素→边缘→纹理→主题→局部→物体整体的过程。深度学习用于文本分析的时候也遵循了一个从字母→单词→词组→从句→句子→整个故事的过程。训练层数越多,对这些特征的描述就越精确。最终提取出来的效果也会越好。

DNN有许多中不同的表现形式,它们分别有各自的应用场景和优势。在此微软将其分为了三大类和六小类:

分类任务——通过X将Y分类标注

主要应用:多层感知机,卷积神经网络。

分级任务——通过计算X和Y的加权和进行分级。

主要应用:汨罗神经网络、深度语义相似模型

文本生成任务:由X的值生成Y

主要应用:序列对序列网络、记忆网络

在上图中,微软开始讲解一个具体的例子:深度语义相似模型(DSSM)。这种模型的处理方式是使用X和Y组成的文本流来计算语义相似度。方式是使用深度神经网络先在潜在语义空间建立一个x和y的两个特征向量。然后计算特征向量之间的余弦相似程度。

上两图是一个具体的原理图。表现了计算相似语义空间的方法,而最后一张图给出了一个基于此方法的整个卷积DSSM网络的示意图和原理说明。

总结:

深度学习曾被认为不适合用来做语义理解。主要是因为词语之间的相似程度与其含义的相似程度并无太大关系。词表的出现一定程度上解决了这个问题。而现在,深度学习在语义理解上的障碍已经基本不存在了,微软此次提供的思路也是一个很好的参考。相信应用上了深度学习的语义理解程序的表现将会有极大的提升。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-07-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

CVPR 2018论文出炉:腾讯AI Lab 21篇入选(附详解)

End-to-End Learning of Motion Representation for Video Understanding

712
来自专栏量子位

三角兽首席科学家分享实录:基于对抗学习的生成式对话模型

主讲人:三角兽首席科学家 王宝勋 颜萌 整理编辑 量子位 出品 | 公众号 QbitAI 对抗学习和对话系统都是近年来的新热点。今年7月,三角兽研究组与哈工大I...

3356
来自专栏机器学习算法与Python学习

集成学习(EL)综述

机器学习方法在生产、科研和生活中有着广泛应用,而集成学习则是机器学习的首要热门方向。集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而...

2748
来自专栏达观数据

机器学习技术的重要性:达观数据亲身实践

大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流失用户预测、支付平台的欺诈...

36214
来自专栏有趣的Python

1- Python3入门机器学习经典算法与应用-课程介绍

python3玩转机器学习 到底什么是机器学习? 让机器去学习 传统的算法课程中写的代码,是让机器去执行 ? mark 最早的机器学习应用 - 垃圾邮件分...

4189
来自专栏AI研习社

高级数据科学家阿萨姆:如何应对机器学习过程中的多项选择问题?| 分享总结

AI 研习社按:随着硬件算力的上升、数据量的加大以及各种新算法的浮现,机器学习也变得一天比一天火热。不夸张的说,这是机器学习的时代。然而,机器学习虽然能够给出惊...

3306
来自专栏Bingo的深度学习杂货店

图像处理之特征提取

知乎上看到一个话题—— 目前火热的 Deep Learning 会灭绝传统的 SIFT / SURF 特征提取方法吗? ---- 由于之前研究过SIFT和HO...

3734
来自专栏机器之心

NLP领域的ImageNet时代到来:词嵌入「已死」,语言模型当立

长期以来,词向量一直是自然语言处理的核心表征技术。然而,其统治地位正在被一系列令人振奋的新挑战所动摇,如:ELMo、ULMFiT 及 OpenAI transf...

1213
来自专栏AI科技评论

干货 | UT Austin博士生沈彦尧:基于深度主动学习的命名实体识别

沈彦尧基于亚马逊实习项目延伸探讨了主动学习在深度学习中的应用与思考,并分享了多篇深度主动学习的 ICLR,ICML 文章。

772
来自专栏产品成长日志

转型AI产品经理需要掌握的硬知识二:AI常见概念和算法梳理

上一篇文章介绍AI产品经理能力模型,人工智能的发展历史,人工智能常见概念的结构梳理,也简要做了BAT人工智能的优势分析,感兴趣的朋友可以点击链接查看上文。转型A...

882

扫描关注云+社区