【新智元导读】机器翻译是深度学习技术最切近实际的应用之一,现在在互联网上有很广泛的使用。此外,不久前,许多科技大公司也相应地推出了为图片或视频自动生成字幕的应用,根据外媒的报道,Facebook曾对外称,这是一项能让盲人“看”见图片的技术。深度学习在这些应用中究竟是怎么发挥作用的,其背后的技术是什么?深度学习领域大神级人物Yoshua Bengio在本次演讲中作了详细的解读。
Yoshua Bengio,电脑科学家,毕业于麦吉尔大学,在MIT和AT&T贝尔实验室做过博士后研究员,自1993年之后就在蒙特利尔大学任教,与 Yann LeCun、 Geoffrey Hinton并称为“深度学习三巨头”,也是神经网络复兴的主要的三个发起人之一,在预训练问题、为自动编码器降噪等自动编码器的结构问题和生成式模型等等领域做出重大贡献。他早先的一篇关于语言概率模型的论文开创了神经网络做语言模型的先河,启发了一系列关于 NLP 的文章,进而在工业界产生重大影响。此外,他的小组开发了 Theano 平台。
下文是Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT实录,由新智元整理翻译,如果PPT看不过瘾,你还可以复制链接直接观看视频:https://www.periscope.tv/hugo_larochelle/1MYxNDlQkPpGw
原标题:自然语言词义中的深度学习
从ML到AI的三个关键要素:
1. 许多&许多的数据
2. 非常灵活的模型
3. 强大的先验知识,能打破“维度的诅咒”
突破“维度的诅咒”
深度学习理论的进展
分布式表示的指数级优势
比起最近邻法或分类法的模型,学习一系列不相互排斥的特征,在数据上更有效。
相关推荐论文
深度的指数级优势
迷思正在被打破:神经网络中的局部最小值
凸性并不是必须的
推荐论文
鞍点
为什么N-gram 在泛化上表现很差
神经语言模型
下一个挑战:词序中丰富的语义表示
深度学习中的聚焦(Attention)机制
考虑一个输入(或者中间的)序列或者图像
考虑一个高层次的指称,通过设置权重或者每个输入位置的概率,正如MLP中所产生的那样,运用到每一个位置。
聚焦机制在翻译、语音、图像、视频和存储中的应用
端对端的机器翻译
2014:神经机器翻译获得突破的一年
主要论文
早期的工作
编码-解码框架
输入侧的双向RNN
模仿Alex Graves在手写体上的工作
聚焦:相关论文和旧论文
软聚焦VS随机硬聚焦
聚焦为基础的神经机器翻译
预测对齐
法语和德语不同的对齐
在纯AE模型上的提升
周期性网络和聚焦机制下的端对端机器翻译
从零开始,一年后的现状:
英语到德语
从图像到文字:聚焦模型下的字幕生成
聚焦选择部分图像,同时,生成对应描述词
说出看到的东西
展示、参加和讲述:用视觉聚焦来达到神经图像字幕生成
好的识别
坏的识别
有趣的延伸
用共享聚焦机制达成的多语言神经机器翻译
用共享聚焦机制达成的多语言神经机器翻译
基于字符的模型
障碍:
基于字符的NMT实验
基于字符的NMT实验
内存访问中的聚焦模型
大型内存网络:长期依存的稀疏内存访问
延迟不代表能更进一步
在运行的项目:知识提取
下一个大难题:非监督式学习
最近的突破大多数都是在监督式深度学习中
非监督式学习中的真实挑战
潜在的好处:
结论
深度学习理论在许多前沿地带都取得了显著的进步:为什么能更好地泛化?为什么局部最小值不是人们考虑的问题?深度无监督学习的概率解释。
聚焦机制让学习者模型更好地做选择,不管是软聚焦还硬聚焦。
深度学习理论在机器翻译和字幕生成上取得了巨大的成功。
在语音识别和视频,特别是如果我们使用深度学习理论来捕捉多样的时标时,会很有用。
深度学习理论可用于解决长期的依存问题,让一些状态持续任意长时间。