选中自然语言处理任务的连续表达 | 微软IJCAI2016演讲PPT

微软研究院在IJCAI2016的Tutorial上讲述了自己将深度学习、深度神经网络应用于不同场景的情况,之前第二部分提到了深度学习在统计机器翻译和会话中的应用,本文为第三部分—选中自然语言处理任务的连续表达。

选中自然语言处理任务的连续表达

l 针对信息检索和个人排序的深度语义相似模型(DSSM) l 在连续语义自然语言处理任务环境中进行深度强化学习 l 针对字幕与视觉问题回答的多元语义学习&推理

对自然语言学习连续语义表达,例如:从原始语句到一个抽象语义矢量

在许多自然语言处理任务中Sent2Vec非常重要,它可以处理包括网页搜索、广告选取、文本排序、在线推荐、机器翻译、知识架构、问题回答、个性化推荐、图片搜索、图标注释等问题。

监督问题:

虽然

l 需要学习的文本语义是隐藏的 l 且没有明确的目标学习模型 l 另外不知如何反向传播?

但是幸运的是

l 我们一般知道俩个文本是否“相似” l 这就是语义表达学习的信号

深度架构语义模型

深度架构语义模型/深度语义相似模型,将整个句子转换成连续语义空间。例如:句子变成矢量 DSSM基于字符(非词汇)建立实为了其可拓展性和普适性 DSSM被训练来优化相似驱动对象

在字符级别进行编码,即词汇散列。

在字符级别建立的DSSM,将任意词汇分解成一系列相关字符,倾向于处理大规模自然语言任务。

DSSM:一个相似驱动Sent2Vec模型

初始化:神经网络使用随机权重进行初始化

训练:在语义矢量之间计算余弦相似度

运行时间

训练目标:基于余弦相似度的损失

使用网页搜索作为示例:

查询q与一系列文档D 目标:给定查询后点击文档的可能性

在DSSM中使用卷曲神经网络

在卷曲层对本地文本进行建模 在汇聚层对全局文本进行建模

模型在卷曲层捕捉本地本文相关词的意义,并学习了每个本地文本相关词的嵌入矢量。

CDSSM:在最大汇聚层发生了什么?

将本地主题聚集起来形成全局化 识别最大聚集层的主要词汇/短语 在最大聚集层获得最活跃的神经元词汇

针对学习检索的DSSM,训练数据组搜索记录中的语义相关文本组。

实验设定

卷曲深度语义模型取得最佳结果。

语义匹配示例

卷积DSSM:

在卷积隐层一个接一个就行编码 隐层在最后一个词汇对整句进行语义编码 通过余弦相似驱动目标来训练模型

使用长短期记忆(LSTM)结果:

LSTM比常规RNN学得快得多 LSTM能有效代表使用矢量句子的语义信息

DSSM与Seq2Seq对比

给出一个特别用户的文章跨度代表利益实体,并寻找实体的补充文件。

学习DSSM的语境实体次序

从网页浏览日志提取标签对,超链接指向维基百科P`时,P`中的H的锚文本,环境词汇,文本

语境实体搜索——实验设置:

1.训练/验证数据是维基页面中18M的用户点击量 2.评估数据:首先采样10k的网页文件作为源文件,然后使用文档中被命名的实体作为查询;第三保留100个返回文件作为目标文件,最后手动标记是否每一个目标文件都可以完好的描述实体。其中总共有870k标签对。

语境实体搜索的结果

一些相关的工作:

深度CNN文本输入(文章中主要的分级任务) 序列到序列的学习;段落矢量(学习段落的矢量) 递归NN(树状结构如分解) 张量积代表(树状代表) 树状结构LSTM网络(树状结构LSTM)

强化学习的模型——包括环境状态设置S;行动设置A,以及状态之间的转换规则;状态转换的即时奖励规则和代理观察规则。

Q-learning用于学习RL的政策(代理在给定的当前状态选择行动时必须遵循的规则)。其目的是找到MDP的最优政策,方法是:学习一个行动-价值函数,a.k.a。Q-函数:用于计算在训练收敛之后的状态上,所采取行动的期待效用。

最近的成就:深度Q网络在玩五个Atari游戏时,达到了人类级别的性能。其中使用了卷积神经网络计算Q(s,a),并利用大的行动空间,忽略小的行动空间。

最近的成就(续):机器人AlphaGO打败了世界围棋冠军。它与深度Q网络设置类似,忽略小的行动空间,它的模型中建立了两个CNNs网络(policy网络和value网络)。

语言理解的强化学习:以文本串的形式描述状态和行动,代理通过文本串做出相应正确的行动(正确指最大化长期奖励)。然后,环境状态转换到新的状态,代理也得到即时奖励。

行动空间和状态空间都非常的巨大,而且行动的特征由无界神经语言描述确定。

在NLP任务中,行动空间的特征由神经语言决定,它是离散的且近乎于无边界。我们提出了深度强化相关网络,将状态和空间都规划到连续的空间中,其中Q-函数是状态矢量和行为矢量的相关函数。

学习连续空间的视觉化,图2表示了:嵌入状态矢量和相关行动矢量后200,400,600训练片段的文本PCA项目。状态指:当你向前移动时。你周围的人脸上露出了恐怖的表情,并逃离街道。行动1(好的选择):向上看,行动2(不好的选择):无视他人的警告继续前进。

DRRN和DQN在两个文本游戏上的测试结果(学习曲线)

表展示了聚集后Q函数的示例值,且DRNN很好的概括了无法看见的行为。

人类学习处理文本,图像和联合的信息。

图像侧卷积网络实现过程

语言侧卷积网络实现过程

图像说明,通过深度学习模式检测图像中的关键概念,MELE从图像检测中产生解释。检测单词后,对其进行重新排列组成句子。

CaptionBot示例

说明到回答问题的过程

堆积注意模式推理工程:问题模式,图像模式,多水平注意模式,回答预测器。

SAN图像模式

SAN中问题模式

回答示例

总结:

本部分主要介绍通过DSSM学习Sent2Vec,在连续空间内对NLP任务进行强化学习以及视觉语言联合表达学习等概念。具体包括:

通过DSSM学习Sent2Vec:

DSSM把整个句子放在连续的空间内 基于特征字符级别建立DSSM DSSM直接优化目标函数的语义相似度

在连续空间内对NLP任务进行强化学习:

使用深度神经网络把状态和行动(无边界NL决定)放入连续语义空间 在连续语义空间计算Q函数

视觉语言联合表达学习:

图像解释——CaptopnBot示例 视觉问题回答——关键在于推理

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-07-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

文本特征提取方法研究

一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大...

53411
来自专栏AI科技评论

干货 | 史上最好记的神经网络结构速记表(下)

翻译 / 唐青 校对 / 李宇琛 整理 / 雷锋字幕组 本文提供了神经网络结构速查表,全面盘点神经网络的大量框架,并绘制直观示意图进行说明,是人手必备的神经网...

34711
来自专栏大数据挖掘DT机器学习

通俗的将Xgboost的原理讲明白

初看Xgboost,翻了多篇博客发现关于xgboost原理的描述实在难以忍受,缺乏逻辑性,写一篇供讨论。 观其大略,而后深入细节,一开始扎进公式反正我是觉得效...

4676
来自专栏PPV课数据科学社区

文本数据的机器学习自动分类方法(上)

【编者按】:随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,已经成为一个具有重要用途的研究课题。而在这些数据中,文本数据又是数量最大的...

4056
来自专栏算法channel

朴素贝叶斯分类器:例子解释

在昨天推送了用一个例子引入贝叶斯公式的基本思想,然后用贝叶斯公式对一个很简单的问题做分类,最后引出来一个问题:后验概率 P(c | x) 的求解转化为求解 P(...

3426
来自专栏机器之心

教程 | 一文读懂如何用LSA、PSLA、LDA和lda2vec进行主题建模

在自然语言理解任务中,我们可以通过一系列的层次来提取含义——从单词、句子、段落,再到文档。在文档层面,理解文本最有效的方式之一就是分析其主题。在文档集合中学习、...

790
来自专栏专知

【干货】Python机器学习项目实战2——模型选择,超参数调整和评估(附代码)

1412
来自专栏新智元

【资源】用深度学习解决自然语言处理中的7大问题,文本分类、语言建模、机器翻译等

【新智元导读】自然语言处理领域正在从统计学方法转向神经网络方法。在自然语言中,仍然存在许多具有挑战性的问题。但是,深度学习方法在某些特定的语言问题上取得了sta...

32011
来自专栏marsggbo

DeepLearning.ai学习笔记(五)序列模型 -- week2 自然语言处理与词嵌入

一、词汇表征 首先回顾一下之前介绍的单词表示方法,即one hot表示法。 如下图示,“Man”这个单词可以用 \(O_{5391}\) 表示,其中O表示One...

3406
来自专栏专知

CNN神经网络内部知识表达的“黑”与“白“

来源:知乎-Qs.Zhang张拳石 https://zhuanlan.zhihu.com/p/31365150 ▌前言 ---- 关于神经网络内部的知识表达,深...

3088

扫描关注云+社区