本章简要回顾了深度学习和强化学习,这些学习与后续章节中的会话AI最相关。
深度学习(DL)涉及训练神经网络,其原始形式由单层(即感知器)组成(Rosenblatt,1957)。感知器甚至无法学习逻辑异或等简单函数,因此后续工作探索了“深层”架构的使用,这增加了输入和输出之间的隐藏层(Rosenblatt,1962; Minsky和Papert,1969),通常称为多层感知器(MLP)或深度神经网络(DNN)的神经网络。本节介绍NLP和IR的一些常用DNN。有兴趣的读者可以参考Goodfellow等人。 (2016)进行全面讨论。
考虑文本分类问题:通过诸如“sport”和“politics”之类的域名标记文本字符串(例如,文档或查询)。如图2.1(左)所示,经典ML算法首先使用一组手工设计的特征(例如,单词和字符n-gram,实体和短语等)将文本字符串映射到矢量表示x,然后学习具有softmax层的线性分类器以计算域标签的分布y = f(x; W),其中W是使用SGD从训练数据学习的矩阵以最小化误分类错误。设计工作主要集中在特征工程上。
而不是使用手工设计的x特征,DL方法使用DNN联合优化特征表示和分类,如图2.1(右)所示。我们看到DNN由两部分组成。上半部分可视为线性分类器,类似于图2.1(左)中的传统ML模型,但其输入向量h不是基于手工设计的特征,而是使用下半部分学习可以将DNN视为与端到端方式的分类器一起优化的特征生成器。与经典ML不同,设计DL分类器的工作主要是优化DNN架构以进行有效的表示学习。
对于NLP任务,根据我们希望在文本中捕获的语言结构的类型,我们可以应用不同类型的神经网络(NN)层结构,例如用于局部词依赖性的卷积层和用于全局词序列的循环层。这些层可以组合和堆叠以形成深层体系结构,以在不同的抽象级别捕获不同的语义和上下文信息。下面描述了几种广泛使用的NN层:
2 我们经常在本文中省略用于简化符号的偏差项。
DSSM代表深度结构化语义模型,或更一般地,深度语义相似性模型。 DSSM是一种用于测量一对输入(x,y)的语义相似性的深度学习模型。根据(x,y)的定义,它们可以应用于各种任务。例如,(x,y)是用于Web搜索排名的查询 - 文档对(Huang et al。,2013; Shen et al。,2014),推荐中的文档对(Gao et al。,2014b),一个问题QA中的一对(Yih等,2015a),机器翻译中的一对句子(Gao et al。,2014a),以及图像字幕中的图像 - 文本对(Fang et al。,2015)和等等。
如图2.3所示,DSSM由一对DNN(f1和f2)组成,它们将输入x和y映射到公共低维语义空间中的相应向量。然后通过两个矢量的余弦距离测量x和y的相似性。 f1和f2可以是不同的体系结构,具体取决于x和y。例如,为了计算图像 - 文本对的相似性,f1可以是深度卷积NN,f2可以是RNN。