知识卡片递归神经网络

DataScience

发布于 2020-08-20 11:12:14

5130

发布于 2020-08-20 11:12:14

文章被收录于专栏：A2DataA2Data

前言：本文简要介绍文本分类的情感分析及传统求解方法，词向量的表示以及和递归神经网络模型在情感分析上的应用。

情感分析

Sentiment Analysis

什么是情感分析?

情感分类和文本分类的关系

现有情感词典

对于情感分类，清单词典是很重要的，中文词典Hownet的情感词具有良和莠的属性分别褒义和贬义词；现有情感词典的词不足之处是固定的，需要对其进行扩充。

情感词典构建方法之一

情感词典构建方法之二

典型数据集以及传统分类步骤

如何处理否定现象

否定现象是句子之间的相似度极高，但是由于出现否定词“didn’t”，表达的极性完全相反，为了体现句子的区分度，一种简单的办法是在出现否定词后的单词前加上“NOT_”。

情感分类的难点

人类的语言表达的情感有时候是微妙的，需要仔细阅读才能体会，对机器来说是一个难点，特别是涉及到程度副词以及语句的方向，使得情感分类变得复杂，传统的分类方法遇到困难。

前三句中文中，都有“大”字，但是前两句是贬义，后一句可看作是褒义，里面没有明显描述情感的词汇。英文中，对于香水的评论更是具有文学或者艺术性的表达，对机器来说理解起来比较复杂。

词向量

Word Vector

传统的语义向量表示方法

菠萝和凤梨是相似的，但传统的词向量表示看不出关联，出现“词汇鸿沟”。

深度学习中的词向量表示

word embedding 词嵌入是一种处理词向量的方法，将一个向量映射到一个一个低维连续向量。在语言处理中，将一个词进行分解，查找与其相关内容的语义，如cat猫这个词，embedding 之后，词向量由一组于之对其相关联的词组成，如 animal，dog，tiger等，用多个词向量来表示句子。

利用Word2vec得到词向量

Word2vec需要利用到较大规模的语料进行训练。其基本原理是，词语的语义通过上下文信息来确定，即相同语境的词其语义也相近。

利用word2vec进行词的相似度计算

用命令行语言把词china输进去，可找出china与训练文本中相同语境下语义也相同的词，并显示出相似度。

GloVe: Global Vectors for Word Representation

对于词向量的表示，除了Word2vec还有GLove，相关内容的网址如下：

项目网址:https://nlp.stanford.edu/projects/glove/

代码:https://github.com/stanfordnlp/GloVe

论文: Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. GloVe: Global Vectors for Word Representation. EMNLP 2014. 1532‐ ‐1543

递归神经网络

Recusive Neural Networks

如何判断一段文本的情感倾向?

not very good 是三个词的组合在语义分类中对机器来说比较难的，传统的词向量分析对于分类的预测，采用词袋模型使用贝叶斯和支持向量机算法，而通过使用word2vec将词表示为一个低维的向量，使用递归神经网络可以提高语义分类模型的效果，其采用句法分析，对语义进行组合，找到一个很好的组合对其进行判断，并输出结果。即使两句话的字面内容不同，递归神经网络可以根据词向量间的距离，来判断相似度，也就是语义上的相似性。

循环神经网络和递归神经网络

神经网络的输入层单元个数是固定的，因此必须用循环或者递归的方式来处理长度可变的输入。循环神经网络实现了前者，通过将长度不定的输入分割为等长度的小块，然后再依次的输入到网络中，从而实现了神经网络对变长输入的处理。一个典型的例子是，当我们处理一句话的时候，我们可以把一句话看作是词组成的序列，然后，每次向循环神经网络输入一个词，如此循环直至整句话输入完毕，循环神经网络将产生对应的输出。如此，我们就能处理任意长度的句子了。然而，有时候把句子看做是词的序列是不够的，比如下面这句话『两个外语学院的学生』：

上图显示了这句话的两个不同的语法解析树。可以看出来这句话有歧义，不同的语法解析树则对应了不同的意思。一个是『两个外语学院的/学生』，也就是学生可能有许多，但他们来自于两所外语学校；另一个是『两个/外语学院的学生』，也就是只有两个学生，他们是外语学院的。为了能够让模型区分出两个不同的意思，模型必须能够按照树结构去处理信息，而不是序列，这就是递归神经网络的作用。当面对按照树/图结构处理信息更有效的任务时，递归神经网络通常都会获得不错的结果。

情感树库语料

递归神经网络在语义分析的良好效果，不仅是由于算法本身，还与其有良好标注的训练样本有关，即使用大量的人工对于语义的情感态度进行标注。

训练集的数据中，采用5类评级对语义词进行标注，例如，excellent为4，good 为3等。

标准RNN

递归神经网络需要构建一个树模型，输入a,b,c是底部的叶子节点，p1是父节点，每个词初始化时，表示为一个d维的向量，随机采样生产，所有词向量被存储在一个词嵌入矩阵L中，列数为d，行数为绝对值V，在训练过程中，L被视为一种参数，会被优化和调整。父节点的向量通过组合函数g来获得，这样可以获得不同向量组合而成的词句段的向量表示。