00:01
七点次平用词删除没有信息量的单词还有另一种方法,就是舍弃那些出现次数太多以至于没有信息量的单词。有两种主要的方法,使用特定语言的停用词,Stop word列表,或者舍弃那些出现过于频繁的单词。在extraction.test模块中,提供了英语形容词的内置列表。显然,删除上述列表中的停用词只能使特征数量减少318个。也就是列表的长度。
01:00
但可能会提高性能,我们来试一下。现在数据集中的特征数量减少了305个。27271减去。26966。说明大部分停用词,但不是所有都出现了。我们再次运行网格搜索。使用停用词后,网格搜索性能略有下降,不至于担心。但鉴于从27000多个特征中删除305个,不太可能对性能不可解释性造成很大的影响,所以使用这个列表似乎是不值得的。
02:02
固定的列表主要对于小型数据集很有帮助,这些数据集可能没有包含足够的信息模型从数据本身无法判断出哪些单词是停用词。作为练习,你可以尝试另一种方法及通过设置countt driver的ma-DF选项来舍弃。出现比较频繁的单词。并查看它对特征数量和性能有什么影响。7.5用PFIDF缩放数据。另一种方法是按照我们预计的特征信息量大小来缩放特征,而不是舍弃那些认为不重要的特征。最常见的一种方法就是使用词频逆向文档频率term frequency、引卧document frequency t fidf方法。这一方法对在某个特定文档中经常出现的数据给予很高的权重,但对于在语料库的许多文档中都经常出现的术语。
03:08
给予的权重却不高。如果一个单词在某个特定文档中经常出现,但在许多文档中却不经常出现,那么这个单词很可能是对文档内容的很好描述。在论在两个内中实现TF-IDF方法,T f fidf transform和t fidfr,前者接受抗R生成的稀疏矩阵并将其变换,后者接受文本数据并完成磁带特征提取与t fidf变换。t fidf缩放有几种编辑你可以在维基百科上阅读相关内容。单词W在文档D中的t fidf分数在t fidf transform类和t fidf类中都有实现。计算公式在书上的261页。
04:06
PIDF。WD是两个参数等于TF乘上log等于加一除以aw加一的整体,再加一。其中N是训练集中的文档数量NW是训练集中出现单词W的文档数量,TF词频是单词W在查阅文档D。你想要变换或编码的文档中出现的次数。两个类在计算TFIDF表示之后。都还运用了L2范数,换句话说,它将每个文档的表示缩放的OG里的范数为一。利用这种缩放方法。文档长度,也就是单词数量不会改变向量化的表示。由于t fidf实际上运用了训练数据的统计学属性,所以我们将使用在第六章中介绍过的管道,以确保网格搜索的结果有效。
05:09
这样会得到下列蛋。如你所见,使用t fidf。仅统计词数对性能有所提高。我们还可以查看t if找到的最重要的单词。请记住,Tdf缩放的目的是找到能够区分文档的单词。但它完全是一种无监督技术,因此这里的重要不一定与我们感兴趣的正面评论和负面评论标签相关。首先。我们从管道中提取p fidf。
06:00
T fidf较小的特征要么是在许多文档里都很常用,要么就是很少使用且仅出现在非常长的文档中。有趣的是,许多t fidf较大的特征实际上对应的是特定的演出或电影。这些术语仅出现在这些特定演出或电影的评论中,但往往在这些评论中多次出现。例如,对于pokeman。Small small valley和。Do box是显而易见的,但这里的scanner实际上指的也是电影标题。这些单词不太可能有助于我们的情感分类任务,除非有些电影的评价可能普遍偏正面或偏负面,但肯定包含了关于评论的大量具体信息。我们还可以找到逆向文档频率较低的单词及出现次数很多因此被认为不那么重要的单词。训练前的逆向文档频率值被保存在IDF下线属性中。
07:11
正如所料,这些词大多是英语中的形容词,比如the和no。而有些单词显然是电影评论特有的,比如movie film time borrow的。有趣的是,Good great和bad也属于频繁出现的单词。因此,根据t fidf度量也属于不太相关的单词,尽管我们可能认为这些单词对情感分析的任务非常重要。7.6研究模型系数,最后。我们详细看一下Rose回归模型,从数据中实际学到的内容,由于特征数量非常多,删除出现次数不多的特征之后,还有。27271个。
08:01
所以,显然我们不能同时查看所有的系数,但是我们可以查看最大的系数,并查看这些系数对应的单词。我们将使用基于TFIDF特征训练的最后一个模型。下面这一张条形图。给出了logistic回归模型中。最大的20个系数与最小的20个系数。其中高度表示每个系数的大小。左侧的负系数属于模型找到的表示负面评论的单词,而右侧的正系数属于模型找到的表示正面的评论单词。大多数单词都是非常直观的,比如what。
09:03
最差。Wi。浪费。Disappointment,失望。和laughable。可笑,都表示不好的电影评论。好,Excellent优秀。Wonderful精彩。Enjoyable。令人愉快的。和refres耳目一新的。
10:14
都表示正面的电影评论。有些词的含义不那么明确,比如对1.job工作和today今天。但他们可能是类似good job做的不错和best today今日最佳等短语的一部分。7.7多个单词的磁带,也就是N元分词,使用磁带表示的主要缺点之一是完全是有七个单词顺序,因此its bad not good at all电影也很差,一点也不好。和it'good not bad at all电影很好,还不错。这两个字符串的磁带表示完全相同,尽管它们的含义是相反的。将not不放在单词前面,这只是上下文很重要的一个例子,可能是一个极端的例子。幸运的是,使用磁带表示时,有时。
11:06
可以获取一种上下文的方法,就是不仅考虑单一此类的技术,而且还考虑。相邻的两个或三个磁力的系数。两个磁力被称为二元分词geram,三个磁力被称为三元分词tri gram,正一般的磁力序列被称为N元分词n gram。我们可以通过改变抗device或者说p fidf device的n gram range参数来改变作为特征的磁力范围NG gram值参数。包含是一个元组,包含要考虑的磁力顺序的最小长度和最大长度。下面是在之前用户的玩具数据上的一个示例。
12:05
默认情况下。为每个长度最小为一且最大为一的磁力系列。换句话说,刚好一个磁力创建一个特征,单个磁力也被称为一元分子unram。要想只查看二元分子,即只查看有两个相邻磁力组成的序列,可以将n gram设置为222原子。使用更长的词令序列通常会得到更多的特征,也会得到更具体的特征。把words的两个短语中没有相同的二元分词。
13:00
对大多数应用而言,最小的磁力数量应该是一。因为。单个单词通常包含丰富的含义。在大多数情况下,添加二元分词会有所帮助,添加更长的序列一直到五元分子也可能有所帮助,但这会导致特征数量的大大增加,也可能会导致过敏和,因为其中包含许多非常具体的特征。原则上来说,二元分子的数量是一元分子数量的平况,三元分子的数量是一元分子数量的三次方,从而导致非常大的特征空间。在实践中,更高的N元分子在数据中的出现次数实际上是更少的,原因在于英语语言的结构,不过这个数字仍然是很大的。我们在I'm DB电影评论数据上尝试使用p fidf,并利用网格搜索找出N源分子的最佳设置。
14:09
从结果中可以看出,我们添加了二元分子特征与三元分子特征之后,性能提高了一个百分点多一点。我们可以将交叉验证精度作为n gram n gram range参数和C参数的函数的热度第一,并且可视化。正如我们在第五章中所做的那样。从热图中可以看出。使用二元分子对性能有很大的提高。而添加三元分词。对精度只有很小的贡献。为了更好的理解模型是如何改进的,我们可以将最佳模型的重要系数可视化,其中包含一元分子、二元分子和三元分子。
15:06
有几个特别有趣的特征。它们包含单词worth值得,而这个词本身并没有出现在一元分词模型中。north worth不值得表示负面评论,而但是这个沃绝对值得。和well was很值得表示正面评论。这是上下文影响沃一词含义的主要事例。接下来,我们只将三元分词可视化。以进一步了解这些特征有用的原因。许多有用的二元分子和单元分子都有常见的单词组成,这些单词本身可能没有什么信息量,比如none of the,没有一个the only good,唯一好的。不停的this one,这是一部of the most这本短语中的单词,但是与一元分词特征的重要性相比,这些特征的影响非常的有限。
16:16
我们看一下图就知道了。系数。最坏没有超过负十,最大也没有超过正六,而不像这点,最坏超过了,最坏达到了超过了负20,最好差不多也接近。20。
我来说两句