00:01
7.9主题建模与文档聚类常用与文本数据的一种特殊技术是主题建模topic modeling,这是描述将每个文档分配给一个或多个主题的任务,通常是监督的概括性的术语。这方面一个很好的例子是新闻数据。他们可以被分为政治、体育、金融等主题。如果为每个文档分配一个主题,那么这是一个文档聚类任务。正如第三章中所说,如果每个文档可以有多个主题。那么这个任务与第三章中的分解方法有关。我们学到的每个成分对应于一个主题文档表示是。其中的成分。告诉我们这个文档与该主题的相关性的强弱。通常来说,人们在谈论主题建模,他们指的是一种叫做隐含利克雷分布lateentate allocation lda的特定分解方法。
01:11
注意,还有一种机器学习模型,通常也简称为lda,那就是线性判别分析Lina discriminate analysis,一种线性分类模型,这造成了很多混乱,但是在这本书中,LBA指的就是隐含分布。隐含电离克雷分布,从直观上来看,LDA模型视图找出频繁共同出现的单词群组也就主题。LDA还要求。每个文档可以被理解为主题子集的混合,重要的是要理解机器学习模型。所谓的主题可能不是我们通常在日常对话中所说的主题。而是更类似于PC或NMF。第三章讨论过NMF或者说PC所提取的成分。
02:05
他们可能具有语义,也有可能是没有语义的。即使lda主题具有语义,它可能也不是我们通常所说的主题。回到新闻文章的例子,我们可能有许多关于体育、政治、金融的文章,有两位作者所写,在一篇政治文章中,我们可能会看到州长、投票、党派等词语,而在一篇体育文章中,我们预计会看到队伍、得分和赛季之类的词语。这两组词语可能会同时出现,但是像队伍和周长就不太可能同时出现。但是这并不是我们预计可能同时出现的唯一的单词群组。这两位记者可能偏爱不同的短语,或者选择不同的单词。可能其中一人喜欢使用话题。The这个词,而另一个人喜欢使用两句通话这个词。其他主题可能是记者A常用的词语和记者B常用的词语,虽然这并不是通常意义上的主题。
03:15
我们将LDA应用于电影评论数据集,来看一下它的实践中的效果。对于无监督的文本文档模型。通常最好删除非常常见的一些单词。否则他们会支配分析过程。我们将删除至少在15%的文档出现过的单词。并在删除这15%的单词之后,将子弹模型限度为最常见的1万个单词。我们将学习一个包含十个主题的主题模型,它包含的主题个数很少,我们可以查看所有的主题。与NMF中的分量类似,主题没有内在的顺序。
04:03
而改变主题数量将会改变所有主题。事实上,NMF和LDA解决的是非常相关的问题,我们也可以用NMF来提取主题。我们将使用Bach学习方法,它比默认方法online要稍微慢一点,但通常会给出更好的结果。我们还将增大max,这样会得到更好的模型。与第三章中所讲的分解方法类似。Lda有一个component。下部线属性,其中保存了每个单词对主题的重要性。component词的大小为。Com。逗号in what,也就是。
05:02
主题的数量,逗号单词的数量。为了更好的理解不同主题的含义,我们将查看每个主题中最重要的单词print topic函数。为这些特征提供了良好的格式。从重要的单次来看。主题一,似乎是关于历史和战争的电影。主题二可能是关于。喜剧。主题三。
06:01
可能是关于电视连续剧。主题是可能提取了。一些非常常见的单词。好,主题六。似乎是关于儿童电影的。主题八似乎提取了与获奖相关的评论。仅仅使用十个主题,每个主题都需要非常泛。每个主题非常的宽泛。才能共同覆盖我们的数据集中所有不同类型的讨论。接下来我们将学习另一个模型,这次包含100个主题。使用更多的主题将使得分析过程更加的困难,但更可能使主题专门针对某个有趣的数据子集。查看所有100个主题可能有点困难。
07:04
所以我们选取了一些有趣的而且有代表性的主题。这次我们提取的主题似乎更加的具体,不过很多都难以解决。主题七似乎是关于恐怖电影。以及惊悚片。主题16。和主题54。似乎是关于。不好的评论。而主题63。
08:00
似乎主要是关于喜剧的正面评论。如果想要利用发现的主题做出进一步的判断,那么我们应该查看分配给这些主题的文档,以验证我们通过查看每个主题排名最靠前的单词所得到的直觉。例如。主题45似乎是关于音乐的,我们来查看哪些评论被分配给这个主题。可以看出,这个主题涵盖许多以音乐为主的评论,从音乐剧到专区电影。再到最后一条。评论中难以归类的类型。查看主题还有一种有趣的方法就是通过对所有评论的document topics进行求和来查看每个主题所获得的整体权重。我们用最常见的两个单词问每个主题命令。
09:12
这一幅图中。给出了学到的主题的权重。最重要的主题是主题97,它可能主要包含停用词,可能还有一些稍微负面的单词。主题16明显是有关。负面评论的。然后是一些特定类型的主题与主题。36和37。就二者。似乎。都包含表示赞美的单词。
10:01
除了几个。不太具体的主题之外,LDA似乎发现了两种主题。特定类型的主题与特定评分的主题。这是一个有趣的发现,因为大部分评论都有一些与电影相关的评论与一些证明或强调评分的评论组成。在没有标签的情况下,或者像本章的例子这样。即使是有标签的情况下,像LDA这样的主题模型是理解大型文本语料库的有趣方法。不过。LDA算法是随机的。改变。Random data参数可能会得到完全不同的结果,虽然找到主题可能很有用。但对于从无监督模型中得出的任何结论,都应该持保留的态度。
11:04
我们建议通过查看特定主题中的文档来验证你的直觉。LDa.transform方法生成的主题有时也可以用于监督学习的紧凑表示。当训练样例很少时,这一方法特别的有用。七点时小结与展望本章讨论了处理文本也叫自然语言处理NLP的基础知识,还给出了一个对电影评论进行分类的事例应用。如果你想要尝试处理文本数据,那么这里讨论的工具应该是很好的出发点,特别是对于文本分类任务,比如检测垃圾邮件和欺诈,或者情感分析。子弹模型提供了一种简单而又强大的解决方案。正如机器学习中常见的情况,数据表示是NLP应用的关键。检查所提取的磁力和N源分词有助于深入理解建模过程。在文本处理应用中,对于监督任务与无监督任务而言,通常都可以用有意义的方式对模型进行练习。
12:12
正如我们在文章所见,在实践中使用基于NLP的方法时,你应该充分利用这一能力。自然语言和文本处理是一个很大的研究领域,讨论及高级方法的细节已经远远超出了本书的范围。如果你想学习更多的内容。我们推荐一部Steven bird e Kelly Edward Robert的合作natural language processing with这一本书,Already出版社。其中给出了NLP的概述,并介绍了NLTK这个用NLP的Python库。另一本很好写,概念性更强的书是。Christopher。Haircut。Heaven和heri schools和处的标准参考introduction to informationtrival,其中介绍了信息检索、NLP和机器学习中基本的算法。
13:14
这两本书都有可以免费访问的在线版本。正如前面所说,Countr类和TF idfr类仅实现了相对简单的文本处理方法。对于更高级的文本处理方法,我们推荐使用P包space,一个相对较新的包,但非常高效且设计良好,NLTK。一个非常完善且完整的但有些过时和GC着重于主题建模的NLP包。近年来在文本处理方面有许多非常令人激动的新进展,这些内容都超出了本书的范围,并且都和神经网络有关。第一个进展是使用连续向量模式也叫做词向量word或分布式词表式RI的word representation。它的word to vec库中实像托马斯。
14:09
MY等人的原distributed representation of words and phrases and their comp。Fish。是对这一主题的很好的介绍。对于这篇论文及其后续所讨论的技术,Space和积都提供了相应的功能,纪念了NLP。还有一个研究方向不断的升温,就是使用地C神经网络currentent new文network rn进行文本处理与智能分配。类别标签的分类模型下,R是一种特别强大的神经网络,可以生成同样是文本的输出,能够生成文本作为输出,使得N非常适合自动翻译和摘要。哎呀,说开。Y和。
15:02
Co Co的一篇技术性相对较强的文章sequence to sequence learning with networks。对这一主题进行了介绍。在pencil flow网站上可以找到使用task flow框架的更为实用的教程。
我来说两句