上下文
提前谢谢你的帮助。现在,我已经通过Jonathan的“LDA”包中的lda函数运行了一个数据集(注:这与“主题模型”包不同)。下面是一个可复制的示例,它使用在安装和加载'lda‘包时自动出现的cora数据集。
library(lda)
data(cora.documents) #list of words contained in each of the 2,410 documents
data(cora.vocab) #vocabulary list of words that occur at least once across all documents
然后,通过设置不
我正在尝试构建一个多类文本分类器,该分类器将tweet是否属于其中一个类别(建议、科学或其他)进行分类。
让输入类似这的任何推特,
投入:
The goal of teaching should not be to help the students learn how to
memorize and spit out information under academic pressure. Brain
The purpose of teaching is to inspire the desire for learning in them and
make them able t
我对主题建模/潜在Dirichlet分配很陌生,很难理解如何将这个概念应用于我的数据集(或者它是否是正确的方法)。
我有少量的文学文本(小说),并想提取一些一般性的话题使用LDA。
我正在使用Python中的gensim模块以及一些nltk特性。在一次测试中,我把原来的课文(只有6篇)分成30块,每篇有1000个单词。然后,我将块转换成文档项矩阵,并运行算法。这是代码(虽然我认为这与问题无关):
# chunks is a 30x1000 words matrix
dictionary = gensim.corpora.dictionary.Dictionary(chunks)
corpus
我对机器学习、NLP和LDA都比较陌生,所以我甚至不确定我是否完全正确地处理了我的问题;但我正在尝试使用已知主题和多个主题选择进行无监督的主题建模。基于Topic modelling, but with known topics? 我可以用每个单独的主题标记我的每一个文档,并且我的无监督集实际上变成了有监督的(LLDA是一种有监督的技术)。 阅读这篇paper时,我遇到了其他一些潜在的问题--首先,我的数据是按类别和子类别组织的。根据这篇论文,LLDA在文本之间显着的语义区分方面更有效-我不会特别在我的相对接近的子类别中做到这一点。此外,论文指出,LLDA不是被设计为多标签分类器的。 我希望
我试图理解为什么潜在的狄利克雷分配(LDA)在像Twitter这样的短文本环境中表现不佳。我已经读过论文“A biterm topic model for short text”,然而,我仍然不理解“单词共现的稀疏性”。
在我看来,LDA的生成部分对于任何类型的文本都是合理的,但在短文本中导致糟糕结果的是采样过程。我猜LDA基于两个部分对一个单词的主题进行采样:(1)同一文档中其他单词的主题(2)该单词其他出现的主题分配。由于短文本的(1)部分不能反映它的真实分布,这会导致每个单词的主题分配不佳。
如果你发现了这个问题,请随时发表你的想法,并帮助我理解这一点。