Spark 2.1.1:如何在Spark 2.1.1中已经训练好的LDA模型上预测未见文档中的主题？ - 腾讯云开发者社区

、、、

我已经在Python3的特定主题上训练了2000URL的LDA模型(包含文章)。我们能根据训练好的模型预测新的语料库吗？

浏览 1提问于2018-03-16得票数 1

1回答

星星之火MLlib LDA，如何推断一个新的未见文档的主题分布？

、、、

我感兴趣的应用LDA主题建模使用火花MLlib。我已经检查了中的代码和解释，但是我无法找到如何使用该模型，然后在一个新的未见文档中找到主题分布。

浏览 4提问于2015-09-16得票数 14

回答已采纳

1回答

支持向量机或SPARK中任意分类器的增量分类

、、

有没有办法在Spark / MLlib中对任何分类器进行增量分类？我想要的是用新的数据集重新训练现有的模型。新的数据集可以随时出现，我想将其添加到已经训练好的分类器中。

浏览 10提问于2016-08-30得票数 1

1回答

我们需要对直播流上的twitter推文进行主题建模，输入使spark流，并将数据存储到HDFS。在收集的数据上运行批处理作业。批处理任务是在tweet中查找底层主题。为此，我们使用潜在狄利克雷分配(LDA)算法来找出主题。我们接收最大字符数为140的推文形式的数据，并将其存储为HDFS中的一行。我是LDA算法的新手，对此有基本的了解，因为主题模型是基于n个文档中的单词共现得出的我知道有两种方法可以将数据输入到LDA。选项1:使用一行tweet作为LDA的单个文档？选项2:对行和表单文档进行分组，将这些文档传递给LDA？我想了解每个选项的词汇表(单词)到主题的分布是如何影响的。为了更好

浏览 1提问于2017-04-17得票数 1

1回答

用训练的Spark模型提供实时预测

、、

我们目前正在测试一个基于Spark在Python：中实现LDA的预测引擎(我们使用的是pyspark.ml包，而不是pyspark.mllib) 我们成功地在星火集群(使用)上训练了一个模型。现在，我们正在尝试使用该模型作为API (例如，烧瓶应用程序)来提供实时预测。实现这一目标的最佳途径是什么？我们的主要痛苦之处在于，我们似乎需要恢复整个星火环境，才能加载经过训练的模型并运行转换。到目前为止，我们已经尝试了在本地模式下运行每个接收到的请求，但是这个方法给了我们：性能不佳(是时候拆分SparkSession，加载模型，运行转换.) 可伸缩性差(无法处理并发请求) 整个

浏览 1提问于2017-09-17得票数 6

1回答

如何在下面的LDA模型中预测评论的主题？

、

你好，我正在尝试制作几个小文本的主题模型，语料库是由一个社交网页上的评论组成的，我有以下的结构:首先，我列出了如下文件： listComments = ["I like the post", "I hate to use this smartphoneee","iPhone 7 now has the best performance and battery life :)",...] tfidf_vectorizer = TfidfVectorizer(min_df=10,ngram_range=(1,3),analyzer='wo

浏览 3提问于2016-12-22得票数 1

回答已采纳

3回答

从Pyspark模型中提取文档主题矩阵

、、、

我已经通过Python成功地训练了spark中的LDA模型： from pyspark.mllib.clustering import LDA model=LDA.train(corpus,k=10) 这很好，但我现在需要LDA模型的文档主题矩阵，但据我所知，我所能得到的只有单词-主题，使用model.topicsMatrix()。是否有办法从LDA模型中获得文档主题矩阵，如果没有，是否有其他方法(除了从头开始实现LDA之外)来运行LDA模型，从而给我所需的结果？编辑：在深入研究了一下之后，我在Java中找到了的文档，它有一个topicDistributions()，我认为这正是我在这里

浏览 2提问于2015-10-12得票数 16

回答已采纳

1回答

在R中手动指定主题模型

、、、

我有一个文本的语料库，其中包含csv文件中的每一行，唯一地指定了我感兴趣的“主题”。如果我使用主题模型包或lda中的LDA或Gibbs方法在这个语料库上运行一个主题模型，我将按预期得到每个“文档”中的多个主题( CSV中的一行文本，我有一个先验定义为我感兴趣的唯一主题)。我认为这是主题模型的算法和词汇假设的结果。然而，我好奇的是， ( 1)在R中是否有一个预先设计的包，供用户使用经验词分布指定主题？也就是说，我不想对主题进行估计，我想告诉R主题是什么。我想我可以用正确的主题数运行一个主题模型，使用对象的结构，然后覆盖它的内容。我只是希望有一个更简单或更明显的方式，我只是没有看到在这一点上。

浏览 2提问于2015-06-15得票数 0

1回答

报告日志-火花LDA模型的似然/困惑(局部模型与分布式模型不同？)

、、

给定一个训练语料库docsWithFeatures，我在Spark (通过Scala )中训练了一个LDA模型，如下所示： import org.apache.spark.mllib.clustering.{LDA, DistributedLDAModel, LocalLDAModel} val n_topics = 10; val lda = new LDA().setK(n_topics).setMaxIterations(20) val ldaModel = lda.run(docsWithFeatures) val distLDAModel = ldaModel.asInstance

浏览 1提问于2015-11-15得票数 2

回答已采纳

1回答

lda[doc_bow]和lda.inference(语料库)之间的区别是什么？

、、

在LDA模型中，我认为这是使用现有模型推断新文档的两种方法。这两种方法有什么不同？

浏览 0提问于2014-11-26得票数 3

1回答

如何将聊天信息按主题分组？

我是这个领域的新手。开发人员20年以上，但从未做过任何事情(除了教程)与ML，DL，和NLP。虽然我已经阅读了许多关于这项技术的文章和教程，但我已经开始了解使其工作所需的步骤和条件。我想达到的目的(我的问题的理由)是：我有一份文件，其中包含了我和另一个人之间长达两年的谈话。我想提取与同一主题相关的消息序列。我指的是在时间上是连续的，属于同一个话题的对话的信息。我的目标是提取我们花在每一个话题上的时间。有什么模型已经为这个任务训练过吗？(这当然是一个显而易见的问题:-P ) 或者，有什么模型，我可以用来作为一个开始训练基地？或者，如果不是，什么是好的方法(步骤，技术，软件)来训练我自己

浏览 0提问于2019-10-31得票数 1

1回答

带火花的LDA模型

、、、

我在推断新文档的主题分布时遇到了一些问题。实际上，我正在使用Spark2.2.0，而且我已经训练过LDA模型val lda = new LDA().setK(5).setMaxIterations(24)，我如何推断新文档的主题？

浏览 4提问于2017-08-07得票数 0

回答已采纳

1回答

如何在结构主题建模R-包中绘制文档主题分布？

、、、

如果我使用python进行LDA主题建模，可以使用transform函数获得LDA的“文档主题分布”--结果如下所示： document_topic_distribution = lda_model.transform(document_term_matrix) 现在，我也尝试了R结构主题模型(stm)包，我想得到同样的。stm包中是否有任何功能可以产生相同的东西(文档主题分布)？我创建了stm对象如下： stm_model <- stm(documents = out$documents, vocab = out$vocab, K = nu

浏览 1提问于2018-10-23得票数 2

回答已采纳

1回答

如何预测测试数据集上的主题？

、、

从apache Mahout网站，我能够看到适合LDA模型的过程，并以P("word"|"topic number")的形式输出计算出的主题。然而，没有关于如何将训练好的模型应用于测试数据以预测主题分布的信息。或者，我们是否应该编写自己的程序，使用条件概率的输出来查找测试数据集上的主题？

浏览 2提问于2012-09-21得票数 0

回答已采纳

1回答

sLDA。响应变量可能有多少值？

、

总的来说，我试图理解sLDA是如何工作的。与LDA不同，它具有“与每个文档关联的响应变量”。在培训集中，每个文档都是由一个主题标记的，还是由多个主题标记的？如果必须只使用一个主题作为一个文档的标签，那么是否存在另一个LDA模型，它为培训集中的每个文档使用多个标签作为输入？如果sLDA可能使用一个以上的主题作为标签，那么有什么实现(在Python、C/C++、Matlab中)用于多标签的sLDA吗？

浏览 1提问于2014-03-18得票数 0

回答已采纳

1回答

为什么在Spark中报告LDA模型的日志困惑如此缓慢？

、、

我正在使用OnlineLDAOptimizer来拟合Spark中的LDA模型。在9M个文档(Tweet)上安装10个主题只需200秒钟。 val numTopics=10 val lda = new LDA() .setOptimizer(new OnlineLDAOptimizer().setMiniBatchFraction(math.min(1.0, mbf))) .setK(numTopics) .setMaxIterations(2) .setDocConcentration(-1) // use default symmetric document-topic pr

浏览 1提问于2015-12-08得票数 1

1回答

LDA模型中“好”/“坏”-Cases的规定(在Python中使用gensim )

、、、

我正在尝试分析新闻片段，以确定危机时期。为了做到这一点，我已经下载了过去7年的新闻文章，并提供了这些文章。现在，我正在对这个数据集应用LDA (潜在狄利克雷分配)模型，以便识别那些显示出经济危机迹象的国家。我的代码基于Jordan Barber ()的一篇博客文章--这是我目前为止的代码： import os, csv #create list with text blocks in rows, based on csv file list=[] with open('Testfile.csv', 'r') as csvfile: emails =

浏览 0提问于2016-08-09得票数 0

1回答

来自kafka stream的spark应用程序需要很长时间才能产生推荐

、、、

我正在从kafka流读取我的spark应用程序中的数据流。我的需求是当用户提出任何请求(搜索/浏览等)时，为他提供产品推荐。我已经有了一个包含用户分数的训练模型。我使用Java和org.apache.spark.mllib.recommendation.MatrixFactorizationModel模型在我的spark应用程序开始时读取模型一次。每当有任何浏览事件发生时，我都会调用recommendProducts(user_id，num_of_recommended_products) API从我已经训练好的模型中为用户生成推荐。这个API需要大约3-5秒的时间来生成每个用户的结果，这

浏览 2提问于2017-11-14得票数 0

1回答

我应该如何在Spark中获得所有文档的主题？

、、

我的目标我有一些新闻语料库，我想用LDA为每个新闻文档提取关键词，关键字也可以被称为标签，说明这个新闻是关于什么的。我没有使用tf-idf，而是在互联网上搜索，并认为LDA可以更好地完成这项工作。让我们预先定义一些术语： “术语”= "word"：vocabulary"token"：实例的一个元素，该元素出现在document"topic"：多项分布中，该分布在表示某些concept"document"：文本的项上，对应于输入数据中的一行。我对SAPRK LDA的看法参考Spark：和我发现EMLDAOptimizer生

浏览 7提问于2020-03-16得票数 0

1回答

对于主题建模，在Amazon中，LDA和NTM有什么区别？

、

我在寻找LDA和NTM之间的区别。您将在NTM上使用LDA的用例是什么？根据AWS文档： SageMaker潜在Dirichlet分配算法( LDA )是一种无监督学习算法，它试图将一组观测数据描述为不同类别的混合。LDA最常用于发现文本语料库中文档所共享的特定数量的主题。虽然您可以同时使用Amazon和SageMaker算法进行主题建模，但它们是不同的算法，可以在相同的输入数据上产生不同的结果。

浏览 5提问于2019-11-29得票数 5

1回答

用于文本分类的预训练模型

、、、、

所以我有几个没有标签的单词，但我需要将它们分类为4-5个类别。我可以明确地说，这个测试集是可以分类的。虽然我没有训练数据，因此我需要使用预先训练好的模型来对这些单词进行分类。哪个模型适合这个范例，它已经在哪个数据集上进行了训练？谢谢

浏览 19提问于2020-12-12得票数 0

2回答

具有潜在Dirichlet分配的子主题

、、、

我正在用gensim的LdaMulticore训练LDA模型。这些主题看起来很棒，但是知道我知道的领域，在主题中有一些主题，但我不太确定如何最好的方法来建模。我遇到了分层LDA的这实现，但我很难实现它(没有社区支持)。我不认为gensim的hdpModel是我想要的，考虑到这的讨论。我现在正在做这个： 1)对所有记录进行LDA模型的训练，以获得一般主题 2)使用这个LDA模型为每个记录分配一个主主题 3)对于每个主题，只检索分配给该主题的记录 4)仅在过滤记录(例如主题ID == 3)上训练一个新的LDA模型，以便从过滤集生成子主题。 5)为每个记录分配一个一般主题ID和一个子主题ID 这

浏览 0提问于2018-02-01得票数 2

1回答

LDA (潜在Dirichlet分配)是如何从“gensim”推断新数据的？

、、、、

我正在使用gensim训练我的gensim，并使用像这个ldamodel[doc_term_matrix_test]这样的测试语料库进行预测，它工作得很好，但我不明白如何使用经过训练的模型来进行预测( ldamodel[doc_term_matrix_test]正在做什么)。以下是代码： dictionary2 = corpora.Dictionary(test) dictionary = corpora.Dictionary(train) dictionary.merge_with(dictionary2) doc_term_matrix2 = [dictionary.doc2bow(do

浏览 0提问于2019-03-20得票数 2

回答已采纳

1回答

如何使用主题模型(LDA)输出来匹配和检索新的、相同主题的文档

、、

我在语料库上使用一个LDA模型来学习它所涵盖的主题。我正在使用gensim包(例如，gensim.models.ldamodel.LdaModel)；如果需要，可以很容易地使用其他版本的LDA。我的问题是，使用参数化模型和/或主题词或主题is查找和检索包含主题的新文档的最有效方法是什么？具体来说，我想刮一个媒体API，以找到与我的原始语料库中的主题相关的新文章(样本外文档)。因为我在做这个“盲搜索”，所以在每个新文档上运行LDA可能太麻烦了；大多数新文档将不包含这个主题。当然，可以简单地检索包含LDA学习主题的大部分常用词的新文档；然后将LDA应用于返回的文档以获得进一步的信心。我想知

浏览 5提问于2016-10-25得票数 0

回答已采纳

1回答

在scikit-learn的LDA实现中，我如何在整个语料库中按频率对主题进行排序？

、、

我已经使用了scikit-学习执行LDA主题建模，我最终想按整个语料库的显着性/频率对主题进行排序，但我不知道如何做到这一点。我使用了幽门，虽然似乎没有办法提取频率和顺序，我需要创建特定的可视化。这基本上是我到目前为止在主题建模方面所做的。 # Vectorize text data vectorizer = countVectorizer() tf = vectorizer.fit_transform(df) # Fit LDA model LDA = LatentDirichletAllocation(n_components = k) LDA.fit(tf) 据我所知，最好的解决方

浏览 0提问于2021-07-28得票数 1

回答已采纳

3回答

gensim.interfaces.TransformedCorpus -如何使用？

、

在潜在的Dirichlet分配领域，我是相对较新的。我能够按照维基百科教程生成一个LDA模型，并且能够用我自己的文档生成一个LDA模型。我现在的步骤是尝试理解如何使用以前生成的模型来分类未见的文档。我把我的"lda_wiki_model“保存在 id2word =gensim.corpora.Dictionary.load_from_text('ptwiki_wordids.txt.bz2') mm = gensim.corpora.MmCorpus('ptwiki_tfidf.mm') lda = gensim.models.lda

浏览 5提问于2017-07-26得票数 9

回答已采纳

1回答

主题与潜在的Dirichlet分配

、、

潜在Dirichlet分配(LDA)是一种生成模型，它产生一个主题列表。每个主题都是由单词的分布来表示的。假设每个主题都用它的前40个单词来表示。给定一个新文档，我如何确定哪些主题构成了这个新文档，而不需要再次运行lda。换句话说，如何使用估计的主题来推断新的未见文档的主题。更新：对于估计，我们执行以下操作(为了简单起见，我忽略了超参数) for(int iter=0;iter<1000;iter++){ for(int token=0;token<numTokens;token++){ double[] values=new double[numTopics]

浏览 3提问于2014-10-14得票数 1

回答已采纳

1回答

用Gensim LDA模型对文本进行分类

、、、

作为参考，我已经研究了以下问题：我希望我的LDA模型训练从Gensim分类一个句子下的主题之一，模型创建。长队的东西 lda = models.LdaModel(corpus=corpus, id2word=id2word, num_topics=7, passes=20) lda.print_topics() for line in document: # where each line in the document is its own sentence for simplicity print('Sentence: ', line) topic =

浏览 3提问于2020-04-13得票数 2

2回答

向LDA输入文件

、

假设我有N个文本文档，并以以下两种方式运行LDA，同时在N个文档上运行LDA 在每个文档上分别运行，因此对于N个文档，您运行算法N次我也知道要选择多少个主题；在第一种情况下，我可以选择N作为主题的数量(假设每个文档都是一个主题)，但是如果我单独在每个文档上运行它，不确定如何选择主题的数量……？这两个案子是怎么回事？

浏览 5提问于2014-10-03得票数 1

回答已采纳

3回答

从gensim LDA模型中提取主题分布

、、

我使用python中的gensim包为一些文本文件创建了一个LDA模型。我想获得学习模型的主题分布。在gensim ldamodel类中是否存在从模型中获取主题分布的方法或解决方案？例如，我使用一致性模型来寻找一个模型，该模型的值与1到5的主题数有关。得到最佳模型后，我使用get_document_topics方法(感谢)来获取用于创建该模型的文档中的主题分布。 id2word = corpora.Dictionary(doc_terms) bow = id2word.doc2bow(doc_terms) max_coherence = -1 best_lda_model = None

浏览 1提问于2018-08-29得票数 2

回答已采纳

1回答

LDA的混淆矩阵

、、、、

我试图使用混淆矩阵来检查我的LDA模型的性能，但是我不知道该怎么做。我希望有人能指点我的方向。所以我在一个充满短文档的语料库上运行了一个LDA模型。然后，我计算了每个文档的平均向量，然后开始计算余弦相似性。我现在怎么会得到混乱矩阵呢？请注意，我是非常新的世界的NLP。如果有其他/更好的方法来检查这种型号的性能，请告诉我。

浏览 1提问于2019-08-01得票数 1

3回答

用于文档分类的监督潜在狄利克雷分配？

、、、、

我在一些组中有一堆已经属于人类机密的文档。有没有一个修改过的lda版本，我可以用它来训练模型，然后用它来对未知文档进行分类？

浏览 0提问于2012-11-26得票数 13

回答已采纳

1回答

主题对齐/主题建模

、、、、

什么是最有效的方法来检测这篇文章是否主要是关于一个特定的主题，但没有大量的数据进行培训？我的任务是确定一份文件有多少是关于天气、假期或其他几个特定主题的。我期待LDA和TFIDF，但据我所知，这种方法是不受监督的，并很好地根据词汇量对大量文档进行聚类/分组。这些技术在控制算法应该关注的主题方面有一定的局限性。此外，在我的例子中，我没有太多的数据来训练模型。因此，我正在考虑生成一些特定主题的标记特征列表，然后用word2vec度量文档中使用的词汇表与目标标记列表之间的余弦相似性。我的问题是：这是正确的方式，还是有更好的方法来实现这一点？最后的分数应该如何计算--标记之间的平均相似性还可以

浏览 0提问于2020-04-23得票数 1

1回答

为什么LDA的预测不正确？

、、、、

第一步我使用R和"topicmodels“包从4.5k文档语料库构建LDA模型。我做了通常的预处理步骤(停止词，削减低/高的词频率，柠檬化)，并结束了100个主题模型，我很满意。事实上，这是一个几乎完美的模型，以满足我的需要。 justlda <- LDA(k=100, x=dtm_lemma, method="Gibbs", control=control_list_gibbs) 第二步然后，我使用与上面相同的精确过程(模型未见)的300个文档语料库进行预处理，然后将其转换为文档项矩阵，然后使用同一包的“后验”函数来预测新数据上的主题。这个语料库来自相同的作

浏览 0提问于2019-03-17得票数 2

回答已采纳

1回答

WNTM、BTM和LF-LDA等短文本的主题模型是否创建了类似于文档术语矩阵的内容？

、、、

我正在处理短文本的主题建模，并遇到了三个关注相同主题的模型: biterm主题模型(BTM)、单词网络主题模型(WNTM)和潜在特征LDA (LF-LDA)。我知道对于传统的LDA (我已经使用R包topicmodel实现了它)，文本文档的非结构化形状通过构造文档术语矩阵(DTM)转换为计算机可读的格式。我想知道上面提到的模型是否使用了类似的实现方式，特别是如果它们还创建了一个类似于DTM的矩阵。有人知道吗？不幸的是，我无法通过阅读原始论文找到这些信息。提前谢谢你！

浏览 8提问于2017-11-14得票数 1

1回答

为什么fit_transform和transform会产生不同的结果？

、、、

我在text2vec包中玩LDA，弄不明白为什么fit_transfrom和transform在使用相同的数据时是不同的。声明将学习到的模型应用于新数据，但结果与fit_transform产生的结果大不相同。 data("movie_review") library(stringr) library(text2vec) library(dpylr) tokens = movie_review$review[1:4000] %>% tolower %>% word_tokenizer it = itoken(tokens, ids = movie_r

浏览 3提问于2019-07-16得票数 1

回答已采纳

1回答

文本处理，如何使用LDA分配一个主题-> 1文档？

、、、、

我有两个文件， music.txt & science.txt 我想从上面抽取两个主题(Music，Science) 从这两个文件创建LDA模型之后(设置num_topics=2) lda = gensim.models.ldamodel.LdaModel(corpus=my_corpus, id2word=corpus_dictionary, num_topics=2) print(lda.print_topic(0)) print(lda.print_topic(1)) 这是我的输出 0.011*scientific + 0.010*musical + 0.007*music,

浏览 5提问于2015-04-12得票数 1

2回答

主题建模，但与已知的主题？

好的，通常是主题模型(如LDA，pLSI等)用于推断一组文档中可能以无监督方式出现的主题。我想知道是否有人对我如何将我的问题塞进LDA框架有任何想法，因为有非常好的工具可以解决LDA问题。为了彻底起见，我有以下几条信息作为输入：一组文件(一个有机体的DNA片段，每个片段是一个文档) 。在这种情况下，文档只能有一个主题。一组主题(来自其他生物体的DNA片段) 在这种情况下，单词是基的三重奏(目前而言)。我想回答的问题是:就目前的文件而言，它的主题是什么？换句话说，对于给定的DNA片段，它最有可能来自哪个其他有机体(相同的物种)？自片段交换发生以

浏览 2提问于2013-05-28得票数 6

3回答

科学-学习-我应该适合TF或TF-以色列国防军模型吗？

、、、

我试图找出适合不同概率模型的最佳方法(如潜隐Dirichlet分配、非负矩阵分解等)。查看sklearn文档中的示例，我想知道为什么LDA模型适合TF数组，而NMF模型适合TF-国防军数组。这一选择有确切的原因吗？下面是示例：http://scikit-learn.org/stable/auto_实例/应用程序/主题_抽提_使用_nmf_lda.html#sphx-glr-auto-examples-applications-topics-extraction-with-nmf-lda-py 另外，关于如何找到最佳参数的任何技巧(迭代次数、主题数量.)适合我的模特是很受欢迎的。提前谢谢你

浏览 0提问于2016-10-21得票数 4

1回答

在Gensim中用预定义的主题列表进行LDA/LSI主题建模

、、

我有一套文件。我也有主题的标题，我想根据这些标题对文档进行分类。我更喜欢在Gensim中使用LDA。在主题建模算法中，有什么方法可以提供我自己的主题列表吗？

浏览 2提问于2017-06-01得票数 1

回答已采纳

1回答

无法使用LDA训练模型对主题进行分类

、、

我已经使用Gensim创建了一个LDA模型，我首先在3到10的范围内从num_topics迭代，并基于pyLDAvis图，在最终的lda模型中选择n=3。 import glob import sys sys.path.append('/Users/tcssig/Documents/NLP_code_base/Doc_Similarity') import normalization from gensim.models.coherencemodel import CoherenceModel datalist = [] for filename in glob.iglob

浏览 20提问于2019-09-02得票数 0

回答已采纳

1回答

如何使用gensim的LDA从查询中进行文本检索？

、、、

我试图了解LDA如何用于文本检索，我目前正在使用gensim的LdaModel模型来实现LDA，这里是：。我成功地识别了k个主题和它们最常用的单词，我知道LDA是关于主题的概率分布，以及单词如何在文档中的主题中分布，所以这很有意义。也就是说，我不明白如何使用LdaModel检索与搜索查询的字符串输入相关的文档，例如“节育的负面影响”。我尝试在搜索查询中推断主题分布，并使用gensim的similarities.MatrixSimilarity计算余弦相似度，找出搜索查询上的主题分布与语料库中的主题分布之间的相似之处： lda = LdaModel(corpus, num_topics=10

浏览 0提问于2018-04-26得票数 3

回答已采纳

1回答

归一化主题文档概率text2vec R

、

在使用R中的text2vec包运行lda模型后，我正在尝试找出主题文档概率。以下命令将生成模型： lda_model <- LDA$new(n_topics = n_topics, doc_topic_prior = 0.1, topic_word_prior = 0.01) doc_topic_distr <- lda_model$fit_transform(x = quantdfm, n_iter = 2000, convergence_tol = 0.00001, n_check_convergence = 10, progressbar = FALSE) quantdf

浏览 6提问于2018-02-20得票数 0

回答已采纳

1回答

利用潜在Dirichlet分配(LDA)或命名实体确定文档的新颖性/相似性

、、、、

给定一个包含大量(短)文档(大约100万)的索引或数据库，我试图对每个新传入的文档进行某种新奇的检测。我知道，我必须计算新文档与索引中每个文档的相似性。如果相似度低于某一阈值，则可以将此文档视为新颖的文档。我想要做的一种常见方法是使用向量空间模型并计算余弦相似度(例如，使用Apache )。但是这种方法有两个缺点: 1)计算量大；2)不包含文档和词的语义。为了克服这些缺点，我的想法是要么使用LDA主题分布，要么使用命名实体来增强Lucene索引和查询(即文档集合和每个新文档)的语义。现在，我完全不知道具体的执行情况。我已经训练了一个使用Mallet的LDA主题模型，我也能够在语料库上进

浏览 0提问于2017-03-12得票数 1

1回答

在使用LDA完成主题建模之后，如何将主题映射到文档？

、、

有没有办法将生成的主题从LDA映射到文档列表，并确定它属于哪个主题？我感兴趣的是使用无监督学习对文档进行聚类，并将其划分到适当的聚类中。例如，在运行具有最佳超参数的LDA模型后，我有10个主题。因此，它应该返回一些已经用预先训练的LDA模型定义的主题，以及用户输入的新句子或文档。我在等你们好的解决方案。:) Ps。我正在使用Gensim进行NLP。

浏览 22提问于2019-11-23得票数 0

回答已采纳

2回答

在9GB语料库上用MALLET进行主题建模需要多长时间

、、、

我想做一个9GB语料库上的LDA主题建模。该计划是训练使用MALLET的LDA模型在100个主题的1000次迭代中，在200次迭代结束后每10次优化一次超参数。我的工作是64位Win8，计算机有16™内存，英特尔核心™i7-4720™处理器。有人能告诉我这需要多长时间吗？我们说的是几个小时还是几天？这是我在这里问的第一个问题，所以如果我跳过了一些重要的信息，请告诉我。

浏览 0提问于2016-05-15得票数 3

回答已采纳

1回答

使用LDA概率的文档相似度

、、

让我们假设我有一个LDA模型训练在一个文本的语料库上。我想知道，对于一个新给出的文件，哪一个是从语料库里藏起来的。但是，为了做到这一点，我想使用LDA提供的概率。是否有可能用概率来衡量“相似性评分”？我想使用经典的概率乘积公式会得到一个很低的值。我是NLP的新手，我对文学不太了解。

浏览 0提问于2022-07-17得票数 1

1回答

如何利用LDA获取主题建模中每个文档的主题概率

、、

我使用scikit-learn LDA来生成LDA模型，然后我可以得到主题-术语。我想知道如何才能得到每个文档的每个主题的概率？

浏览 0提问于2018-04-09得票数 1

回答已采纳

1回答

在Python gensim主题模型中访问字典

、、、、

我想看看如何从gensim lda主题模型访问字典。当您训练lda模型时，这一点尤其重要，稍后保存并加载它。换句话说，假设lda_model是在一组文档上训练的模型。要获得文档主题矩阵，可以执行类似下面的操作或类似于https://www.kdnuggets.com/2019/09/overview-topics-extraction-python-latent-dirichlet-allocation.html中解释的操作 def regTokenize(text): # tokenize the text into words import re WORD = r

浏览 39提问于2021-01-25得票数 1

回答已采纳

1回答

R LDAvis为每个主题定义文档

、、、

这是一个关于LDA和R中的应用程序LDAvis的问题，因为这是我第一次使用这个包，我希望能有任何帮助来帮助我的研究。我希望能够查看每个主题基于概率定义的文档。我正在使用调查数据，我正在查看评论部分，并将每个部分定义为文档。我将使用cpsievert的示例“电影评论的主题模型”，因为这与我的代码非常相似。完整的代码可以在以下链接中找到：我已经到了使用基于以下代码的LDA模型来拟合模型的阶段： set.seed(123) fit <- lda.collapsed.gibbs.sampler(documents = documents, K = K, vocab = vocab,

浏览 3提问于2015-08-24得票数 1

回答已采纳