在SciKit学习或Gensim (Python3)中调整LDA超参数？_ValueError在Scikit中查找最佳超参数时使用GridSearchCV学习LogisticRegression - 腾讯云开发者社区

python、scikit-learn、nlp、gensim、hyperparameters

我正在尝试Gensim和SciKit learn (Python3)中的主题建模，我想了解更多关于在这两个包中调整超参数的信息。我在GITHUB上找到了一些相关的讨论，例如"optimize hyperparameters as part of LDA training"，但没有完整的文档。我甚至不确定在SciKit学习中超参数优化是不是可能的。我非常感谢你的链接或书籍推荐。

浏览 31提问于2021-01-20得票数 0

1回答

gensim在Scikit学习中的simple_preprocess替代方案是什么？

scikit-learn、nlp、gensim

通过使用Gensim执行LDA，我能够使用以下方法进行初始文本预处理和清理： gensim.utils.simple_preprocess(str(sentence),deacc=True) 它非常高效，几乎可以在一个命令中进行所有形式的文本清理。现在，我正在尝试使用Scikit LDA来学习LDA，我想知道是否有类似的方法来使用Sci-kit学习来实现相同的预处理，而不是必须加载两个库。

浏览 1提问于2022-03-27得票数 0

1回答

LDA Gensim Mallet将alpha设置为“auto”

python、gensim、lda

在Python.Gensim实现中，我使用LDA进行主题建模，允许我们将alpha设置为'auto‘，如下所示： alpha ({numpy.ndarray, str}, optional) – ’asymmetric’: Uses a fixed normalized asymmetric prior of 1.0 / topicno. ’auto’: Learns an asymmetric prior from the corpus (not available if distributed==True). 对于

浏览 2提问于2020-07-29得票数 1

回答已采纳

1回答

使用scikit-学习TfIdf与gensim LDA

python、scikit-learn、text-mining、lda

我在scikit中使用了不同版本的TF下手，学习对一些文本数据建模。 vectorizer = TfidfVectorizer(min_df=1,stop_words='english') 生成的数据X采用这种格式： <rowsxcolumns sparse matrix of type '<type 'numpy.float64'>' with xyz stored elements in Compressed Sparse Row format> 我想用LDA做实验，作为降低稀疏矩阵维数的一种方法。是否有一种简

浏览 0提问于2013-10-21得票数 8

回答已采纳

1回答

如何将对象传递到使用hyperopt优化的函数中？

python、machine-learning

我是hyperopt包的新手。现在，我想优化我的LDA模型，它是在gensim中实现的。LDA模型经过优化，使训练数据的轮廓得分最大化。现在，我的问题是“如何将训练数据(numpy.ndarray)传递给从hyperopt调用的目标函数？”我看了一些教程和一些。他们将训练数据设置为全局变量。但在我的情况下，很难将训练数据设置为全局变量。我编写了以下代码来使用hyoeropt优化LDA。我堆积了将训练数据传递给gensim_objective_function函数的方法，因为我将把gensim_lda_optimaze放在调用gensim_lda_optimaze函数的系统中。如何实现这一

浏览 0提问于2015-12-17得票数 3

1回答

如何在gensim中使用models.hdpmodel - Hierarchical Dirichlet过程获取文档主题

document、gensim、word、lda、hdp

我只是为了主题建模而学习gensim。当我使用 lda_model = gensim.models.ldamodel.LdaModel(...) 结果lda_model有两个函数: get_topics()和get_document_topics()。我可以通过它们找到主题-word和文档-主题。但是，我想尝试一下： hdp_lda_model = gensim.models.hdpmodel.HdpModel(...) 我只能在它的结果中找到get_topics()，没有像get_document_topics()这样的东西。所以我找不到文档和主题的关系。但它应该在某个地方。我从https

浏览 108提问于2019-12-20得票数 1

回答已采纳

1回答

在新语料库上进行LatentDirichletAllocation主题推理

python、scikit-learn、lda、topic-modeling

我一直在使用sklearn.decomposition.LatentDirichletAllocation模块来探索文档语料库。经过多次训练和调整模型的迭代(即添加停用词和同义词，改变主题的数量)，我对提炼出的主题相当满意和熟悉。作为下一步，我想将训练好的模型应用于新的语料库。是否可以将拟合的模型应用于一组新的文档，以确定主题分布。我知道这在gensim库中是可能的，在gensim库中您可以训练模型： from gensim.test.utils import common_texts from gensim.corpora.dictionary import Dictionary #

浏览 14提问于2018-08-02得票数 3

回答已采纳

3回答

从gensim LDA模型中提取主题分布

gensim、lda、topic-modeling

我使用python中的gensim包为一些文本文件创建了一个LDA模型。我想获得学习模型的主题分布。在gensim ldamodel类中是否存在从模型中获取主题分布的方法或解决方案？例如，我使用一致性模型来寻找一个模型，该模型的值与1到5的主题数有关。得到最佳模型后，我使用get_document_topics方法(感谢)来获取用于创建该模型的文档中的主题分布。 id2word = corpora.Dictionary(doc_terms) bow = id2word.doc2bow(doc_terms) max_coherence = -1 best_lda_model = None

浏览 1提问于2018-08-29得票数 2

回答已采纳

1回答

用python编写的LDA算法代码不是很清楚

python-3.x、lda

我正在尝试使用python和Gensim实现潜在的Dirichlet分配( LDA )，我也引用了一个网站上的LDA代码，但我仍然不是很清楚LDA的python代码。谁知道LDA的人可以向我解释清楚的方式，根据代码如下所示。我还上传了LDA公式，这是维基百科上的一张图片。在本例中，LDA用于分析文本文档的集合。 lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=id2word,

浏览 18提问于2019-04-02得票数 3

回答已采纳

1回答

如何使用csr_matrix初始化gensim语料库变量？

python、scikit-learn、document-classification、lda、gensim

我将X作为一个csr_matrix，它是我使用scikit的tfidf向量器获得的，y是一个数组。我的计划是使用LDA创建特性，但是，我没有找到如何用X作为csr_matrix初始化gensim的语料库变量。换句话说，我不想像gensim文档中所示的那样下载一个语料库，也不想将X转换成一个密集的矩阵，因为它会消耗大量的内存，计算机可能会挂起。简而言之，我的问题如下，如果我有代表整个语料库的csr_matrix (稀疏)，那么如何初始化gensim语料库呢？如何使用LDA提取特征？

浏览 1提问于2013-03-27得票数 7

回答已采纳

2回答

从gensim的LDA获得统一的主题分布吗？

python、text-mining、lda、gensim

我试图学习每个文档在一个语料库中的主题分布。我有术语文档矩阵( dim: num_terms *no_docs的稀疏矩阵)作为LDA模型的输入(带有num_topics=100)，当我试图推断每个文档的向量时，我得到了它们的均匀分布。这是非常不可能的，因为文档有不同的主题。相关的代码片段是： #input : scipy sparse term-doc matrix (no_terms * no_docs) corpus = gensim.matutils.Sparse2Corpus(term_doc) lda = gensim.models.LdaModel(corpus, 100)

浏览 0提问于2016-09-08得票数 2

回答已采纳

1回答

gensim LDA训练

python、nlp、gensim、lda

我正在为一个项目使用gensim LDA模型。我似乎找不到合适的题目。我的问题是，可以肯定的是，每次我训练模特的时候都会重新开始，对吧？例如，我尝试了47个主题，结果很糟糕；然后我回到单元格，更改47到80个主题，然后再运行它。它完全开始了一次新的培训，抹去了它从47个主题中学到的东西，对吗？我与LDA的结果很糟糕，相似度达到了100%或0%，而且我的参数调整也有问题。LSI给了我很好的结果。谢谢!

浏览 1提问于2021-03-11得票数 0

回答已采纳

1回答

(Gensim) ValueError:无效的形状，带有alpha参数

python、lda、gensim

首先，这是获得执行LDA的语料库的主题分布的正确方法吗？ lda = LdaModel(corpus, num_topics=500, update_every=0, passes=2) #get the topics distribution of the corpus result=lda[corpus] 现在，当我将alpha参数添加到LDA并尝试将语料库转换为稀疏矩阵时，出现了问题，如下所示： 1- lda = LdaModel(corpus, num_topics=500, update_every=0, passes=2,alpha=0.5) 2- result=lda

浏览 1提问于2013-05-13得票数 1

1回答

gensim中malletmodel2ldamodel之后的主题词分布问题

gensim、lda、topic-modeling、mallet

在gensim LDA模型上训练LDA模型后，我通过包装器提供的malletmodel2ldamodel函数将模型转换为具有gensim锤子的模型。转换前后的主题词分布有很大不同。在转换后，mallet版本返回非常罕见的主题词分布。 ldamallet = gensim.models.wrappers.LdaMallet(mallet_path, corpus=corpus, num_topics=13, id2word=dictionary) model = gensim.models.wrappers.ldamallet.malletmodel2ldamodel(ldamallet) m

浏览 46提问于2019-02-14得票数 2

1回答

为什么在使用gensim计算LDA的一致性分数时速度如此之慢

nlp、gensim、lda

我是新手，当我使用gensim CoherenceModel为我的LDA模型计算一致性分数时，它需要非常长的时间才能运行。然而，训练部分相对较快，并且在合理的时间内。我想知道这是不是因为我的数据大小(大约250000长文本)，有什么方法可以加速这个过程？谢谢这是我的代码，与教程中的代码完全相同 from gensim.models import CoherenceModel coherence_model_lda = CoherenceModel(model=lda_model_tfidf, texts=LDA_, dictionary=dictionary, coherence='

浏览 342提问于2019-06-22得票数 1

2回答

Python: Gensim内存错误

python、windows、gensim

import logging logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) from gensim import corpora, models, similarities from nltk.corpus import stopwords import codecs documents = [] with codecs.open("Master_File_for_Docs.txt", encoding = 'utf

浏览 1提问于2015-09-13得票数 1

1回答

LDA模型中“好”/“坏”-Cases的规定(在Python中使用gensim )

python、python-2.7、lda、gensim

我正在尝试分析新闻片段，以确定危机时期。为了做到这一点，我已经下载了过去7年的新闻文章，并提供了这些文章。现在，我正在对这个数据集应用LDA (潜在狄利克雷分配)模型，以便识别那些显示出经济危机迹象的国家。我的代码基于Jordan Barber ()的一篇博客文章--这是我目前为止的代码： import os, csv #create list with text blocks in rows, based on csv file list=[] with open('Testfile.csv', 'r') as csvfile: emails =

浏览 0提问于2016-08-09得票数 0

1回答

为每个主题添加单词LDA

python、windows、gensim、lda、topic-modeling

我正在使用Gensim在python中构建一个LDA，我正在努力增加每个主题的打印字数，从默认的10个。我想要20个主题，每个主题30个单词。我们将非常感谢您的任何建议:) # train the LDA model lda_model = gensim.models.LdaMulticore(bow_corpus, num_topics=20, id2word=dictionary, passes=2, workers=2) # check out the topics for idx, topic in lda_model.print_topics(-1): print(&#

浏览 22提问于2019-03-19得票数 0

回答已采纳

1回答

为什么gensim LdaMulticore在不同的机器上产生不同的结果？

python、multithreading、nlp、gensim、lda

为什么gensim Lda多核在不同的机器上产生不同的结果？如何在不同的机器/机器上校准LdaMulticore参数？这就是我为什么要问:我在2台不同的机器上运行gensim (Windows；gensim 3.8.3和Linux集群；gensim 4.1.2)。 ( a)对A机(Windows X11 Yoga - coherence，困惑减少)返回了较好的效果。 ( b)对于机器B (Linux集群40核，一致性增加，但困惑也增加，主题没有很好的距离)，结果不太好。这两台机器的困惑和一致性如下(谢谢您的建议)：我使用配置运行它，如上传到这里的github：主

浏览 9提问于2022-08-12得票数 0

2回答

主题模型gensim给出了相同的主题集

python、nlp、gensim、lda、topic-modeling

为什么我在gensim lda模型中得到相同的主题# words？我用了这些参数。我查过我的语料库里没有重复的文件。 lda_model = gensim.models.ldamodel.LdaModel(corpus=MY_CORPUS, id2word=WORD_AND_ID, num_topics=4, minimum_probab

浏览 8提问于2021-01-20得票数 1

回答已采纳

3回答

主题分布:在python中进行LDA后，我们如何查看哪个文档属于哪个主题？

python、nltk、lda、gensim

我能够从gensim运行LDA代码，并获得前10个主题及其各自的关键字。现在，我想进一步看看LDA算法有多准确，通过查看它们聚集在每个主题中的文档。在gensim LDA中这是可能的吗？基本上，我想做这样的事情，但使用python和gensim。

浏览 1提问于2014-01-08得票数 30

回答已采纳

6回答

用gensim学习矢量器和词汇表

python、scikit-learn、topic-modeling、gensim

我正在尝试回收scikit-学习带有gensim主题模型的向量器对象。原因很简单:首先，我已经有了大量的矢量化数据；第二，我更喜欢scikit的界面和灵活性--学习向量器；第三，尽管使用gensim的主题建模非常快，但在我的经验中，计算它的字典(Dictionary())的速度相对较慢。和也曾提出过类似的问题，其桥接方法是gensim的Sparse2Corpus()函数，它将一个稀疏矩阵转化为一个gensim语料库对象。但是，这种转换没有使用sklearn向量器的vocabulary_属性，该属性包含单词和特征ids之间的映射。为了打印每个主题的判别词( gensim主题模型中的id2wo

浏览 14提问于2014-02-04得票数 20

回答已采纳

3回答

在Python中使用scikit learn进行线性判别分析

python、python-3.x、machine-learning、scikit-learn、linear-discriminant

我正在学习机器学习，最近我研究了使用线性判别分析对线性可分数据进行分类。为此，我使用了scikit-learn包和函数 .discriminant_analysis.LinearDiscriminantAnalysis 关于MNIST手写数字数据库中的数据。我已经使用数据库来拟合模型并对测试数据进行预测，方法如下： LDA(n_components=2) LDA_fit(data,labels) LDA_predict(testdata) 它工作得很好。我得到了95%的不错的准确率。但是，预测函数使用来自所有784个维度的数据(对应于28x28像素的图像)。我不明白为什么所有的维度都用于预测？

浏览 3提问于2018-12-21得票数 1

4回答

每次我在同一个语料库上训练时，LDA模型都会产生不同的主题。

python、nlp、lda、topic-modeling、gensim

我使用python gensim从231个句子的小语料库中训练一个潜在的Dirichlet分配(LDA)模型。然而，每次我重复这个过程，都会产生不同的主题。为什么每次都使用相同的LDA参数和语料库生成不同的主题？和如何稳定主题生成？我正在使用这个语料库()和这个停止词列表()，下面是我的代码： from gensim import corpora, models, similarities from gensim.models import hdpmodel, ldamodel from itertools import izip from collections import defa

浏览 4提问于2013-02-25得票数 18

回答已采纳

1回答

在生成生词时，如何选择语法短语的阈值？

nlp、text-mining、lda、gensim

我正在用from gensim.models.phrases生成大图，我将在下游使用TF和/或gensim.LDA from gensim.models.phrases import Phrases, Phraser # 7k documents, ~500-1k tokens each. Already ran cleanup, stop_words, lemmatization, etc docs = get_docs() phrases = Phrases(docs) bigram = Phraser(phrases) docs = [bigram[d] for d in docs]

浏览 0提问于2020-08-14得票数 5

1回答

LDA可视化[ import_optional_dependency()获得意外的关键字参数'errors‘]

python、gensim、lda、pyldavis

我在可视化LDA模型时收到错误消息 import pyLDAvis import pyLDAvis.gensim_models pyLDAvis.enable_notebook() vis = pyLDAvis.gensim_models.prepare(ldamodel,corpus, dictionary) vis 它给出了错误消息“import_optional_dependency()得到了一个意外的关键字参数'errors'”

浏览 197提问于2021-08-10得票数 2

1回答

IndexError在更新gensim的LdaModel时

python-3.x、gensim、lda、topic-modeling、index-error

在更新gensim的时，我面临以下错误： IndexError:对于尺寸为6614的轴1，索引6614超出了界限。我检查了为什么其他人在上有这个问题，但我从一开始到最后都使用同一本字典，这是他们的错误。因为我有一个很大的数据集，所以我正在逐块地加载它(使用pickle.load)。我正在以这种方式构建字典，迭代地，多亏了这段代码： fr_documents_lda = open("documents_lda_40_rails_30_ruby_full.dat", 'rb') dictionary = Dictionary() chunk_no

浏览 2提问于2018-05-07得票数 3

回答已采纳

1回答

HTTP中的LDA gensim模型-内存问题

http、flask、out-of-memory、gensim、lda

我是机器学习的新手，这是我第一次使用python的gensim从文本中提取主题。我成功地训练了一个模型(针对100个主题)，然后我想在我用python烧瓶创建的HTTP中使用该模型。端点给出给定文本的返回项。当我初始化API时，就加载了Btw模型。在生产中尝试了这一点之后，内存(在一个小型VM ~ 1GB Ram上)耗尽了，最后我得到了一个错误： tags = tags + lda.topic_words(topic_index, num_of_keywords_for_topic, model, words) File "/var/app/tagbee/lda.py"

浏览 0提问于2020-01-02得票数 0

2回答

什么是科学学习中最有效的超参数优化方法？

scikit-learn、hyperparameter、hyperparameter-tuning、grid-search、randomized-algorithms

这里是关于科学学习中的超参数优化过程的概述。穷举网格搜索将为模型找到最优的超参数集。缺点是穷尽的网格搜索速度慢。随机搜索比网格搜索速度快，但方差过大。在其他包中也有其他策略，包括scikit优化、自动滑雪和scikit超带。什么是最有效的方法(快速找到合理的性能参数)的超参数优化在科学学习？理想情况下，我希望使用带有基准的代码示例。

浏览 0提问于2019-03-13得票数 11

1回答

如何使用主题模型(LDA)输出来匹配和检索新的、相同主题的文档

text、lda、topic-modeling

我在语料库上使用一个LDA模型来学习它所涵盖的主题。我正在使用gensim包(例如，gensim.models.ldamodel.LdaModel)；如果需要，可以很容易地使用其他版本的LDA。我的问题是，使用参数化模型和/或主题词或主题is查找和检索包含主题的新文档的最有效方法是什么？具体来说，我想刮一个媒体API，以找到与我的原始语料库中的主题相关的新文章(样本外文档)。因为我在做这个“盲搜索”，所以在每个新文档上运行LDA可能太麻烦了；大多数新文档将不包含这个主题。当然，可以简单地检索包含LDA学习主题的大部分常用词的新文档；然后将LDA应用于返回的文档以获得进一步的信心。我想知

浏览 5提问于2016-10-25得票数 0

回答已采纳

1回答

尝试用gensim模仿Scikit ngram

python、scikit-learn、gensim

我正在尝试用gensim模拟CountVectorizer()中的n_gram参数。我的目标是能够将LDA与Scikit或Gensim一起使用，并找到非常相似的二元语法。例如，我们可以找到以下带有scikit的二元模型："abc computer"，"binary unordered“和gensim "A survey"，"Graph minors”…… 我在下面附上了我的代码，以比较Gensim和Scikit在二元/单元语法方面的差异。谢谢你的帮忙 documents = [["Human" ,"machine

浏览 1提问于2017-05-11得票数 0

2回答

使用Gensim获得LDA-模型的最佳主题数量的最佳方法是什么？

python、text-mining、lda、gensim、topic-modeling

我正试图在Gensim中获得LDA模型的最佳主题数.我发现的一种方法是计算每个模型的日志可能性，并相互比较，例如在上。因此，我研究了使用Gensim计算LDA模型的日志可能性，并看到了以下帖子：它基本上说明了update_alpha()方法实现了黄、乔纳森中的方法。Dirichlet分布参数的极大似然估计不过，我不知道如何在不更改代码的情况下使用libary获得这个参数。如何从带有Gensim的LDA模型中获得日志可能性？是否有更好的方式获得最佳数量的主题与Gensim？

浏览 5提问于2015-08-31得票数 11

2回答

如何在Gensim中打印文档明智的主题？

python、nltk、gensim、lda、topic-modeling

我使用LDA和gensim进行主题建模。我的数据有23个文档，我希望每个文档都有单独的主题/单词，但是gensim给出了整个文档集的主题。如何为个人文档获取？ dictionary = corpora.Dictionary(doc_clean) # Converting list of documents (corpus) into Document Term Matrix using #dictionary prepared above. corpus = [dictionary.doc2bow(doc) for doc in doc_clean] # Creating the o

浏览 0提问于2019-08-12得票数 1

回答已采纳

1回答

在使用LDA完成主题建模之后，如何将主题映射到文档？

nlp、gensim、lda

有没有办法将生成的主题从LDA映射到文档列表，并确定它属于哪个主题？我感兴趣的是使用无监督学习对文档进行聚类，并将其划分到适当的聚类中。例如，在运行具有最佳超参数的LDA模型后，我有10个主题。因此，它应该返回一些已经用预先训练的LDA模型定义的主题，以及用户输入的新句子或文档。我在等你们好的解决方案。:) Ps。我正在使用Gensim进行NLP。

浏览 22提问于2019-11-23得票数 0

回答已采纳

2回答

基于Mallet困惑的Gensim主题建模

python、gensim、topic-modeling、mallet、perplexity

我是主题模特儿哈佛图书馆的书名和主题。我使用Gensim Mallet包装与Mallet的LDA建模。当我试图得到一致性和困惑值来看模型有多好时，困惑无法计算出下面的例外。如果我使用Gensim的内置LDA模型而不是Mallet，我就不会得到相同的错误。我的语料库中包含的7M+文档长达50字，平均20字，所以文档很短。下面是我代码的相关部分： # TOPIC MODELING from gensim.models import CoherenceModel num_topics = 50 # Build Gensim's LDA model lda_model = gensim

浏览 5提问于2019-03-21得票数 1

2回答

在使用scikit学习优化超参数时，是否有可能修复验证集？

scikit-learn、hyperparameter-tuning

我有一个问题，在科学学习中的超参数优化。我最熟悉tensorflow，您首先将数据分成三组:训练、验证和测试。利用训练集和验证集对超参数进行优化，最后用测试集对模型进行评估。所有数据都是使用来自测试集的统计信息进行规范化的，据我所理解，这背后的原理是，模型没有“看到”来自验证和测试的数据，因此不能以任何方式使用它们的统计数据。不管怎么说，我的问题与科学工具箱中的优化器有关。据我所知，他们都使用交叉验证。所以我有两个问题：是否有一种方法可以显式地在scikit优化器中设置验证集？如果没有，我如何处理正常化？我应该只给优化器提供训练集和验证集，这不是只是混合了这些集合，并在某种程度上混淆了最

浏览 0提问于2021-04-16得票数 0

1回答

用scikit为LDA查找每个主题的文档数量-学习

scikit-learn、lda

我将跟随scikit学习LDA示例，并试图了解我如何(如果可能的话)能够(如果可能的话)显示出有多少文档被标记为每个主题都有。我一直在查看LDA模型的文档，但不知道从哪里可以得到这个号码。以前有没有人能用科学学习来做到这一点？

浏览 2提问于2016-02-07得票数 6

回答已采纳

1回答

如何使用gensim的LDA从查询中进行文本检索？

gensim、information-retrieval、lda、topic-modeling

我试图了解LDA如何用于文本检索，我目前正在使用gensim的LdaModel模型来实现LDA，这里是：。我成功地识别了k个主题和它们最常用的单词，我知道LDA是关于主题的概率分布，以及单词如何在文档中的主题中分布，所以这很有意义。也就是说，我不明白如何使用LdaModel检索与搜索查询的字符串输入相关的文档，例如“节育的负面影响”。我尝试在搜索查询中推断主题分布，并使用gensim的similarities.MatrixSimilarity计算余弦相似度，找出搜索查询上的主题分布与语料库中的主题分布之间的相似之处： lda = LdaModel(corpus, num_topics=10

浏览 0提问于2018-04-26得票数 3

回答已采纳

2回答

如何在gensim上修复mallet

gensim、lda、kaggle、mallet

我在笔记本上写了LDA模型。我试图用mallet包装我的gensim LDA模型，得到以下错误： CalledProcessError:命令'../input/mymallet/mallet-2.0.8/bin/mallet import-file --preserve-case --keep-sequence --remove-stopwords -token-regex "\S+“--input /tmp/fbcc4b_corpus.txt --output /tmp/fbcc4b_corpus.mallet‘返回非零退出状态126。由于第二行引发的错误： mallet

浏览 122提问于2020-06-28得票数 1

5回答

scikit学习的不平衡

python、scikit-learn

我在Python程序中使用scikit-learn来执行一些机器学习操作。问题是我的数据集存在严重的不平衡问题。有没有人熟悉scikit-learn或python中不平衡的解决方案？在Java中有SMOTE机制。在python中有类似的东西吗？

浏览 1提问于2013-02-25得票数 40

1回答

Gensim LDA模型主题差异导致nan

python、python-3.x、numpy、gensim、lda

我在主题建模和Gensim方面是个新手。所以，我仍然在努力理解许多概念。我正在尝试在我的语料库上运行gensim的LDA模型，该语料库包含大约25,446,114条tweet。我使用gensim创建了一个流式语料库和id2word字典。我使用num_topics = 100，块大小= 85000 (一次加载85000条tweet) 我正在使用Gensim : 3.5.0 Numpy: 1.15.3 这是语料库和id2word字典的链接：我不知道我做错了什么，也不知道如何解决这个问题。主题diff首先点击inf，然后点击nan，然后我开始获得相同的主题。请帮帮我!！代码如下： import

浏览 10提问于2018-10-27得票数 0

2回答

为什么pyLDAvis图形没有在条形图上显示主题关键字？

python、lda、pyldavis

我正在尝试使用PyLDAvis来可视化LDA模型的结果。我已经设法使图形显示在jupyter笔记本上，然而，描述主题的关键字的标签(在条形图上)是缺失的。下面是使用虚拟数据的代码示例。 import numpy as np import pandas as pd import gensim import gensim.corpora as corpora import matplotlib.pyplot as plt import pyLDAvis import pyLDAvis.gensim texts = [['today', 'cold', '

浏览 6提问于2021-02-09得票数 0

回答已采纳

1回答

如何在Gensim的LdaModel中记录纪元

python、python-3.x、gensim

我试图在我的LdaModel中显示学习进度，但我在web上找到的每个样本都抛出了异常： l = gensim.models.callbacks.CoherenceMetric(corpus=common_corpus, logger='shell') lda = gensim.models.ldamodel.LdaModel(doc_term_matrix, num_topics=genres_count, id2word = common_corpus, passes=150, callbacks=[l]) 抛出： File "<ipython-inpu

浏览 19提问于2019-04-16得票数 3

1回答

在运行Gensim建议的用于选择迭代和传递的LDA时，无法看到“文档聚合的数量”信息的调试日志

nlp、gensim、lda

在正式的中，提到了如何设置迭代和传递的次数：我建议使用以下方法来选择迭代和传递。首先，启用日志记录(如许多Gensim教程所述)，并在eval_every中设置LdaModel =1。在训练模型时，请在日志中查找如下所示的一行： 2016-06-21 15:40:06,753 - gensim.models.ldamodel - DEBUG - 68/1566 documents converged within 400 iterations 不过，在我的LDA日志中，我从来没有见过这样的情况。。我写过。我正在进行这样的调试： logging.basicConfig(format=

浏览 5提问于2022-04-22得票数 1

回答已采纳

1回答

为什么Python模型在使用多核时比较慢(post显示比较)？

python、performance、gensim、multicore、lda

我使用的是i5 8600 (6个内核，没有多线程)。我在比较Gensim内部的一些主题建模和LDA，我不知道为什么我有这些变量显示在下面。我需要了解它，以便我可以选择和应用大数据。有人知道这里发生了什么吗？如果我使用gensim.models.ldamulticore.LdaMulticore:，1) coherence = [] for k in range(5,10): print('Round: '+str(k)) Lda = gensim.models.ldamulticore.LdaMulticore ldamodel = Lda(corp

浏览 2提问于2021-06-20得票数 0

1回答

Python模型show_topics函数

python、gensim、lda

我正在使用Gensim训练一个LDA模型： dictionary = corpora.Dictionary(section_2_sentence_df['Tokenized_Sentence'].tolist()) dictionary.filter_extremes(no_below=20, no_above=0.7) corpus = [dictionary.doc2bow(text) for text in (section_2_sentence_df['Tokenized_Sentence'].tolist())] num_topics = 15 pa

浏览 5提问于2020-02-26得票数 0

回答已采纳

2回答

无法使用scikit导入sklearn.qda和sklearn.lda -学习0.19.1

python、scikit-learn

无法使用scikit导入sklearn.qda和sklearn.lda -学习0.19.1 我得到: ImportError:没有名为“sklearn.qda”的模块ImportError:没有名为“sklearn.lda”的模块更新： import sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis 给予： ImportError: No module named 'sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis'; 'skl

浏览 2提问于2017-11-22得票数 3

回答已采纳

1回答

用Gensim LDA模型对文本进行分类

python、python-3.x、gensim、lda

作为参考，我已经研究了以下问题：我希望我的LDA模型训练从Gensim分类一个句子下的主题之一，模型创建。长队的东西 lda = models.LdaModel(corpus=corpus, id2word=id2word, num_topics=7, passes=20) lda.print_topics() for line in document: # where each line in the document is its own sentence for simplicity print('Sentence: ', line) topic =

浏览 3提问于2020-04-13得票数 2

2回答

学习LDA函数图中的缺陷显示出非零相关性。

python、r、scikit-learn、lda

我使用scikit-learn的LDA函数做了一些LDA，在我得到的图表中我注意到LDs之间有一个非零的相关性。 from sklearn.lda import LDA sklearn_lda = LDA(n_components=2) transf_lda = sklearn_lda.fit_transform(X, y) 这是非常令人关注的，所以我返回并使用Iris数据集作为参考。我还在scikit文档中找到了同样的非零相关LDA图，我可以复制它。总之，给你一个概述它是什么样子图中左上角:很明显这里有问题。左下角的图:这是在原始数据上，不是一个正确的方法，而是一次复制scik

浏览 9提问于2014-07-28得票数 7

回答已采纳

1回答