获取每个主题的最可能单词

文章/答案/技术大牛

发布

1回答

使用LDA(主题模型)：每个主题对单词的分布是相似和“扁平”的。

python、lda、topic-modeling、gensim

潜在Dirichlet分配(LDA)是一个寻找潜在变量(主题)隐藏在一堆文档中的主题模型。我使用python包，有两个问题：我为每个主题打印了最频繁的单词(我尝试了10，20，50个主题)，发现单词上的分布非常“平坦”：意思是即使最频繁的单词也只有1%的概率.大多数主题都是相似的:对于每个</em

浏览 2提问于2015-02-23得票数 7

1回答

python、scikit-learn、lda、topic-modeling

我用sklearn做了一个LDA模型，但是，听起来很奇怪，我在网上找不到任何关于如何获得热门词汇的东西。这是我的代码： from sklearn.feature_extraction.text import CountVectorizer doc_term_matrixwords in topic_words.items(): print(' %s' % ', '.

浏览 16提问于2021-01-03得票数 1

回答已采纳

1回答

NMF作为Python Scikit中的聚类方法

python、scikit-learn、nmf

在我的工作中，我使用Scikit NMF实现，但据我所知，在Scikit中，NMF更像是一种分类方法，而不是一种聚类方法。我已经开发了一个简单的脚本，在一些示例弧线上工作。我正在对它们进行预处理，并将其作为NMF的输入。根据我的教授分享的论文，我收到了一些集群，但我不知道如何可视化/呈现它们。你们中有谁知道如何让这本书读起来更人性化？

浏览 47提问于2019-01-31得票数 4

回答已采纳

1回答

使用TextmineR包传递项共现矩阵获取每个主题的文档加载

r、text-mining、word-embedding

我使用包查找与给定文档列表最相似的文档。calc_coherence = TRUE, cpus = 2) 现在，模型参数theta在这里生成每个主题的单词加载，而不是每个主题加载文档。我想从每个主题的文档加载中检索文档编号。请帮助建议从该模型中获取文档每个主

浏览 0提问于2019-01-20得票数 0

1回答

从LDA主题建模中创建更多相关的结果？

nltk、gensim、lda、topic-modeling、word-cloud

我正在为我的学位做一个项目，我有一个来自另一所大学的实际客户。他们想让我对他给我的文件摘要的sql文件进行主题建模。我没有任何主题建模的经验，但我一直在使用Gensim和Nlkt在木星笔记本。他现在想要的是让我生成10个或更多的主题，记录LDA结果中最常见的前10个单词，然后如果它们在每个主题中非常频繁，那么将它们从产生的<em

浏览 2提问于2022-02-27得票数 0

2回答

结构化文档中的主题模型？(或者EM或MCMC可以工作吗？)

statistics、probability、bayesian、montecarlo、topic-modeling

我有一组文档，每个文档由N个单词组成。每个文档的第i个单词选自共同的单词集合Wi={wi1，wi2，wi3，wi4}。例如，每个文档中的第一个单词可能选自：{'alpha'，'one'，' first '，‘For’}。第二个单词可能选自：{'beta'，'two'

浏览 4提问于2014-01-24得票数 2

1回答

主题建模错误值太多，无法解包

python、dataframe、dataset、data-science、topic-modeling

我正在尝试使用tsne和pyldavis作为可视化工具来执行lda主题建模。然而，在获取主要主题的同时执行lda之后，会给出错误，因为有太多的值需要解包。代码和错误如下所示。任何帮助都是非常感谢的。 LdaMulticore主题建模代码： import sys

浏览 18提问于2020-09-11得票数 0

回答已采纳

1回答

在实现了文本文件的主题建模之后，我得到了描述所有主题的类似单词，结果是不准确的。

python-2.7、lda、topic-modeling

corpus, num_topics=10, id2word = dictionary)问题是我的结果有相似的词语来描述所有的话题如果有人能帮助我取得更好的结果，那就太好了。以下是我的成果： (0，u‘0.019*威尔+0.010*经验+0.009*帐户+0.009*财务+0.008*会计+0.008*财务+0.008*团队+0.007*报告’)，(4，u‘0.016*威尔

浏览 3提问于2016-10-21得票数 3

1回答

R中的无监督情感分析

r、unsupervised-learning、sentiment-analysis

你如何评价无监督的情感分析？我正在阅读关于评估情感分析的文章，并了解到许多正在使用的分类模型，这些数据都有目标/标签变量。如何评估只包含没有目标/标签变量的文本的调查？现在，我只是给反应一个情感评分(积极/消极/中性)，但我有困难接近验证与1000+的反应。有什么想法/建议吗？

浏览 0提问于2020-07-15得票数 0

2回答

如何在每个主题LDA中获得唯一的单词？

python、gensim、word、lda

我正在尝试为每个主题获取唯一的单词。我使用gensim，这一行帮助我生成我的模型但我已经在两个不同的主题中重复了单词，我希望每个主题有不同的单词

浏览 0提问于2019-09-03得票数 2

1回答

如何在邮递员中动态添加/发送请求

postman

基于测试数据，是否有一种在邮递员中添加/发送请求的方法？正如屏幕截图中提到的，集合中的“获取单词列表详细信息”调用会为我获取<e

浏览 2提问于2019-09-27得票数 0

1回答

在gensim LDA中，有没有一种方法可以构建一个文档明智的方法来衡量一个主题是否适合它

gensim、lda

例如，如果主题A具有以下分布:单词A: 0.6，单词B: 0.3，单词C: 0.1。基于文档中包含单词C的事实，该文档已被归类为主题A。它没有其他单词(既不是来自主题A，也不是来自任何其他主题)。有没有什么指标告诉你，即使它被分配了主题A，它也是一个弱分配

浏览 56提问于2021-03-22得票数 0

1回答

如何在pyLDAvis中获取每个主题的单词列表

nlp、lda

我一直在查看文档，但似乎无法找到一种方法来获取模型中每个主题的单词集。我有20个主题，我想得到前20个左右的话，为每个主题。有人有办法获取这些数据吗？

浏览 0提问于2018-11-08得票数 1

回答已采纳

3回答

主题建模中的自动主题标注

machine-learning、nlp、topic-model、python-3.x

我只是想知道是否有一种方法可以自动获得主题建模中主题的标签。如果有任何python实现，这将是非常有帮助的。

浏览 0提问于2020-06-28得票数 3

回答已采纳

3回答

NLP:计算一个文档属于一个主题的概率(用一袋单词)？

machine-learning、nlp

给定一个主题，如何计算文档“属于”该主题(即体育)的概率。这就是我要做的事：75% of sports documents havehave the word "stadium" 40% have the word "contract"

浏览 8提问于2013-07-28得票数 0

回答已采纳

1回答

Mahout文本挖掘-给定奇异值的最重要的单词

mapreduce、mahout

问题：是否有一种简单的方法可以查看与每个奇异值相关的最重要的单词？背景：I已经将Mahout的奇异值分解工具应用于一组新闻文章。这些文章来自两个主题: 1)体育；2)商业。我希望看到与每个奇异值相关的最重要的词。例如，对于一个单一的值，我可能期望最突出的词是体育术语:得分，球队，球员，教练。对于另一个单一的价值，我可能

浏览 2提问于2013-08-25得票数 0

1回答

获取文本字段中使用最多的前十名单词

elasticsearch、kibana

我有一个包含数千个文档的索引，每个文档都有一个全文字段。如果可能的话，我也想要一种在Kibana上可视化的方法。

浏览 0提问于2018-04-12得票数 3

回答已采纳

1回答

如何更改LdaMulticore中的默认字数？

python、gensim、lda、topic-modeling

LDA默认在一个主题中显示10个单词。我想将这些数字增加15。我尝试了"topn“和"num_words”关键字，但这两个关键字都给我一个错误。如何更改此默认行为？

浏览 18提问于2019-04-24得票数 2

1回答

关键词建议算法

algorithm、machine-learning、nlp、keyword

我一直在做一个项目，要求我根据产品的描述给出关键词/关键词建议。我想要的是:基于描述的机器生成的关键字/关键字。我所做的研究：(基于NLP的方法)这个问题可以分为两种不同的方法。不使用过去的数据:只是总结当前的描述这将是一种不使用数据库中描

浏览 3提问于2016-07-20得票数 0

1回答

使用iBATIS实现一对多插入

spring、insert、ibatis

我得到了带有属性Topics的类型Word，它是一个列表对象。我在数据库中有两个表:单词和主题。我想在词表中写一个单词，并将每个主题与其相应的idWord存储在主题中。对于单词的insert语句，我使用generatedKey和keyProperty来获取mySQL分配给单词的idWord。但我不知道该怎么做，我读过iBATIS文档，但这对于INSERT语句来说太

浏览 0提问于2011-09-21得票数 0

点击加载更多

使用LDA(主题模型)：每个主题对单词的分布是相似和“扁平”的。