腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(6657)
视频
沙龙
2
回答
如何在新闻文章中使用
gensim
for
lda
?
machine-learning
、
lda
、
gensim
我正在尝试从一个庞大
的
新闻文章语料库
中
检索主题列表,我计划使用
gensim
使用
LDA
来提取每个
文档
的
主题分布。我想知道
lda
的
gensim
实现所需
的
处理文章
的
格式,以及如何将原始文章转换为该格式。我在维基百科上看到了关于使用
lda
的
链接,但我发现语料库处于已处理状态,其格式在任何地方都没有提到
浏览 5
提问于2012-04-02
得票数 3
回答已采纳
1
回答
在新语料库上进行LatentDirichletAllocation主题推理
python
、
scikit-learn
、
lda
、
topic-modeling
经过多次训练和调整
模型
的
迭代(即添加停用词和同义词,改变主题
的
数量),我对提炼出
的
主题相当满意和熟悉。作为下一步,我想将训练好
的
模型
应用于
新
的
语料库。是否可以将拟合
的
模型
应用于
一组
新
的
文档
,以确定主题分布。我知道这在
gensim
库
中
是可能
的
,在
gensim
库
浏览 14
提问于2018-08-02
得票数 3
回答已采纳
2
回答
有
必
要将
TF-IDF
应用于
gensim
LDA
模型
中
的
新
文档
吗
?
gensim
我在上关注“英语维基百科”
的
基因教程doc_
lda
=
lda
[doc_bow]
LDA
是否只需要词袋向量?
浏览 89
提问于2017-06-27
得票数 10
回答已采纳
1
回答
使用一些外部
tf-idf
矩阵和术语列表
中
的
gensim
训练
LDA
模型
python-3.x
、
tf-idf
、
lda
、
topic-modeling
、
gensim
我已经
有
了一个
tf-idf
矩阵,其中行代表术语,列代表
文档
。现在,我想用给定
的
术语-
文档
矩阵训练一个
LDA
模型
。第一步似乎是使用
gensim
.matutils.Dense2Corpus将矩阵转换为语料库格式。但是如何构造id2word参数呢?我
有
术语列表(#terms==#rows),但是我不知道字典
的
格式,所以我不能用像
gensim
.corpora.Dictionary.load_from_tex
浏览 2
提问于2014-11-28
得票数 2
2
回答
基于潜在狄利克雷分配
的
文档
聚类
nlp
、
lda
在使用
LDA
算法识别所有
文档
的
主题/聚类后,当新
文档
到达数据库时,我们是否需要重新运行整个过程,或者是否
有
其他方法可以通过
模型
直接将新
文档
映射到预定义
的
聚类/主题。
浏览 3
提问于2015-10-26
得票数 1
3
回答
gensim
.interfaces.TransformedCorpus -如何使用?
gensim
、
lda
在潜在
的
Dirichlet分配领域,我是相对较
新
的
。我能够按照维基百科教程生成一个
LDA
模型
,并且能够用我自己
的
文档
生成一个
LDA
模型
。我现在
的
步骤是尝试理解如何使用以前生成
的
模型
来分类未见
的
文档
。我把我
的
"
lda
_wiki_model“保存在 id2word =
gensim
.cor
浏览 5
提问于2017-07-26
得票数 9
回答已采纳
1
回答
如何使用主题
模型
(
LDA
)输出来匹配和检索
新
的
、相同主题
的
文档
text
、
lda
、
topic-modeling
我在语料库上使用一个
LDA
模型
来学习它所涵盖
的
主题。我正在使用
gensim
包(例如,
gensim
.models.ldamodel.LdaModel);如果需要,可以很容易地使用其他版本
的
LDA
。我
的
问题是,使用参数化
模型
和/或主题词或主题is查找和检索包含主题
的
新
文档
的
最有效方法是什么? 具体来说,我想刮一个媒体API,以找到与我
的
原始语料库
中<
浏览 5
提问于2016-10-25
得票数 0
回答已采纳
4
回答
如何在具有
gensim
的
语料库
中
过滤出
tf-idf
低
的
单词?
python
、
nlp
、
gensim
我正在使用
gensim
来完成一些NLP任务。我已经从dictionary.doc2bow创建了一个语料库,其中dictionary是corpora.Dictionary
的
对象。现在,我想在运行
LDA
模型
之前过滤掉
tf-idf
值较低
的
术语。我查看了语料库类
的
,但找不到访问术语
的
方法。
有
什么想法
吗
?谢谢。
浏览 0
提问于2014-07-11
得票数 8
3
回答
从
gensim
LDA
模型
中提取主题分布
gensim
、
lda
、
topic-modeling
我使用python
中
的
gensim
包为一些文本文件创建了一个
LDA
模型
。我想获得学习
模型
的
主题分布。在
gensim
ldamodel类
中
是否存在从
模型
中
获取主题分布
的
方法或解决方案?例如,我使用一致性
模型
来寻找一个
模型
,该
模型
的
值与1到5
的
主题数有关。得到最佳
模型
后,我使用g
浏览 1
提问于2018-08-29
得票数 2
回答已采纳
1
回答
Gensim
获取
文档
的
主题(见
文档
)
python
、
lda
、
gensim
我知道,在对
gensim
的
lda
模型
进行培训之后,我们可以通过以下方法获得一个看不见
的
文档
的
主题:doc_
lda
=
lda
[doc_bow] 但是,那些已经用于培训
的
文档
呢?我
的
意思是,是否
有
一种方法可以获得语料库中用于培训
的
文档
<
浏览 3
提问于2014-04-12
得票数 8
回答已采纳
1
回答
如何在
gensim
中使用models.hdpmodel - Hierarchical Dirichlet过程获取
文档
主题
document
、
gensim
、
word
、
lda
、
hdp
我只是为了主题建模而学习
gensim
。当我使用
lda
_model =
gensim
.models.ldamodel.LdaModel(...)结果
lda
_model
有
两个函数: get_topics()和get_document_topics()。我可以通过它们找到主题-word和
文档
-主题。但是,我想尝试一下: hdp_
lda
_model =
gensim
.models.hdpmodel.HdpModel(...)我只能在它
的
结果
浏览 108
提问于2019-12-20
得票数 1
回答已采纳
1
回答
如何使用
Gensim
应用句子级别的
LDA
模型
?
python
、
nlp
、
gensim
、
lda
是否
有
可能像Bao和Datta(2014)中提出
的
那样,使用
Gensim
应用句子级别的
LDA
模型
?论文is here。 它
的
独特之处在于它提出了“一个句子一个主题”
的
假设(p.1376)。“最直接
的
方法是将每个句子视为
文档
,并将
LDA
模型
应用于
句子集合,而不是
文档
。”(第1376页)。但是,我认为更合理
的
假设是一句话涉及一个主题。 谢谢!
浏览 21
提问于2019-04-15
得票数 0
回答已采纳
2
回答
将术语
文档
矩阵传递给
Gensim
LDA
模型
python
、
numpy
、
machine-learning
、
nlp
、
gensim
我
的
术语
文档
矩阵是一种numpy矩阵格式,我
有
一本字典来表示术语
文档
矩阵。我能把这个传给
gensim
.mo
浏览 3
提问于2014-12-01
得票数 3
回答已采纳
1
回答
理解
LDA
/主题建模--过多
的
主题重叠
python
、
nlp
、
gensim
、
lda
、
topic-modeling
我对主题建模/潜在Dirichlet分配很陌生,很难理解如何将这个概念
应用于
我
的
数据集(或者它是否是正确
的
方法)。 我
有
少量
的
文学文本(小说),并想提取一些一般性的话题使用
LDA
。我正在使用Python
中
的
gensim
模块以及一些nltk特性。在一次测试
中
,我把原来
的
课文(只有6篇)分成30块,每篇
有
1000个单词。然后,我将块转换成
文档
项矩阵,并运行算
浏览 0
提问于2017-09-20
得票数 10
回答已采纳
1
回答
为什么TFIDF在
Gensim
中被视为
模型
python
、
gensim
然而,在
gensim
中
,tfidf似乎被视为自身
的
一个
模型
,就像
LDA
、LSI和其他
模型
一样。
文档
链接:
浏览 9
提问于2018-07-25
得票数 0
回答已采纳
1
回答
基于
Gensim
的
多个语料库
的
潜在Dirichlet分配
python
、
lda
、
topic-modeling
、
gensim
我
有
两个与
gensim
的
使用有关
的
问题。 1)如何使用一个语料库创建一个
模型
,保存它,或者通过在另一个语料库上对
模型
进行训练来扩展它?
有
可能
吗
?( 2)
LDA
是否可以用来分类一个看不见
的
文档
,或者需要通过将它包含在语料库
中
来重新创建
模型
?有没有一种在线
的
方式来做这件事,并看到变化
的
动态?我对
LDA
有<
浏览 1
提问于2015-05-31
得票数 0
回答已采纳
1
回答
标签
的
LDA
(
gensim
)
python
、
lda
、
gensim
我使用
Gensim
包进行主题建模。这个想法是为了理解flickr标签
中
的
主题是什么。到目前为止,我使用
的
是这个代码(
文档
是标签): texts = [[word for word in document.split(";") if word not in stoplist] for
LDA
,然后为每个主题打印最可能
的
10个单词。这是正确
的
吗
?或者,我是否必须在
文档
的
某个部分
浏览 3
提问于2016-03-04
得票数 2
2
回答
从
gensim
的
LDA
获得统一
的
主题分布
吗
?
python
、
text-mining
、
lda
、
gensim
我试图学习每个
文档
在一个语料库
中
的
主题分布。我
有
术语
文档
矩阵( dim: num_terms *no_docs
的
稀疏矩阵)作为
LDA
模型
的
输入(带有num_topics=100),当我试图推断每个
文档
的
向量时,我得到了它们
的
均匀分布。这是非常不可能
的
,因为
文档
有
不同
的
主题。(term_doc)
lda
浏览 0
提问于2016-09-08
得票数 2
回答已采纳
1
回答
计算一致性评分
中
的
错误- AttributeError:'dict‘对象没有属性'id2token’
python
、
scipy
、
nlp
、
gensim
、
topic-modeling
我是NLP
的
初学者,这是我第一次做主题建模。我能够生成我
的
模型
,但是我不能产生一致性度量。id2word = dict((v, k) for k, v in tfidfv.vocabulary_.items()) 这是我
的</e
浏览 6
提问于2019-11-25
得票数 0
回答已采纳
1
回答
试图利用一个库进行一些主题建模,但并不顺利
python
、
gensim
、
lda
、
corpus
我
有
一个.csv术语
文档
矩阵,我想在python中使用
gensim
执行一些潜在
的
dirichlet分配。但是,我对Python或
LDA
并不特别熟悉。你
的
术语文件CSV矩阵
有
多大?如果它足够小=适合RAM,您可以:2)用
gensim</em
浏览 2
提问于2020-03-11
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券