腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
关于
Gensim
从
词典
创建
语料库
的
问题
python
、
gensim
我是
Gensim
的
新手,我正在学习
Gensim
,并遵循了下面的示例:https://www.machinelearningplus.com/nlp/
gensim
-tutorial/ 我不确定
从
字典中
创建
语料库
的
最后一行在
创建
字典时,我们已经使用simple_preprocess逐行处理“文档”。我在想,在使用字典
创建
语料库
时,我们需要再次使用simp
浏览 20
提问于2020-06-21
得票数 0
1
回答
Gensim
:在没有载入RAM
的
情况下,
从
大型
语料库
创建
字典?
nlp
、
bigdata
、
topic-model
、
gensim
主题建模库
Gensim
提供了能力来流一个大型文档,而不是存储在内存中。流在将
语料库
转换为鞠躬
的
阶段是可能
的
,但字典必须是首先
创建
的
,显然这需要加载完整
的
语料库
:是否有一种不同时加载整个
语料库
的
方法来
创建
词典
?这是我
浏览 0
提问于2022-11-26
得票数 0
回答已采纳
1
回答
将LDA应用于使用
gensim
进行训练
的
语料库
python
、
nlp
、
gensim
、
lda
、
topic-modeling
我有大约20,000个文档
的
语料库
,我必须训练这些数据集,以便使用LDA进行主题建模。=logging.INFO)mm =
gensim
.corpora.MmCorpus('questions.mmchunksize=3000, passes=20)每当我运行这个程序时,我都会遇到这样
的
错误: 2013-04-28 09:5
浏览 0
提问于2013-04-28
得票数 2
3
回答
Gensim
:如何
从
保存
的
lda模型加载
语料库
?
gensim
、
lda
、
corpus
当我保存我
的
LdaModel lda_model.save('model')时,它保存了4个文件:lda_model = LdaModel.load('model')
浏览 6
提问于2020-03-24
得票数 1
回答已采纳
1
回答
为什么LDA
gensim
的
实现需要
语料库
和字典?
python
、
nlp
、
gensim
、
lda
、
topic-modeling
我正在检查
gensim
LDA实现,它说它需要一个
语料库
和一个
语料库
字典? 这是什么原因呢?
浏览 36
提问于2020-03-08
得票数 0
1
回答
使用LDA进行主题建模
python
、
deep-learning
、
nlp
通过定义主题来定义
语料库
和字典以构建LDA模型时,如何区分主题关键字 它在给出一个明确
的
主题编号
的
同时工作,但我希望它被迭代。准备
词典
和
语料库
from
gensim
import corpora corpus = [dictionary.doc2bow(doc) for doc in doc_clean] 构建LDA模型 lda_model =
gensim
.models.lda
浏览 6
提问于2019-06-17
得票数 0
回答已采纳
2
回答
Gensim
数据解析
python
、
gensim
好
的
,这是一个
关于
向
Gensim
python库提供训练数据时需要什么数据结构
的
具体
问题
。特别是,必须隐含地理解所提供
的
任何数据中
的
文档构成(否则,例如,它将无法找到tf-idf)。例如,出于培训目的,在该库
的
教程中使用了wikipedia转储。维基百科转储以XML格式提供。是什么让
gensim
理解独立
的
文档?这种理解是建立在xml元素
的
基础上
的
吗?
浏览 12
提问于2017-02-22
得票数 0
回答已采纳
4
回答
pyLDAvis:尝试可视化主题时出现验证错误
python
、
nlp
、
lda
、
topic-modeling
我尝试使用
gensim
为300000条记录生成主题。在尝试可视化主题时,我得到了一个验证错误。('dictionary1.dict')lda =
gensim
.models.LdaModel.load('topic.model') data = pyLDAvis.
gensim
.prepare(lda, c, d) 在py
浏览 173
提问于2017-12-28
得票数 8
3
回答
在mac中导入
gensim
python
、
gensim
在python中导入
gensim
时,我遇到了
问题
。打字时: 追溯(最近一次调用):文件"",第1行,文件"/Library/Python/2.7/site-packages/
gensim
/init.py",第6行,在
gensim
导入解析、matutils、接口、
语料库
、模型、相似性、汇总ImportError:无法导入名称解析 此外,当我查看&
浏览 6
提问于2015-12-01
得票数 0
回答已采纳
1
回答
在Python中使用
Gensim
进行主题建模
python
、
machine-learning
、
nlp
、
lda
、
gensim
我有两节课
的
单词清单。假设n项在A类中,m项在类B中。我希望在python中使用
gensim
包(用于LDA)
的
主题建模,以便为A类和B类训练一个模型,同时我对主题建模和Python都很陌生。我
的
意思是,我应该把每个班级
的
所有包和使用
的
gensim
合并起来,还是应该单独使用每个项目的包?谢谢!
浏览 3
提问于2014-12-05
得票数 1
回答已采纳
1
回答
如何有效地将
Gensim
语料库
转换为numpy数组(或scipy稀疏矩阵)?
python
、
scikit-learn
、
gensim
假设我有一个(可能)很大
的
语料库
,大约有2.5M个
语料库
和500个特征(在使用
gensim
对原始数据运行LSI之后)。我需要
语料库
来使用scikit-learn训练我
的
分类器。但是,我需要首先将
语料库
转换为numpy数组。
语料库
创建
和分类器训练器在两个不同
的
脚本中完成。所以
问题
是,我
的
集合大小预计会增长,在这个阶段我已经没有足够
的
内存(机器上
的
3
浏览 5
提问于2015-12-31
得票数 4
1
回答
如何使用csr_matrix初始化
gensim
语料库
变量?
python
、
scikit-learn
、
document-classification
、
lda
、
gensim
我将X作为一个csr_matrix,它是我使用scikit
的
tfidf向量器获得
的
,y是一个数组。我
的
计划是使用LDA
创建
特性,但是,我没有找到如何用X作为csr_matrix初始化
gensim
的
语料库
变量。换句话说,我不想像
gensim
文档中所示
的
那样下载一个
语料库
,也不想将X转换成一个密集
的
矩阵,因为它会消耗大量
的
内存,计算机可能会挂起。简而言之,我
的
浏览 1
提问于2013-03-27
得票数 7
回答已采纳
1
回答
删除
Gensim
中
的
文档
python
、
python-2.7
、
nlp
、
gensim
我正在使用
Gensim
执行NLP任务,目前我有一个包含空文档
的
语料库
。我不想重新运行我
的
代码,尽管这是一种选择,我只想删除没有任何内容
的
文档。这些文档已经保存为TF-IDF
语料库
,并想知道是否有方法可以删除这些空文档。我可以找出哪些文档是空
的
,但是
语料库
文件是一个迭代器,而不是任何类型
的
数据结构,即列表。谢谢, 卡梅伦
浏览 22
提问于2016-07-28
得票数 0
回答已采纳
1
回答
我得到运行时警告:在double_scalars中遇到无效
的
值,在使用ldaseq时除以在double_scalars中遇到
的
零
python
、
python-3.x
、
numpy
、
gensim
、
lda
在
gensim
中使用ldaseqmodel时,我得到了运行时警告:D:\Anaconda3\lib\site-packages\
gensim
\models\ldaseqmodel.py:293: RuntimeWarning:除以在double_scalars中遇到
的
零 收敛=np.fabs(绑定-
浏览 4
提问于2020-10-11
得票数 0
2
回答
将术语文档矩阵传递给
Gensim
LDA模型
python
、
numpy
、
machine-learning
、
nlp
、
gensim
我
的
术语文档矩阵是一种numpy矩阵格式,我有一本字典来表示术语文档矩阵。我能把这个传给
gensim
.models.ldamodel.LDA
浏览 3
提问于2014-12-01
得票数 3
回答已采纳
1
回答
基于
Gensim
的
多个
语料库
的
潜在Dirichlet分配
python
、
lda
、
topic-modeling
、
gensim
我有两个与
gensim
的
使用有关
的
问题
。 1)如何使用一个
语料库
创建
一个模型,保存它,或者通过在另一个
语料库
上对模型进行训练来扩展它?有可能吗?( 2) LDA是否可以用来分类一个看不见
的
文档,或者需要通过将它包含在
语料库
中来重新
创建
模型?有没有一种在线
的
方式来做这件事,并看到变化
的
动态?我对LDA有相当基本
的
理解,并使用、lda、和
gensim
浏览 1
提问于2015-05-31
得票数 0
回答已采纳
2
回答
如何在新闻文章中使用
gensim
for lda?
machine-learning
、
lda
、
gensim
我正在尝试从一个庞大
的
新闻文章
语料库
中检索主题列表,我计划使用
gensim
使用LDA来提取每个文档
的
主题分布。我想知道lda
的
gensim
实现所需
的
处理文章
的
格式,以及如何将原始文章转换为该格式。我在维基百科上看到了
关于
使用lda
的
链接,但我发现
语料库
处于已处理状态,其格式在任何地方都没有提到
浏览 5
提问于2012-04-02
得票数 3
回答已采纳
2
回答
如何对大型DataFrame使用
Gensim
Doc2vec infer_vector()?
python
、
gensim
、
doc2vec
我已经使用
Gensim
的
doc2vec为大型
语料库
创建
了文档向量。sentences=
gensim
.models.doc2vec.TaggedLineDocument('file.csv')现在我正在使用
Gensim
<em
浏览 11
提问于2017-12-20
得票数 2
1
回答
Gensim
doc2vec
关于
ngram
的
培训
python
、
gensim
、
doc2vec
我有几千个文档,我想在
gensim
doc2vec 模型中使用,但每个文档只有 5 克,而不是原始词序
的
全文。在
gensim
网站 (https://radimrehurek.com/
gensim
/auto_examples/tutorials/run_doc2vec_lee.html) 上
的
doc2vec教程中,使用全文
创建
了一个
语料库
,然后在该
语料库
上训练模型。有没有可能
创建
浏览 1
提问于2020-02-22
得票数 1
1
回答
为什么用
gensim
计算相似度需要字典
的
大小?
python
、
nlp
、
gensim
为了使用
gensim
.similarities.docsim.Similarity类计算单词之间
的
相似度,需要提供
语料库
和字典
的
大小。 在我
的
例子中,
语料库
是使用word2vec模型计算
的
词向量。我想知道为什么
gensim
需要这么大
的
字典?另外,如果这里需要用于
创建
word2vec模型
的
字典
的
大小,或者
语料库
的
字典
的
大小,我想要
浏览 0
提问于2020-06-23
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
关于在Idea中创建普通工程连接数据库问题的解决方案
10个常用的NLP库
【057】万词王-清华大学团队出品翻译工具
理顺3大步骤,精读4大核心,3分钟入门自然语言处理
写论文,你应该知道这些好用的论文翻译软件!
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券