腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(135)
视频
沙龙
1
回答
Python
潜在
的
狄
利
克
雷
分配
Stopped_tokens
错误
、
、
我
的
代码基于以下位置
的
代码:ReadWrite.py:59: UnicodeWarning: Unicode相等比较无法将两个参数都转换为Unicode -如果不是en_stop中
的
i,则将它们解释为标记中
的
i
的
不相等
stopped_tokens
=i 我想知道以前是否有人遇到过这个问题,或者是否有人知道如何修复这个<
浏览 11
提问于2017-01-31
得票数 0
2
回答
LDA和pLSA包(最好用于
Python
)
、
你推荐哪些用于pLSA (概率
潜在
语义分析)和LDA (
潜在
狄
利
克
雷
分配
)
的
包用于
Python
?Java和C++也可以,但最好是
Python
。我们非常感谢您
的
经验。
浏览 6
提问于2011-05-05
得票数 4
1
回答
Dirichlet分布单元测试
、
谁有可靠
的
数据可以用来为Dirichlet发行版
的
新实现编写一些单元测试?
浏览 3
提问于2014-10-10
得票数 2
3
回答
主题发现/发现
的
最佳模型
、
、
、
、
在简短
的
非结构化文档中发现主题
的
最佳模型是什么,例如。短信还是推特消息?
潜在
的
狄
利
克
雷
分配
?
浏览 2
提问于2011-10-07
得票数 3
回答已采纳
2
回答
限制语料库文档字长
的
潜在
狄
利
克
雷
分配
(LDA)性能
、
、
、
、
我一直在使用
python
(gensim包)中
的
潜在
狄
利
克
雷
分配
(LDA)生成客户评论集
的
主题。在生成标记时,我只从评论中选择长度为>= 3
的
单词(通过使用RegexpTokenizer):tokenizer =RegexpTokenizer(r'\w{3,}') tokens = tokenizer.tok
浏览 2
提问于2016-04-17
得票数 0
1
回答
如何使用Scikit-Learn和
Python
找到最佳集群数量
、
我正在使用
Python
的
scikit-learn库学习集群,但我找不到一种方法来找到最佳
的
集群数量。我试图列出集群
的
数量,并将其传递到for loop中,并查看elbow,但我想找到更好
的
解决方案。我尝试过silhouette_score,但我得到
的
值非常低,有时甚至是负
的
。此外,我使用文本数据,我写了几个句子,可以*(比方说)分组,我有关于房子/家,关于学习,聚会,食物
的
句子…… 是否有可能因为使用文本数据而导致silhouette_sco
浏览 0
提问于2019-08-27
得票数 0
5
回答
潜在
狄
利
克
雷
分配
(LDA)实现
、
、
、
有人知道Win32平台上是否有一些LDA算法
的
实现(无论是库还是应用程序)?可能是用C/C++或其他可以编译
的
语言?
浏览 2
提问于2011-06-04
得票数 2
1
回答
如何检测任意文本文件或数据中
的
主题?事先不知道主题
的
数量
、
、
、
、
我有文本数据,我想要发现它所具有的主题,我在维基百科等大型语料库上使用了经过训练
的
doc2vec,但结果不一致。是否有更好
的
方法来发现主题。
浏览 0
提问于2019-05-13
得票数 0
1
回答
隐
狄
利
克
雷
分配
与文档聚类
的
关系
、
、
、
、
我想澄清
潜在
狄
利
克
雷
分配
(LDA)和文档聚类
的
一般任务之间
的
关系。我
的
理解正确吗?谢谢。
浏览 2
提问于2011-07-07
得票数 9
回答已采纳
1
回答
在主题建模中使用Word2vec输出作为LDA
的
输入
、
、
我读到过,最常见
的
主题建模技术(从文本中提取可能
的
主题)是
潜在
狄
利
克
雷
分配
(LDA)。但最近我了解了另一个模型lda2vec。但是,我感兴趣
的
是,尝试将Word2Vec输出作为LDA
的
输入是否是一个好主意。 你认为为了一些研究而遵循这种方法有意义吗?因为我正在做主题建模,需要一些新
的
方法。
浏览 16
提问于2019-11-25
得票数 1
2
回答
潜在
狄
利
克
雷
分配
(LDA)
的
文档数
、
、
我最近从web上抓取了一些文本,并将输出保存为一个大约300页
的
.txt文件。我正在尝试实现LDA来构建主题,并且熟悉这样做
的
技术方面。然而,我
的
问题是,LDA使用一个文件还是多个文件(即,如果我正在检查200封电子邮件,我是否需要进行标记化,删除停用词和双关语,并阻止大文件,然后在实施LDA之前将每个电子邮件另存为单独
的
.txt文件,我现在面临
的
问题是,如果我将所有内容分解到单独
的
.txt文件中,文档
的
预处理将需要很长时间。有什么建议吗?非常感谢。
浏览 10
提问于2013-10-28
得票数 1
1
回答
基于
潜在
狄
利
克
雷
分配
的
主题预测
、
、
我
的
代码
的
输出是两个包含概率
的
矩阵。一个文档主题概率和另一个单词主题概率。但我实际上不知道如何使用这些结果来预测新文档
的
主题。我使用
的
是Gibbs抽样。有人知道是怎么回事吗?谢谢
浏览 0
提问于2011-04-07
得票数 2
1
回答
用于计算机视觉
的
Python
中
的
LDA
、
、
、
我正在使用LDA(隐
狄
利
克
雷
分配
)主题建模进行基于内容
的
图像检索。我也希望使用
Python
来做同样
的
事情。我在
Python
for LDA for image dataset中找不到任何库/包,包似乎只适用于文本语料库。请在
Python
中为图像语料库推荐任何软件包,或简要列出执行图像LDA所需
的
步骤。
浏览 6
提问于2017-03-07
得票数 0
2
回答
使用在线LDA对测试数据进行预测
、
、
、
、
我使用
的
核心代码基于论文
的
原始在线LDA论文: Hoffman,Blei和Bach,“
潜在
狄
利
克
雷
分配
的
在线学习”。NIPS,2010。代码可以在上找到。 我使用
的
是约167000个文档
的
训练集。代码生成lambda文件作为输出,我使用它来生成主题(,printtopics.py).But我不确定如何使用它来查找关于新测试数据
的
主题(类似于gensim中
的
mode
浏览 4
提问于2018-11-07
得票数 0
3
回答
使用Word2Vec进行主题建模
、
、
我读到过,最常见
的
主题建模技术(从文本中提取可能
的
主题)是
潜在
狄
利
克
雷
分配
(LDA)。 然而,我感兴趣
的
是,尝试使用Word2Vec进行主题建模是否是一个好主意,因为它在向量空间中对单词进行聚类。最后,我感兴趣
的
是根据主题从文本中提取关键字。
浏览 3
提问于2015-10-07
得票数 19
1
回答
如何求k-means
的
k值?
、
、
我在包含多个150k文档
的
数据集上使用k-means,但是我不知道什么是好
的
k值。我试着用肘部
的
方法找到它,但是惯性值变化不大。(我使用sklearn)。
浏览 0
提问于2019-04-08
得票数 0
2
回答
基于
潜在
狄
利
克
雷
分配
的
文档聚类
、
在使用LDA算法识别所有文档
的
主题/聚类后,当新文档到达数据库时,我们是否需要重新运行整个过程,或者是否有其他方法可以通过模型直接将新文档映射到预定义
的
聚类/主题。
浏览 3
提问于2015-10-26
得票数 1
3
回答
用于文档分类
的
监督
潜在
狄
利
克
雷
分配
?
、
、
、
、
我在一些组中有一堆已经属于人类机密
的
文档。 有没有一个修改过
的
lda版本,我可以用它来训练模型,然后用它来对未知文档进行分类?
浏览 0
提问于2012-11-26
得票数 13
回答已采纳
2
回答
主题建模
的
K-均值-弯曲法
、
、
、
、
我知道这不是最好
的
方法,但这只是迈向更复杂模型
的
一步。令我困惑
的
是我得到
的
肘部曲线(下图)。你会如何解释它?为什么在50K附近有一个突然
的
峰值?或者在处理文本时,肘部方法并不能真正起作用?
浏览 3
提问于2018-05-01
得票数 1
1
回答
使用LDA和Gensim推断新
的
未见文档
的
主题分布
、
假设我使用基本命令生成了一个
潜在
的
Corpus1
狄
利
克
雷
分配
模型:我
的
问题是,我如何从“语料库2”中对新文档进行分类?我尝试使用以下命令print(ldamodel[Corpus2[1]])来获取第一个文档<e
浏览 4
提问于2017-07-29
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券