Python潜在的狄利克雷分配Stopped_tokens错误

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我的代码基于以下位置的代码：ReadWrite.py:59: UnicodeWarning: Unicode相等比较无法将两个参数都转换为Unicode -如果不是en_stop中的i，则将它们解释为标记中的i的不相等stopped_tokens =i 我想知道以前是否有人遇到过这个问题，或者是否有人知道如何修复这个<

浏览 11提问于2017-01-31得票数 0

2回答

LDA和pLSA包(最好用于Python)

、

你推荐哪些用于pLSA (概率潜在语义分析)和LDA (潜在狄利克雷分配)的包用于Python？Java和C++也可以，但最好是Python。我们非常感谢您的经验。

浏览 6提问于2011-05-05得票数 4

1回答

Dirichlet分布单元测试

、

谁有可靠的数据可以用来为Dirichlet发行版的新实现编写一些单元测试？

浏览 3提问于2014-10-10得票数 2

3回答

主题发现/发现的最佳模型

、、、、

在简短的非结构化文档中发现主题的最佳模型是什么，例如。短信还是推特消息？潜在的狄利克雷分配？

浏览 2提问于2011-10-07得票数 3

回答已采纳

2回答

限制语料库文档字长的潜在狄利克雷分配(LDA)性能

、、、、

我一直在使用python(gensim包)中的潜在狄利克雷分配(LDA)生成客户评论集的主题。在生成标记时，我只从评论中选择长度为>= 3的单词(通过使用RegexpTokenizer)：tokenizer =RegexpTokenizer(r'\w{3,}') tokens = tokenizer.tok

浏览 2提问于2016-04-17得票数 0

1回答

如何使用Scikit-Learn和Python找到最佳集群数量

、

我正在使用Python的scikit-learn库学习集群，但我找不到一种方法来找到最佳的集群数量。我试图列出集群的数量，并将其传递到for loop中，并查看elbow，但我想找到更好的解决方案。我尝试过silhouette_score，但我得到的值非常低，有时甚至是负的。此外，我使用文本数据，我写了几个句子，可以*(比方说)分组，我有关于房子/家，关于学习，聚会，食物的句子…… 是否有可能因为使用文本数据而导致silhouette_sco

浏览 0提问于2019-08-27得票数 0

5回答

潜在狄利克雷分配(LDA)实现

、、、

有人知道Win32平台上是否有一些LDA算法的实现(无论是库还是应用程序)？可能是用C/C++或其他可以编译的语言？

浏览 2提问于2011-06-04得票数 2

1回答

如何检测任意文本文件或数据中的主题？事先不知道主题的数量

、、、、

我有文本数据，我想要发现它所具有的主题，我在维基百科等大型语料库上使用了经过训练的doc2vec，但结果不一致。是否有更好的方法来发现主题。

浏览 0提问于2019-05-13得票数 0

1回答

隐狄利克雷分配与文档聚类的关系

、、、、

我想澄清潜在狄利克雷分配(LDA)和文档聚类的一般任务之间的关系。我的理解正确吗？谢谢。

浏览 2提问于2011-07-07得票数 9

回答已采纳

1回答

在主题建模中使用Word2vec输出作为LDA的输入

、、

我读到过，最常见的主题建模技术(从文本中提取可能的主题)是潜在狄利克雷分配(LDA)。但最近我了解了另一个模型lda2vec。但是，我感兴趣的是，尝试将Word2Vec输出作为LDA的输入是否是一个好主意。你认为为了一些研究而遵循这种方法有意义吗？因为我正在做主题建模，需要一些新的方法。

浏览 16提问于2019-11-25得票数 1

2回答

潜在狄利克雷分配(LDA)的文档数

、、

我最近从web上抓取了一些文本，并将输出保存为一个大约300页的.txt文件。我正在尝试实现LDA来构建主题，并且熟悉这样做的技术方面。然而，我的问题是，LDA使用一个文件还是多个文件(即，如果我正在检查200封电子邮件，我是否需要进行标记化，删除停用词和双关语，并阻止大文件，然后在实施LDA之前将每个电子邮件另存为单独的.txt文件，我现在面临的问题是，如果我将所有内容分解到单独的.txt文件中，文档的预处理将需要很长时间。有什么建议吗？非常感谢。

浏览 10提问于2013-10-28得票数 1

1回答

基于潜在狄利克雷分配的主题预测

、、

我的代码的输出是两个包含概率的矩阵。一个文档主题概率和另一个单词主题概率。但我实际上不知道如何使用这些结果来预测新文档的主题。我使用的是Gibbs抽样。有人知道是怎么回事吗？谢谢

浏览 0提问于2011-04-07得票数 2

1回答

用于计算机视觉的Python中的LDA

、、、

我正在使用LDA(隐狄利克雷分配)主题建模进行基于内容的图像检索。我也希望使用Python来做同样的事情。我在Python for LDA for image dataset中找不到任何库/包，包似乎只适用于文本语料库。请在Python中为图像语料库推荐任何软件包，或简要列出执行图像LDA所需的步骤。

浏览 6提问于2017-03-07得票数 0

2回答

使用在线LDA对测试数据进行预测

、、、、

我使用的核心代码基于论文的原始在线LDA论文: Hoffman，Blei和Bach，“潜在狄利克雷分配的在线学习”。NIPS，2010。代码可以在上找到。我使用的是约167000个文档的训练集。代码生成lambda文件作为输出，我使用它来生成主题(，printtopics.py).But我不确定如何使用它来查找关于新测试数据的主题(类似于gensim中的mode

浏览 4提问于2018-11-07得票数 0

3回答