使用潜在的dirichlet分配来捕获二元语法主题而不是一元语法

python、nltk、gensim、n-gram

我试着做一个类似this问题的尝试 LDA原始输出 Uni-grams topic2 -green plants,carbon dioxide 答案是这样的我应该做什么更新才能只有二元语法？

浏览 14提问于2020-11-03得票数 1

回答已采纳

1回答

如何实现潜在的Dirichlet分配，以在主题中提供二元/三元语法而不是一元语法

python、scikit-learn、nlp、gensim、lda

我使用gensim LDAModel进行客户评论的主题提取，如下所示：dictionary.filter_extremespasses = 20, alpha = "auto") 这将在如下主题中返回我偶然发现了sklearn的LatentDirichletAllo

浏览 1提问于2017-05-19得票数 1

1回答

如何利用潜在Dirichlet分配计算的词-主题和主题-词矩阵构造文档-主题矩阵？

python、apache-spark、lda

如何利用潜在Dirichlet分配计算的词-主题和主题-词矩阵构造文档-主题矩阵？我似乎在任何地方都找不到它，甚至连LDA，M.Blei的作者也找不到。Gensim和sklearn只是工作，但我想知道如何使用这两个矩阵来构造文档主题-矩阵(Spark只给出两个矩阵，而不是文档-主题矩阵)。

浏览 0提问于2016-07-15得票数 2

1回答

在tf-idf中使用三元组时，我是否应该包括单元组和双元组？

nlp、nltk、tf-idf、n-gram

当我使用二元组时，我将二元组的列表附加到单元组，并将其用作我的语料库。对于三元模型，我将三元模型添加到unigram中，但忽略了二元模型。这是正确的方法吗，或者如果我想合并三元模型，那么包含二元模型会更好吗？相反，这个过程应该是:unigram -> unigram+二元语法-> unigram+二元语法+三元语法？

浏览 1提问于2018-09-18得票数 0

1回答

如何仅生成二元/三元语料库

python、nlp、gensim

Gensim有没有办法在单词列表中严格生成二元语法和三元语法？我可以成功地生成一元、二元、三元，但我只想提取二元、三元。mayor', 'of', 'new', 'york', 'was', 'there'],["i","love","new","york"],["new",&q

浏览 1提问于2020-01-17得票数 0

1回答

将招聘广告与给定的一组类别进行比较(每组类别都由术语组成)

supervised-learning

在最近的一篇研究论文中，我计划做以下几件事，我恳请你提供建议。现在，我想了解的是，哪些招聘广告以及多少招聘广告涵盖了这15个类别中的每一个方面。结果可能是，例如，作业广告1包含与类别2、5、8的描述相匹配(或接近)的内容，但遗漏了允许引用其余类别

浏览 0提问于2018-10-07得票数 0

1回答

我们可以使用一个自制的语料库来训练使用gensim的LDA吗？

python、lda、gensim

我必须应用LDA (潜在Dirichlet分配)从我收集的包含20,000个文档的数据库中获取可能的主题。如何使用这些文档而不是其他可用的语料库(如Brown语料库或英语维基百科)作为训练语料库？

浏览 0提问于2013-04-28得票数 9

回答已采纳

1回答

如何确定两个代码段在功能上是否相同？

machine-learning、nlp、artificial-intelligence、language-features、feature-extraction

函数相似的意思是，当输入相同时，它们应该产生相同的输出。我使用以下方法从给定的代码片段中提取功能集：语法方法：使用基本的NLP技术，如词干、分裂等。语义方法：使用AST规范代码片段--例如:转换‘for’to‘while’等。在形成标记之后，我使用主题建模算法，如潜在Dirichlet分配算法、概率潜在语义索引算法等，在给定的代码段中查找<

浏览 4提问于2015-08-25得票数 0

1回答

如何测试文本聚类应用程序？

nlp、data-mining、text-mining

我正在开发一个根据主题对文档进行集群的应用程序。我使用LDA (潜在的Dirichlet分配)算法。现在原型已经准备好了，也有了一些结果。这些主题</em

浏览 2提问于2014-01-10得票数 0

1回答

如何使用Weka尝试不同的功能集

machine-learning、weka

我有一个分类问题，为了解决这个问题，我计划使用不同的特征集，比如一元语法和二元语法，也许以后会更多。我想用这些特征集的不同组合进行实验。做这件事最好的方法是什么？我必须为不同的功能集组合准备不同的文件吗？

浏览 3提问于2013-03-12得票数 1

1回答

不使用NLTK计算字符串中的二元语法

python、python-3.x、string

我一直在尝试创建一个代码，它可以看到一个二元语法在一个字符串中出现了多少次(如果你不知道，二元语法包含两个单词，比如'if you‘或'you’t‘)。我尝试将.join函数用于剪切列表，但是，它只返回一个单词，而不是两个单词。我使用了.join函数并使用了一个for循环，该循环将一直持续到n-1 (其中n是单词的长度)时间，并且它将使用从n-1到n的空格连接两个列表。words

浏览 0提问于2019-09-19得票数 0

3回答

如何在python中使用循环计算二元语法

python、loops、n-gram

我有一个关于python的特定编码问题。我想要得到的是二元语法计数，而不是一元语法计数。Count = defaultdict(int) for m in l['reviews'].split():我想使用类似的代码，而不是使用Stackoverflow中已经存在

浏览 0提问于2015-11-23得票数 1

2回答

将优先表转换为适用于递归下降的语法？

algorithm、parsing

浏览 1提问于2012-12-20得票数 3

回答已采纳

1回答

LDA检测新出现的主题

python、windows、machine-learning、gensim、lda

我有一个方向的问题-我已经建立了一个潜在的Dirichlet分配使用Gensims Mallet包装。我曾经在OldDataSet.csv上训练过这个模型，并测量了它的一致性。我一直在使用它来传递主题分配的NewDataSet.csv。我需要一些指导，说明我如何能够预测我的预先训练过的模型如何准确地分配NewDataSet.cs

浏览 1提问于2019-05-07得票数 1

回答已采纳

1回答

如何使用BigQuery查找带有reddit数据集的n元语法

sql、google-bigquery、reddit

我正在查看reddit数据集，以及一个使用BigQuery查找二元语法的 -然而，这个问题的答案并不适用于URL、引号等。有没有更好的方法来做到这一点，并将其推广到三元语法而不是二元语法？

浏览 3提问于2016-02-12得票数 1

1回答

主题与潜在的Dirichlet分配

machine-learning、lda、topic-modeling

潜在Dirichlet分配(LDA)是一种生成模型，它产生一个主题列表。每个主题都是由单词的分布来表示的。假设每个主题都用它的前40个单词来表示。给定一个新文档，我如何确定哪些主题构成了这个新文档，而不需要再次运行lda。换句话说，如何使用估计的主题来推断新的未见文档

浏览 3提问于2014-10-14得票数 1

回答已采纳

6回答

潜Dirichlet分配与递阶Dirichlet过程

nlp、topic-model、lda

潜Dirichlet分配(LDA)和分级Dirichlet过程(HDP)都是主题建模过程。主要的区别是LDA要求指定主题的数量，而HDP不需要。为什么会这样？这两种主题建模方法的区别、利弊是什么？

浏览 0提问于2014-05-18得票数 62

回答已采纳

0回答

在R中使用unnest_tokens()在tidytext中保留标点符号

r、twitter、text-mining、punctuation、tidytext

我正在使用R中的tidytext包来做n元语法分析。因为我分析tweet，所以我想保留@和#来捕获提及、转发和标签。但是，unnest_tokens函数会自动删除所有标点符号并将文本转换为小写。我发现unnest_tokens有一个通过token='regex'使用正则表达式的选项，所以我可以自定义它清理文本的方式。但是，它只适用于一元语法分析，而不适用于n元

浏览 19提问于2017-06-13得票数 8

1回答

tf-以色列国防军和LDA在Google应用引擎上的应用

google-app-engine、scikit-learn、tf-idf、lda、gensim

我有一个python代码，它使用sklearn和gensim库来实现tf和LDA(潜在的Dirichlet分配)。既然我想迁移到Google应用引擎，我就不能使用这两个库中的任何一个，因为它们还不受支持。是否有任何服务已经包括在谷歌应用引擎，我可以使用而不是这两个库做tf-以色列国防军和LDA？

浏览 3提问于2014-04-19得票数 1

回答已采纳

1回答

具有朴素贝叶斯分类器的N-gram

python、nltk、n-gram

我是python的新手，需要帮助！我正在练习python NLTK文本分类。以下是我在上练习的代码示例from nltk import bigramsfrom

浏览 0提问于2012-12-22得票数 10

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何实现潜在的Dirichlet分配，以在主题中提供二元/三元语法而不是一元语法

如何利用潜在Dirichlet分配计算的词-主题和主题-词矩阵构造文档-主题矩阵？

在tf-idf中使用三元组时，我是否应该包括单元组和双元组？

如何仅生成二元/三元语料库

将招聘广告与给定的一组类别进行比较(每组类别都由术语组成)

我们可以使用一个自制的语料库来训练使用gensim的LDA吗？

如何确定两个代码段在功能上是否相同？

如何测试文本聚类应用程序？

如何使用Weka尝试不同的功能集

不使用NLTK计算字符串中的二元语法

如何在python中使用循环计算二元语法

将优先表转换为适用于递归下降的语法？

LDA检测新出现的主题

如何使用BigQuery查找带有reddit数据集的n元语法

主题与潜在的Dirichlet分配

潜Dirichlet分配与递阶Dirichlet过程

在R中使用unnest_tokens()在tidytext中保留标点符号

tf-以色列国防军和LDA在Google应用引擎上的应用

具有朴素贝叶斯分类器的N-gram

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐