检测不同主题模型之间的文本相似性

、

在主题建模方法中，我们有两种不同的主题模型结果，如下所示： library(dplyr)library(stm)librarytopic_model2 <- stm(documents = out$documents, vocab = out$vocab, K = 3) 我们称它们为topic_model1和topic_model2(也许使用不同的数据输入会更好，但出于可重现性

浏览 20提问于2020-12-05得票数 1

1回答

基于相似度的文本分类分析

、、、、

我已经阅读了大量关于文本分类和不同方法/模型的文献，特别是使用Python语言，但我可能仍然缺少一些关于如何构建模型和所涉及的步骤的内容。我有多个数据集，每个数据集都涉及特定的主题。这些数据集包括目前手动标记的新闻和假新闻。我已经收集了不同来源的类似主题的文本(使用关键字)，现在我想尝试建立一个模型

浏览 0提问于2020-05-11得票数 0

1回答

词与语篇之间的相关性

、、

我收集了关于不同主题的文章。我想研究这两者之间可能存在的相互关系。我已经开始看单词频率，似乎在一个数据集中，频率最高的词是猫；在另一个数据集中，老鼠；在另一个数据集中，是房子。你知道一些技术或方法(相似性，分类，.)吗？为了显示数据集(例如猫和老鼠之间)之间可能的相关性？它是否只需要专家的判断？

浏览 0提问于2020-05-11得票数 0

回答已采纳

4回答

使用Microsoft Cognitive Services查找相似项目

是最好的，也是最少的工作，用来解决查找给定文章的相似文章的问题。文章是一串文本。假设我没有关于文章的用户交互数据。

浏览 2提问于2016-07-01得票数 0

2回答

特定主题语言模型的评价

、、、

我已经在我的自定义数据集上完成了一个预先训练过的语言模型(GPT-2)。我希望有一种方法来评估我的模型生成特定预定义主题的句子的能力，以单个关键字的形式给出。例如，给定LM，模型的输出与单词计算机指定的主题有多大的关系？我已经尝试过的是:从LM生成足够多的句子，并将这些句子与目标主题(或<em

浏览 0提问于2020-10-02得票数 2

回答已采纳

1回答

利用潜在Dirichlet分配(LDA)或命名实体确定文档的新颖性/相似性

、、、、

给定一个包含大量(短)文档(大约100万)的索引或数据库，我试图对每个新传入的文档进行某种新奇的检测。我知道，我必须计算新文档与索引中每个文档的相似性。现在，我完全不知道具体的执行情况。我已经训练了一个使用Mallet的LDA主题模型，我也能够在语料库上进行命名实体识别。但我不知道如何使用这些主题和命名实体来实现新颖性检测。例如，将一个文档中的所有命名实体存储为

浏览 0提问于2017-03-12得票数 1

1回答

一种用于主题检测的Tweets之间的表示和一种良好的相似性度量

、、、、

我计划在Twitter上编写一个主题检测工具。我一直在考虑两个tweet之间的一个很好的相似性度量(距离)，以及如何表示它们，包括：回复(如果有人回复一条推文，我将实现经典模型(如TF*IDF，并使用欧几里德距离、角度余弦等)，以及具有几个相似度量(Hamming、Jaccard等)的布尔模型。对于如何使一些现有

浏览 2提问于2013-02-06得票数 6

1回答

使用NLP的去重叠

、、、、

在文本框里。用户也可以单独提到产品的描述。哪种NLP技术可以用来执行去重复？

浏览 0提问于2023-05-12得票数 0

1回答

主题对齐/主题建模

、、、、

什么是最有效的方法来检测这篇文章是否主要是关于一个特定的主题，但没有大量的数据进行培训？我的任务是确定一份文件有多少是关于天气、假期或其他几个特定主题的。此外，在我的例子中，我没有太多的数据来训练模型。因此，我正在考虑生成一些特定主题的标记特征列表，然后用word2vec度量文档中使用的词汇表与目标标记列表之间的</em

浏览 0提问于2020-04-23得票数 1

1回答

LDA模型可再现性的量化

、

我正在从事一个文本挖掘项目，在这个项目中，我使用潜在的Dirichlet分配来研究一个文档集。我目前正在优化我的参数，以便为我的客户获得最好的模型。在这一点上，我最关心的是我的模型是否可以复制。一个更可复制的模型将是它正在建模的文本的更准确的表示。我编写了一个脚本来查找两个不同模型之间

浏览 0提问于2017-05-22得票数 0

1回答

Tensorflow Inception v3 retraining -将文本/标签附加到单个图像

、、、、

我正在使用inception v3模型来重新训练我自己的数据集。我有一些代表类的文件夹，其中包含每个类的图像。我想做的是将一些文本ids‘附加’到这些图像上，这样当它们被重新训练并用于运行分类/相似性检测时，这些ids也会被检索到。(基本上是它的图像相似性检测) 例如，图像X属于“教师”类，它属于John。当我重新训练模型，并对新模型运行分类时，我希望获

浏览 12提问于2017-01-19得票数 0

1回答

如何在异常检测中抑制某些异常值？我们使用自动编码器构建了一个模型，它检测到了异常。一些被标记为异常(在正态分布之外)的数据点实际上并不是异常。我们如何训练模型，使其不将这些识别为异常？我们是否将这些数据点的多个副本添加到数据集中，然后再次训练，或者是否有任何其他我们可以应用的技术。在这里，正态分布具有余弦相似性(距离)，因为数据点是文本数据(日志条目)的矢量化表示。因此，如果输入和重构向量之间

浏览 25提问于2020-10-26得票数 0

回答已采纳

1回答

如何从大量的文章(维基百科)中训练短语模型？

、、、

我想为法语创建一个很大的gensim字典，尝试在主题检测、文本之间的相似性和其他类似的事情上获得更好的结果。因此，我计划使用维基百科转储，并按以下方式处理：在文章上训练短语模型以检测搭配。向字典提供新<em

浏览 0提问于2019-01-23得票数 1

回答已采纳

4回答

向量空间模型:余弦相似度与欧氏距离

、、、

我有机密文本的语料库。通过这些，我创造了向量。每个向量对应于一个文档。向量分量是本文档中的字权值，以TFIDF值计算。接下来，我建立了一个模型，其中每个类都是由一个向量表示的。模型中的向量和语料库中的类一样多。模型向量的分量计算为该类中从向量中提取的所有分量值的平均值。对于非分类向量，我通过计算这些向量之间的余弦来确定与模型向量

浏览 0提问于2013-10-16得票数 40

回答已采纳

1回答

我应该使用什么方法将单词转换为机器学习应用程序的功能？

、、、

我知道这两种流行的型号是tf-以色列国防军和word2vec。TF-国防军关注文档中单词的重要性和文档的相似性，而word2vec则更多地关注单词之间的关系和它们之间的相似性。然而，似乎没有一个主题能够完美地构建用于性别分类的矢量特征。还有其他适合这一任务的矢量化模型吗？

浏览 2提问于2017-06-11得票数 2

回答已采纳

3回答

比较两个英文字符串的相似之处

、、、、

所以这是我的问题。我有两段文字，我需要看看它们是否相似。不是在字符串度量的意义上，而是在意义上。以下两段是相关的，但我需要了解它们是否涵盖了“相同”的主题。任何解决这个问题的帮助或指导都将不胜感激。化石燃料是通过自然过程形成的燃料，例如埋在地下的死生物的厌氧分解。生物的年龄和由此产生的化石燃料通常是数百万年，有时甚至超过6.5亿年。甲烷可单独存在于油气田，与石油有关，或以甲烷包埋物的</

浏览 6提问于2011-08-17得票数 5

1回答

有什么方法可以找出两个语料库之间的相似性吗？

、、、、

我想测量两个语料库的相似性。到目前为止，我尝试过的相似检查如下：对于Spearman的秩相关系数，编码如下； def Spearman_rank_correlation_coefficient我的问题在除ValueError之外，我指定5121作为在另一个语料库前5120字频率列表中找不到的单词的排名。在Spearman的等级相关系数中，

浏览 1提问于2020-04-23得票数 0

2回答

gensim LDA主题模型中的固定大小主题向量寻找相似文本

、、、、

我使用gensim LDA主题建模来查找每个文档的主题，并通过比较接收到的主题向量来检查文档之间的相似性。每个文档都有不同数量的匹配主题，因此向量的比较(根据余弦相似性)是不正确的，因为需要相同长度的向量。正如您所看到的，每个向量都有不同的长度，因此不可能在它们之间<

浏览 0提问于2018-11-21得票数 1

回答已采纳

1回答

如何计算短文本语料库的语义相似度？

、、

在两个短文本语料库之间进行无监督语义相似度比较的正确方法是什么？比较两者的LDA主题分布似乎不是一种解决方案，因为对于较短的文档，生成的主题并不能很好地掌握语义。分块没有帮助，因为下面的tweet不一定是同一主题。例如，在这些语料库中创建文档TF-IDF之间的余弦相似性矩阵是一种好方法吗？

浏览 0提问于2020-04-20得票数 0

2回答

句子相似模型不捕获相对句子

、、、、

我尝试过不同的语句相似性方法，即： “我喜欢下雨天，因为雨天让我感到轻松。”返回相似性为0.931的模型</em

浏览 6提问于2021-09-29得票数 8

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

基于相似度的文本分类分析

词与语篇之间的相关性

使用Microsoft Cognitive Services查找相似项目

特定主题语言模型的评价

利用潜在Dirichlet分配(LDA)或命名实体确定文档的新颖性/相似性

一种用于主题检测的Tweets之间的表示和一种良好的相似性度量

使用NLP的去重叠

主题对齐/主题建模

LDA模型可再现性的量化

Tensorflow Inception v3 retraining -将文本/标签附加到单个图像

使用自动编码器抑制异常检测中的误报(错误分类为异常/异常)

如何从大量的文章(维基百科)中训练短语模型？

向量空间模型:余弦相似度与欧氏距离

我应该使用什么方法将单词转换为机器学习应用程序的功能？

比较两个英文字符串的相似之处

有什么方法可以找出两个语料库之间的相似性吗？

gensim LDA主题模型中的固定大小主题向量寻找相似文本

如何计算短文本语料库的语义相似度？

句子相似模型不捕获相对句子

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐