在同一时间段内使用WMD进行文本相似度

python、pandas、gensim、word2vec、similarity

我想研究同一年内的文本相似度，而不是整个数据集中的相似度。为了找到最相似的文本，我使用了WM距离相似度。对于两个文本将是： word2vec_model = gensim.models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300', binary=True)

浏览 19提问于2020-11-01得票数 1

回答已采纳

2回答

如何通过抓取整个网站来选择与我的句子相似的句子？

nlp、artificial-intelligence、chatbot、word2vec、doc2vec

如果我给出一个句子，如何返回所有相似的句子？面试需要多长时间？1.面试持续多长时间。该怎么做呢？我正在考虑的一种方法是爬行30到40个公司招聘网站的常见问题页面，并使用doc2vec嵌入问题，然后我会将所有类似的向量放在一个集群中。有比这更好的方法吗？

浏览 0提问于2018-05-11得票数 1

1回答

具有大规模毁灭性武器距离的BERT语句相似度

nlp、bert-language-model、sentence-similarity

我尝试用BERT和word mover距离(WMD)来计算这两个句子之间的相似度。我无法在蟒蛇中找到正确的大规模杀伤性武器公式。也尝试了WMD库，但它使用word2vec模型进行嵌入。请帮助解决以下问题，以获得相似的分数使用大规模毁灭性武器。= model.encode(sentence_obama) distance =

浏览 9提问于2022-06-05得票数 1

1回答

如何在python中提高词移位距离相似度，并使用加权句子提供相似度评分

python、algorithm、text、nlp、spacy

单词移动距离可用于识别文本之间的相似性。这种相似性可用于比较多个文本以找到最接近的相似文本。然而，我无法定制算法来做以下事情:1)消除位置(GPE) -由spacy识别，在文本中在比较相似度时有任何权重。instance = WmdSimilarity(wmd_corpus, loaded_model, num_best=10)sent =

浏览 27提问于2019-02-05得票数 1

回答已采纳

2回答

如何加快Word Mover在数据帧中文本上的距离计算？

python、parallel-processing、word2vec

data.Messages.str.split()] , index = data.ID )我想也许可以使用swifter并创建一个函数来使用应用，但我似乎不能正确地使用它。def compute_wmd</em

浏览 8提问于2021-09-22得票数 2

2回答

使用平均方法从word2vec词向量计算句子向量的具体步骤是什么？

python、vector、nlp、word2vec、sentence

我是否通过对这些单词向量进行分量平均来获得句子向量？如果向量的长度不同，例如：(1,2)(4,5,6)(7,8,9,23,76)，这些情况下的平均过程是什么样子的？

浏览 3提问于2017-08-12得票数 1

1回答

词移位距离与余弦相似度

python、nlp、gensim、semantics、cosine-similarity

我想知道哪种算法在语义相似性方面是最好的？有谁能解释一下原因吗？谢谢!

浏览 25提问于2020-01-04得票数 0

2回答

计算文档与特定关键字的相似度

python、nlp、cosine-similarity、sentence-similarity

flavivirus","swamp","virus","contagious","mosquito bite","virus","agent","host"] 有没有办法用PYTHON计算一组关键词和新闻文章之间的相似度

浏览 44提问于2020-07-21得票数 1

2回答

如何在文档中实现语义相似度

information-retrieval

我正在做一个项目，在这个项目中，我需要根据搜索查询对文本文档进行排名，但我需要对具有单词或句子的语义相似度的文档进行排名，我无法开始关于如何使用java找到语义相似度。是否有任何链接或论文可以让我开始在文档或任何想法中找到单词的语义相似度。

浏览 3提问于2014-06-25得票数 0

2回答

添加高于阈值的连续临时值以创建“度小时”

r、dataframe、threshold、temperature

我正在处理每小时温度的数据集，我需要为每个极端事件计算高于热阈值的“度小时数”。我打算对每个事件的强度(合并的强度和持续时间)运行统计，以比较同一时间段内的多个地点。14.0263 13.2521189 12.43721191 12.703选择仅高于阈值18度的小时，然后减去18度后的数据显示高于18度：5297 0.010 5468

浏览 0提问于2017-01-17得票数 1

2回答

在对段落/doc2vec向量进行聚类时，合适的距离度量是什么？

python、cluster-analysis、distance、doc2vec、hdbscan

我的目的是使用HDBSCAN对来自doc2vec的文档向量进行聚类。我想找到有语义和文本重复的小集群。但是，要对文档进行聚类，HDBSCAN需要一个距离矩阵，而不是相似度矩阵。在sklearn中，从余弦相似<

浏览 0提问于2018-10-09得票数 4

回答已采纳

1回答

在语义网络相似度中评估短文本

python、nlp、semantics、similarity、sentence-similarity

我有一个评估短文本的程序。它给出一个原始文本，并将其传输到语义网络。然后将其与几个短文本进行比较，这些短文本也被转换为语义网络。使用意义与句子的相似度来衡量原始文本与其余文本之间的相似度。可以使用哪些库？有没有现成的代码可以在我的工作中使用？请帮帮忙

浏览 24提问于2020-11-12得票数 0

2回答

如何在文本相似度评分时对大熊猫数据进行矢量化和加速双循环

python、pandas、similarity、fuzzy-classification

Dry Fish'],}我希望在name例如，South Beach和Beach属于聚类数1，它们的相似度很高。所以我们把它和唯一的id联系起来，比如1。Dog和Big Dog有很高的相似性，他们的独特身份将是，2说。对于Cat唯一的id将是，3说。最后，对于‘鱼’和‘干鱼’的独特身份将是，说4。诸若此类。

浏览 0提问于2022-12-11得票数 1

1回答

如何计算短文本语料库的语义相似度？

nlp、information-retrieval、corpus

在两个短文本语料库之间进行无监督语义相似度比较的正确方法是什么？比较两者的LDA主题分布似乎不是一种解决方案，因为对于较短的文档，生成的主题并不能很好地掌握语义。分块没有帮助，因为下面的tweet不一定是同一主题。例如，在这些语料库中创建文档TF-IDF之间的余弦相似性矩阵是一种好方法吗？

浏览 0提问于2020-04-20得票数 0

1回答

如何根据文档集合计算文档相似度？

information-retrieval

有什么方法可以组合成对的文档相似性得分，以获得某个文档相对于文档集合的总体相似性得分？如何根据文档集合计算文档相似度？- ResearchGate。可从：访问2016年8月22日。

浏览 16提问于2016-08-22得票数 0

2回答

如何在最大的数据库中查找相似的消息

php、mysql、artificial-intelligence

当用户收到一条消息时，我需要根据单词的出现情况在我的数据库中查找相关消息。然后，当我收到一条消息时:1-我解析单词(看起来像我的批处理的第一步。)相同大小的消息，查询相似消息的时间约为9.8秒。我需要一个更好的算法来做到这一点。有什么想法吗？

浏览 7提问于2011-02-05得票数 4

回答已采纳

2回答

特定主题语言模型的评价

machine-learning、nlp、language-model、gpt

我已经在我的自定义数据集上完成了一个预先训练过的语言模型(GPT-2)。我希望有一种方法来评估我的模型生成特定预定义主题的句子的能力，以单个关键字的形式给出。我已经尝试过的是:从LM生成足够多的句子，并将这些句子与目标主题(或主题中的每一个单词，我们有多个单词)之间的平均余弦相似度作为这里描述。我不确定这是否是一种有效的方法，而且句子之间的余弦相似性在很多情况下也会产生很差的结果。提前感谢您的帮助。

浏览 0提问于2020-10-02得票数 2

回答已采纳

1回答

如何计算TF-IDF

nlp、tf-idf

我想使用TF-IDF的余弦相似度方法来得到两个单词的语义相似度。首先，我想从wikipedia或word- text中提取这些单词的含义，然后对文本进行预处理并找到TF-IDF。当我在谷歌上搜索这个问题时，我发现为了找到TF-IDF，我们应该有一个训练集和测试集。在我的例子中，哪个是训练集，哪个是测试集？如何使用计算结果计算余弦相似度？

浏览 3提问于2012-10-06得票数 1

回答已采纳

1回答

使用序列匹配器比较文本相似性:为什么小写和大写字符串的结果不同？

python、text、nlp、similarity

我在pandas数据框中有一组文本(字母数字)，我想计算成对文本(例如文本1和2、2和3、3和4...)的相似度分数。我正在使用序列匹配器进行计算，并能够获得分数。我认为在将文本转换为小写后，也值得比较它们。我创建了2个分数列来比较结果:分数1=非小写文本对的相似性分数(保留文本的原始大小写)分数2=小写文本对的相似性分数。我

浏览 0提问于2021-04-05得票数 0

1回答

基于语义相似性的词组聚类训练集

python、python-3.x、machine-learning、cluster-analysis、word

我使用python作为工具来实现机器学习的目的。

浏览 1提问于2016-10-10得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何通过抓取整个网站来选择与我的句子相似的句子？

具有大规模毁灭性武器距离的BERT语句相似度

如何在python中提高词移位距离相似度，并使用加权句子提供相似度评分

如何加快Word Mover在数据帧中文本上的距离计算？

使用平均方法从word2vec词向量计算句子向量的具体步骤是什么？

词移位距离与余弦相似度

计算文档与特定关键字的相似度

如何在文档中实现语义相似度

添加高于阈值的连续临时值以创建“度小时”

在对段落/doc2vec向量进行聚类时，合适的距离度量是什么？

在语义网络相似度中评估短文本

如何在文本相似度评分时对大熊猫数据进行矢量化和加速双循环

如何计算短文本语料库的语义相似度？

如何根据文档集合计算文档相似度？

如何在最大的数据库中查找相似的消息

特定主题语言模型的评价

如何计算TF-IDF

使用序列匹配器比较文本相似性:为什么小写和大写字符串的结果不同？

基于语义相似性的词组聚类训练集

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐