我有两组短消息,我想计算这两组短消息之间的相似度,并根据它们的语义相似度来识别它们是否在谈论相同的子主题。我知道如何使用成对相似度,我的问题是我想计算两个集合中所有句子之间的总体相似度,而不是两个句子的相似度。有没有办法使用tf-idf或带有余弦相似度的word2vec/doc2vec来计算总分?
发布于 2019-08-02 23:28:00
基本上,我所做的是,取每个句子中每个单词的向量。
然后取两个向量的平均值并做余弦相似度。
当然,在此之前,您需要一个经过训练的word2vec模型。Doc2vec的相似性做了同样的事情,因为它在内部保留了一个word2vec模型。
发布于 2021-06-17 10:42:17
Infersent有助于查找语义相似性
https://stackoverflow.com/questions/57320624
复制相似问题