请注意，“相似性”是一个非常通用的术语。在信息检索领域，你通常会说到“相关性”。文本可以在许多层面上相似:在相同的语言中，使用相同的字符，使用相同的单词，谈论相同的人，使用类似的复杂语法结构等等-因此，有许多许多衡量标准。在web上搜索文本相似性，不仅可以找到许多出版物，还可以找到实现不同衡量标准的开源框架和库。

如今，与传统的基于关键词的信息检索模型相比，“语义相似度”引起了人们更多的兴趣。如果这是您感兴趣的领域，您可以查看2012-2015年SemEval共享任务的结果。

票数 1

Stack Overflow用户

发布于 2015-04-25 02:37:31

如果您想要的只是使用TF-IDF比较两个文档，那么您可以这样做。由于您提到每个文档包含100个单词，因此在最坏的情况下可能会有1000*100个唯一单词。因此，我假设您的向量是建立在所有唯一的单词上的(因为所有文档都应该以相同的维度表示)。如果不是。如果唯一词的个数太高，你可以尝试使用一些降维技术来降低维数(如PCA)。但是您尝试做的是正确的，您总是可以像这样比较文档来查找文档之间的相似性。

如果你想在语义上有更多的相似性，你应该考虑使用LDA (主题建模)类型技术。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/29842137

复制

相似问题

问比较文档-文档相似度
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问比较文档-文档相似度EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问比较文档-文档相似度
EN