输入:短语1、短语2
输出:语义相似度值(介于0和1之间),或这两个短语谈论同一事物的概率
发布于 2008-09-15 22:36:58
您可能想查看一下普林斯顿大学的WordNet项目。一种可能的方法是首先通过停用词列表运行每个短语(删除"a“、" to”、"the“等”常见“词)。然后,对于每个短语中的其余每个单词,您可以使用基于WordNet的距离度量来计算另一个短语中每个单词之间的语义“相似性”。距离度量可以类似于:从word1到word2在WordNet中必须经过的弧数。
抱歉,这是相当高层次的。显然我从来没有试过这个。只是一个快速的想法。
发布于 2008-09-15 13:20:08
为此,我会研究潜在语义索引。我相信你可以创建类似于向量空间搜索索引的东西,但语义上相关的术语更接近,即它们之间的角度更小。如果我了解更多,我会在这里发帖。
发布于 2014-10-01 21:12:33
很抱歉挖出了一个6年前的问题,但由于我今天刚刚看到这篇文章,我会给出一个答案,以防其他人也在寻找类似的东西。
cortical.io已经开发了一个过程来计算两个表达式的语义相似度,并且它们有一个demo of it up on their website。它们提供了一个free API providing access to the functionality,因此您可以在自己的应用程序中使用它,而不必自己实现算法。
https://stackoverflow.com/questions/62328
复制相似问题