分词 + 杰卡德系数
首先是最简单粗暴的算法。为了对比两个东西的相似度,我们很容易就想到可以看他们之间有多少相似的内容,又有多少不同的内容,再进一步可以想到集合的交并集概念。...因此句子1对应的向量就是[1, 2, 2, 1, 1, 1, 0],句子2对应的向量就是[1, 2, 2, 1, 1, 2, 1]
于是,计算两个文本相似度的问题,变成了计算两个向量相似度的问题。...值得一提的是,空间向量+余弦相似度这个算法也被广泛地应用于推荐系统中(据说网易云的推荐就是基于这个算法),这里也展开一下对应的思路。...基于相似度的推荐算法,其实就是根据已有的用户行为数据去推断一个新的用户可能做出的下一个行为。具体的举个例子,比如网易云的电台推荐。...这样做的好处是,我们的向量从词的维度下降到文本的主题的维度,维度更少,计算更快。
其他
简要的提一下其他的相似度/距离公式和算法,在某些场景下也会是不错的选择。
1.