我使用表示产品用户购买行为的IndexedRowMatrix,为了构建产品推荐,我使用余弦相似度来计算产品之间的相似性。PySpark提供了一个名为columnSimilarities()的函数。我读过关于归一化和余弦相似的文章,并且理解余弦相似已经对向量进行了归一化,就好像我们把向量规范化了一样,余弦相似性就是这两个向量的点乘积。参考文献
另外,余弦相似度与点积的距离度量问题中的一个答案表明,Sometimes it is desirable to ignore th
我有两个熊猫df触发器和动作,其中包含25维的特征向量写入行,并希望在相应的行之间的余弦相似性。下面的代码生成成对余弦相似性的20675 x 20675矩阵:(20675, 25)(20675, 25)result.shape我想最后得到一个具有20675 x 1形状的结果矩阵,其中每一行都是来自触发器和动作的