我正在尝试实现textrank算法,其中我正在计算所有句子的余弦相似矩阵。我想使用Spark并行创建相似矩阵的任务,但不知道如何实现it.Here代码: cluster_summary_dict = {}
for cluster,sentences in tqdm我必须计算每个聚类的句子相似度矩阵。因为它很耗时,
对于推荐系统,我需要计算整个Spark DataFrame的所有列之间的余弦相似度。pd.DataFrame(...some dataframe over here :D ...)这会生成列之间的相似性矩阵(因为我使用了转置)
有没有办法在Spark (Python)中做同样的事情?(我需要将它应用于由数千万行和数千列组成的矩阵,所以这就是为