我正在尝试实现textrank算法,其中我正在计算所有句子的余弦相似矩阵。我想使用Spark并行创建相似矩阵的任务,但不知道如何实现it.Here代码: cluster_summary_dict = {}
for cluster,sentences in tqdm我必须计算每个聚类的句子相似度矩阵。因为它很耗时,因此希望使用spark将其并行化。
我在配置单元中有两个表:user和item,我正在尝试计算两个表之间的笛卡尔乘积的每个表的两个特征之间的余弦相似度,即交叉连接。大约有20000个users和5000个items导致了100 million行的计算。我使用ScalaSpark在具有12个核心的Hive集群上运行计算。pairs.mapPartitions(computeScore) // computeScore is a function t