我在Spyder上使用findspark.init()设置了一个简单的findspark.init()环境,并且我正在本地主机上运行代码。我不明白如何使用BlockMatrix在Spark中使用简单的矩阵乘法需要花费几个小时和几个小时,而在numpy上运行相同的代码需要几分钟。下面是我使用的代码:import pandas as pdimport itertoo
假设我有两个PySpark DataFrames df1和df2。x-y)) for all y in df2['b']的y (注意:可以假设只有一个y可以达到最小距离),结果是 1 3 5 6from pyspark.sql.types import IntegerType
from pyspark.sql