我在macOS中安装了火花放电。然后,当将pyspark.sql.dataframe.DataFrame作为包导入时,我会得到一个错误。Import "pyspark.sql.dataframe.DataFrame" could not be resolvedPylancereportMissingImports
原因何在?
我正在寻找一种方法来减少在我的大型数据集上计算SHAP值所需的计算时间(大约180米行,6个特性),我遇到了这个,讨论了如何在SHAP上使用PySpark。def calculate_shap(iterator: Iterator[pd.DataFrame]) -> Iterator[pd.DataFrame]:
for X in iterator代码片段演示了如何在PySpark中使用Pandas并行化应用扩展程序。我们定义了一个名为calculate_shap的熊猫UD