给定一个SparkDataFrame df,我想在某个数值列'values'中找到最大值,并获得达到该值的行。我当然可以这样做:# since I hope I get this done with DataFramepandas.Series/DataFrame和numpy.array的argmax/idxmax方法可以<
我有一个大约有一百万行的Spark数据帧。我正在使用pyspark,并且必须在数据帧的每一列上应用来自scipy库的box-cox变换。但是box-cox函数只允许一维numpy数组作为输入。我怎样才能有效地做到这一点呢?
numpy数组是分布在spark上还是将所有元素收集到运行驱动程序的单个节点上?suppose df is my dataframe with column as C1然后,我想执行类似于下面的操