我想在mlflow上记录一个模型,一旦我这样做了,我就可以用python加载的模型来预测概率,但不能用spark_udf来预测。问题是,我仍然需要在模型中有一个预处理功能。(X), pd.DataFrame(y,columns=["target"])X.columns = [f"col_{idx}" for idx in range, encodes the variables INSIDE; this WORKS
loaded_model.predic
我想定义一个udf。在函数体中,它将从外部数据帧中搜索数据。我该怎么做呢?我尝试将数据帧传递给udf。但它不能工作。示例代码: val countryDF = spark.read .option("header", "true")
val geo = (originString: String, da
), true val inputRecs = spark.sparkContext.parallelize$apache$spark$rdd$RDD$$dependencies_ of type scala.collection.Seq in instance of org.apache.spark.rdd.MapPartitionsRDD(JavaSerializer.scala:75)
我们如何在dataframe中的列中迭代以单独对同一数据same中的部分或所有列执行计算,而不为单个列创建不同的数据same(类似于map在rdd中遍历行,并在行上执行计算而不为每一行创建不同的rddl = list of column namesdef plusone(df_column):print df1.show()
通过这