我收到了一个预先训练好的火花源模型(GBTRegressor),但我无法在数据集上使用它来获得预测。我看过一些关于使用Pipeline vs PipelineModel的帖子,但在这种情况下,它只是一个回归对象,我不能用PipelineModel加载它。我可以使用以下命令成功加载模型: model = GTBRegressor.load(model_path)'pyspark.ml.regression.GBTRegresso
我制作了一个带有IDFModel和ipython笔记本的PySpark,如下所示:from pyspark.mllib.featuresplit_data_train = txtdata_train.map(parse) #my parse function puts RDD in form I want
tf_train = hashingTF.transformtfidf_train = idf_train.transform(tf