我正在使用bank data from UCI来创建一个项目的模板。我在他们的文档网站上关注了PySpark教程(对不起,我再也找不到链接了)。在流水线中运行时,我一直收到错误。我已经加载了数据,转换了特征类型,并完成了分类和数值特征的管道。我想要任何关于代码任何部分的反馈,但特别是我在哪里得到了错误,这样我就可以继续这个构建。提前谢谢你!Pipeline().setStages(stages)prepped_df = pipelin
此外,如果我不能为包含RicherIndicator的Tuples或KVs提供一个新的编码器,那么我希望获得一个编译时或运行时错误,而不是求助于一个次优的编码器。case class RicherIndicator ( indicator: IndicatorScio也不会优先考虑注册到CoderRegistry的自定义编码器], RicherIndicatorCoder.of) // Not used
因此,无论这种类型的SCollection出现