我正在处理一个数据集,我使用线性回归来拟合一个模型。在注销之前,我想尝试使用超参数调优来获得最佳可用模型。我一直在通过管道运行数据,首先将字符串转换为数字,然后对其进行编码,然后向量化所有列,然后在应用线性回归之前对其进行缩放。我很想知道如何设置网格来启动超参数滚球(可以这么说)。import pyspark.ml.feature as ft
WD_indexer = ft.StringIn
我尝试使用pyspark ml (spark 2.4.0)运行一个随机森林分类器,并使用OHE对目标标签进行编码。当我将标签作为整数(字符串索引器)输入时,该模型训练得很好,但当我使用OneHotCodeEstimator输入一个热编码的标签时,该模型就失败了。这是火花限制吗?#%%import pyspark.sql.func