我正在使用 in pyspark在AWS集群上训练一个包含大约400 k行和~9k列的数据帧上的二进制分类模型。我将此与当前的解决方案进行比较,该解决方案是在一个可以容纳内存中整个数据帧的大型XGBoost上运行的。
我希望我能在星火中更快地训练(并获得新的观测),因为它将是分布/平行的。然而,当观察
我有一个大约20000个训练样本的数据集,我想对其进行二进制分类。问题是数据集严重不平衡,只有大约1000个属于正类。我正在尝试使用xgboost (in R)来做我的预测。我试着阅读了这篇关于如何在xgboost中调优参数的文章。
但它只提到了哪些参数有助于不平衡的数据集,而没有提到如何调整它们。如果任何人对调整xgboost