从该同学给出的测试代码上,并没有发现什么问题:
//测试结果中的一行,41列
double[] input = new double[]{1, 2, 5, 0, 0, 6.666666666666667...中缺失值的处理
而XGBoost on Spark将NaN作为默认的缺失值。...//测试结果中的一行,41列
double[] input = new double[]{1, 2, 5, 0, 0, 6.666666666666667, 31.14, 29.28, 0, 1.303333...而事实上XGBoost on Spark也的确将Sparse Vector中的0值直接当作缺失值进行处理:
scala
val instances: RDD[XGBLabeledPoint] =...而且对于一份数据中的某一列,两种格式是同时存在的,有些行是Sparse表示,有些行是Dense表示。