我正在尝试将数据分割成列车和测试,其中70%行在火车和30%行在测试。我使用的是randomSplit函数,来自spark.ml in scala。我不想使用种子,因为每次运行代码时,我都需要不同的训练和测试集。
问题是,该函数在每次运行代码时都会在列车中产生不同数量的行并进行测试。然而,当我使用种子时,这个问题不会发生。这是一种错误还是一种预期的行为?val A
我正在处理电影镜头数据集,我有一个用户id作为行,电影id作为列的矩阵(m×n),我已经做了降维技术和矩阵分解来减少我的稀疏矩阵(m X k,其中k<n )。我想使用k近邻算法(不是库,我自己的代码)来评估性能。我使用的是sparkR 1.6.2。我不知道如何在sparkR中将我的数据集划分为训练数据和测试数据。我已经尝试过原生R函数(sample,subset,CARET),但它与spark
类似于下面的内容import org.apache.spark.ml.linalg.Vectorimport org.apache.spark.ml.feature.VectorAssembler val df = Seq((1,1,34,23,34,56),(2,1,56,34,56,23.setOutputCol("features")
val data