在创建了RDDs之后,我们可以对RDDs做2种不同类型的操作:
Transformations - 转换操作,从一个RDD转换成另外一个RDD
Actions - 动作操作,通过RDD计算结果
RDDs...这是我们的分类算法所需要的
将数据集划分为训练和测试数据集
使用训练数据训练模型
计算测试数据的训练误差
SPARK LOGISTIC REGRESSION
我们将用Spark的逻辑回归算法训练分类模型...3.0,3.0,3.0,2.0,2.0,3.0]), (1.0,[3.0,3.0,2.0,3.0,2.0,3.0]), (1.0,[3.0,3.0,2.0,2.0,3.0,3.0]))
接着我们划分一下训练数据和测试数据...,将parsedData的60%分为训练数据,40%分为测试数据。...= splits(1)
训练数据和测试数据也可以像上面一样,使用take()者count()查看。