新的估算器支持转换多个列。...它已被新的OneHotEncoderEstimator所取代(参见SPARK-13030)。...我们使用双重存储标签,所以我们可以在回归和分类中使用标记点
对于二进制分类,标签应为0(负)或1(正)
对于多类分类,标签应该是从零开始的类索引:0,1,2,.......例如下面创建一个3x3的单位矩阵:
Matrices.dense(3,3,Array(1,0,0,0,1,0,0,0,1))
类似地,稀疏矩阵的创建方法
Matrices.sparse(3,3,Array...分布式矩阵具有长类型的行和列索引和双类型值,分布式存储在一个或多个RDD中。选择正确的格式来存储大型和分布式矩阵是非常重要的。将分布式矩阵转换为不同的格式可能需要全局shuffle,这是相当昂贵的。