新的估算器支持转换多个列。...MLlib支持密集矩阵,其入口值以列主序列存储在单个双阵列中,稀疏矩阵的非零入口值以列主要顺序存储在压缩稀疏列(CSC)格式中
与向量相似,本地矩阵类型为Matrix , 分为稠密与稀疏两种类型。...例如下面创建一个3x3的单位矩阵:
Matrices.dense(3,3,Array(1,0,0,0,1,0,0,0,1))
类似地,稀疏矩阵的创建方法
Matrices.sparse(3,3,Array...分布式矩阵具有长类型的行和列索引和双类型值,分布式存储在一个或多个RDD中。选择正确的格式来存储大型和分布式矩阵是非常重要的。将分布式矩阵转换为不同的格式可能需要全局shuffle,这是相当昂贵的。...[1240]
2.5.2 Dataset
◆ 与RDD分行存储,没有列的概念不同,Dataset 引入了列的概念,这一点类似于一个CSV文件结构。