我们在Apache Spark 1.3版本中引入了DataFrame功能, 使得Apache Spark更容易用....列联表是统计学中的一个强大的工具, 用于观察变量的统计显着性(或独立性). 在Spark 1.4中, 用户将能够将DataFrame的两列进行交叉以获得在这些列中观察到的不同对的计数....Python, Scala和Java中提供, 在Spark 1.4中也同样会提供, 此版本将在未来几天发布....利用MLlib中现有的统计软件包, 可以支持管道(pipeline), 斯皮尔曼(Spearman)相关性, 排名以及协方差和相关性的聚合函数中的特征选择功能....在博客文章的最后, 我们还要感谢Davies Liu, Adrian Wang和Spark社区的其他成员实现这些功能.