为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延迟的持续处理;支持 stream-to-stream...除了这些比较具有里程碑的重要功能外,Spark 2.3 还有以下几个重要的更新:
引入 DataSource v2 APIs [SPARK-15689, SPARK-20928]
矢量化的 ORC reader...模型 [SPARK-13030, SPARK-22346, SPARK-23037]
MLlib 增强 [SPARK-21866, SPARK-3181, SPARK-21087, SPARK-20199...]
Spark SQL 增强 [SPARK-21485, SPARK-21975, SPARK-20331, SPARK-22510, SPARK-20236]
这篇文章将简单地介绍上面一些高级功能和改进...最后,Spark 2.3 带来了改进过的 Python API,用于开发自定义算法,包括 UnaryTransformer 以及用于保存和加载算法的自动化工具。