spark关键版本简要梳理

好久没有看spark了,发现spark都开始发力AI了。简单梳理下spark的发展脉络如下:

1)spark 0.x 主要对标MapReduce,用内存计算的能力替换MapReduce依赖磁盘,最主要的概念就是RDD。

2)spark 1.x 最主要解决是易用性问题,用SparkSQL统一了编程语言。替代了Hive SQL等,另外提供了一系列高级接口,极大的降低了编程难易度。并推出Tungsten项目,通过编译优化的方法提高性能。

3)spark 2.0 主要对标flink,统一了批处理和流处理接口,批处理和流处理融合处理,推出结构化流处理接口struct streaming。

4)spark 2.4 开始提供图像分类的能力,见博客:https://blogs.technet.microsoft.com/machinelearning/2018/03/05/image-data-support-in-apache-spark/

故事还在继续,可以看到spark社区一直在技术的前沿阵地,从不是探路者,但是总是能抓住关键问题,以一种更优雅的方式去替换和取代。

本文分享自微信公众号 - 大数据和云计算技术(jiezhu2007)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-09-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券