首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >spark关键版本简要梳理

spark关键版本简要梳理

作者头像
大数据和云计算技术
发布2019-09-24 16:03:55
2980
发布2019-09-24 16:03:55
举报

好久没有看spark了,发现spark都开始发力AI了。简单梳理下spark的发展脉络如下:

1)spark 0.x 主要对标MapReduce,用内存计算的能力替换MapReduce依赖磁盘,最主要的概念就是RDD。

2)spark 1.x 最主要解决是易用性问题,用SparkSQL统一了编程语言。替代了Hive SQL等,另外提供了一系列高级接口,极大的降低了编程难易度。并推出Tungsten项目,通过编译优化的方法提高性能。

3)spark 2.0 主要对标flink,统一了批处理和流处理接口,批处理和流处理融合处理,推出结构化流处理接口struct streaming。

4)spark 2.4 开始提供图像分类的能力,见博客:https://blogs.technet.microsoft.com/machinelearning/2018/03/05/image-data-support-in-apache-spark/

故事还在继续,可以看到spark社区一直在技术的前沿阵地,从不是探路者,但是总是能抓住关键问题,以一种更优雅的方式去替换和取代。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-09-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据和云计算技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档