前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Spark这是要一统江湖的节奏

Spark这是要一统江湖的节奏

作者头像
大数据和云计算技术
发布2018-03-08 16:08:34
6950
发布2018-03-08 16:08:34
举报

Spark创始人Matei最近在spark submmit上做了一次演讲,看了内容会发现spark这是要一统江湖的架势,一起来看看都介绍了什么内容。

Spark一直以来想做的一个事情就是统一整个大数据分析引擎,高层易用的API是核心竞争力。

随着2.2版本出来,看起来又更进了一步。2.2版本重点搞了下面三件事:

1) CBO:争抢数据仓库市场,解决性能问题。

2) 流引擎:支持毫秒级流处理,解决了原来只能通过mini batch方式支持流,直接PK flink。

3) 支持python api:python易上手的特点,在很多领域一直有应用,最新的机器学习领域用的最多的也是这个。

在spark的规划中,Spark未来会在两个地方发力:深度学习和流处理。

深度学习还处在很初级的阶段,主要是想在tensorflow、keras、bigdl等机器学习引擎的基础上提供更易用和高层的API。

为了可以处理深度学习,提供了一个深度学习库。https://github.com/databricks/spark-deep-learning

流处理相对成熟,已经具备生成环境的能力,在2.2会正式商用。

Event-time processing(flink是通过watermark机制来搞定)和支持Exactly once很有意思,回头看下具体是怎么实现的。

下图是spark的流API和kafka流代码对比,明显spark要比kafka好用。

在演进最后吹了个牛逼,这个牛逼吹的响:“最早的现在也是最快的”。终于脱掉了流处理不行的帽子了。

Spark还是相当有前途,好好学吧。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-06-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据和云计算技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档