Spark这是要一统江湖的节奏

Spark创始人Matei最近在spark submmit上做了一次演讲,看了内容会发现spark这是要一统江湖的架势,一起来看看都介绍了什么内容。

Spark一直以来想做的一个事情就是统一整个大数据分析引擎,高层易用的API是核心竞争力。

随着2.2版本出来,看起来又更进了一步。2.2版本重点搞了下面三件事:

1) CBO:争抢数据仓库市场,解决性能问题。

2) 流引擎:支持毫秒级流处理,解决了原来只能通过mini batch方式支持流,直接PK flink。

3) 支持python api:python易上手的特点,在很多领域一直有应用,最新的机器学习领域用的最多的也是这个。

在spark的规划中,Spark未来会在两个地方发力:深度学习和流处理。

深度学习还处在很初级的阶段,主要是想在tensorflow、keras、bigdl等机器学习引擎的基础上提供更易用和高层的API。

为了可以处理深度学习,提供了一个深度学习库。https://github.com/databricks/spark-deep-learning

流处理相对成熟,已经具备生成环境的能力,在2.2会正式商用。

Event-time processing(flink是通过watermark机制来搞定)和支持Exactly once很有意思,回头看下具体是怎么实现的。

下图是spark的流API和kafka流代码对比,明显spark要比kafka好用。

在演进最后吹了个牛逼,这个牛逼吹的响:“最早的现在也是最快的”。终于脱掉了流处理不行的帽子了。

Spark还是相当有前途,好好学吧。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2017-06-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏贾老师の博客

【笔记】产品竞争力和技术追求

16450
来自专栏华章科技

1个月只敲1天代码,拿着全额薪资,我错了吗?

每周工作2小时,相当于1个月只上1天班,拿全薪。公司从来没有表示他们对我的表现不满意。他们从雇用我中得到了他们想要的,而我还可以在家陪陪儿子。不告诉老板,有错吗...

9320
来自专栏Java技术交流群809340374

高级程序员到底强在哪里?

说起程序员人们的第一印象就是工资高、加班凶、话少钱多头发少。再加上现在科技互联网公司太吃香,bat、华为小米等公司程序员加班情况被广泛传播,程序员用生命在敲代码...

33600
来自专栏Java架构

『干货分享』Java程序员月薪达到三万, 需要掌握哪些技术?1.架构师应不应该写代码2.为什么别人的系统总是那么烂3.成为架构师最困难的门槛是什么?4.如何更高效的学习?5.快速成为架构师的学习路线一

19050
来自专栏钱塘大数据

【盘点】云计算的8项核心技术

1、虚拟化技术 虚拟化是云计算最重要的核心技术之一,它为云计算服务提供基础架构层面的支撑,是ICT服务快速走向云计算的最主要驱动力。可以说,没有虚拟化技术也就没...

57460
来自专栏灯塔大数据

荐读|大数据时代:十大最热门的大数据技术

随着 大数据分析 市场快速渗透到各行各业,哪些大数据技术是刚需?哪些技术有极大的潜在价值?根据弗雷斯特研究公司发布的指数,这里给出最热的十个大数据技术。 ? ...

30370
来自专栏一名叫大蕉的程序员

靠谱的数据开发从业指南No.82

数据开发太庞大了 有小伙伴让我聊聊数据开发的职业规划和从业指南,因为数据开发从业人员的知识量实在是太太太大了,今天恰好这个机会好好聊聊。 我们先来看看 Inf...

209100
来自专栏腾讯Bugly的专栏

【Dev Club 讨论】聊一聊微信“小程序”

Dev Club 是一个交流移动开发技术,结交朋友,扩展人脉的社群,成员都是经过审核的移动开发工程师。定期会举行嘉宾分享,话题讨论等活动。 本期讨论话题为:聊一...

39960
来自专栏分布式系统和大数据处理

离线和实时大数据开发实战

这本书是公司一位负责数据库的同事推荐的,正好数据中心也在重构和优化,以应对更加海量的数据,所以便花了点时间读完了这本书。全书分了三个篇章:全局概览,从比较高的高...

1.5K30
来自专栏前端布道

开发团队的效率

我之前写过一篇叫《加班与效率》的文章,从概念上说了一些我对“效率”的认识,但是那篇文章趋于概念化,对于一些没有经历过这样的环境的同学来说,可能会觉得太抽象了。很...

56150

扫码关注云+社区

领取腾讯云代金券