Spark之殇

我觉得Spark有时候会伤害用户。

之前Spark 2.0 刚发布不久后的第一个小版本,Structured Streaming 终于支持Kafka了,但是只支持Kafka 1.0 而不支持Kafka 0.8。用Spark的开发可是没办法决定基础设施Kafka的版本的,而且你知道在一个业务成熟的公司更换这种如此重要的基础设置的版本的阻力和风险有多大么?这简直让我们这些渴望能体验Spark新功能的痛心疾首。

接着为了推动大家迁移到Scala 2.11 版本而不再提供基于scala 2.10预编译的Assembly包,要知道,这会给使用spark的公司会带来的很大的困难。本来用Spark就是因为便于编程,功能强大,但是有多少程序员有能力自己去编译? 公司累积了一堆的2.10的库难道都因为为了体验下2.0版本而要重新编译?

我只是觉得Spark不是为我等欢快的工作而努力,而是为了他们的技术追求和审美的强迫症而努力。或许这是技术人员难以逾越的坑吧

Spark 过于专注他所谓的架构,忽略了对用户问题的解决。为了所谓的统一(DataFrame API)导致公司精力都放在了内核的重构上,这也直接让Spark在很多方面慢了一大拍.

曾经机器学习的新星,现在没落了

原本对机器学习库我是抱以厚望的,然而其算法和功能都相对来说很贫乏,并且一直没有得到质的提升。Spark 团队将其主要精力放在了API的简化尤其是DataFrame的统一上,让其错过了16年深度学习崛起的年代,终于沦为一个普通的带算法的计算框架上了。

曾经的全平台,现在只有批处理还有优势

对流式的支持也是磕磕盼盼,要知道,流式已经是大势所趋。相对于原先的Spark Streaming, Structure Streaming 带来了很多新概念,但是本质没有什么变化,只是强迫症患者的一个强迫而已(要使用Dataframe)。Spark Streaming 足够灵活,就是问题比较多。你新的Structure Streaming 还把追加,写入等各种拆分开了,学习曲线陡然上身。因为执着于RDD概念,没有勇气打破Spark的基石,一直无法实现真正的流式,倒是给了Flink巨大的机会。同样的,也让Storm一直活得很潇洒。新的Structure Streaming不行,但是他们似乎已然放弃Spark Streaming的努力,包括从Spark Streaming诞生就被广受吐槽的checkpoint 问题,也从来没有得到关注,也没有得到改善。让你带着爱被虐着,然后就眼睁睁的看着流式时代在自己的眼皮底下流过。

有望成为SQL的新标准,现在依然丧失

SQL的支持也是磕磕盼盼,到现在还还没覆盖Hive SQL的大部分功能,Hive 已然是大数据SQL的事实标准,又想摆脱Hive,我原先很赞赏Spark的做法,因为hive确实重啊,结果 1.6 里一些基础UADF都不支持。。。。很多情况其实没办法用的。而新的版本2.0对SQL支持好了很多,结果前面各种问题限制你使用。

感想

我觉得一个开源产品,用户才是自己的最关键的。用户只关注了一个新的版本有什么新的功能,解决了老的什么痛点,并且提高了多少稳定性和速度,如此而已。至于内核的重构,API的统一,这不能成为自己全身心去投入的事情。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

公开课丨Spark大数据分析从入门到精通

伴随Spark技术的普及推广,对专业人才的需求日益增加。Spark专业人才在未来也是炙手可热,轻而易举可以拿到百万的薪酬。最近,一份由O`Reilly做出的数据...

2023
来自专栏互联网技术栈

Druid:实时处理时序数据的OLAP数据库

大数据一直是近年的热点话题,随着数据量的急速增长,数据处理的规模也从GB 级别增长到TB 级别,很多图像应用领域已经开始处理PB 级别的数据分析。大数据的核心目...

2282
来自专栏CSDN技术头条

【BDTC 2015】大数据分析及生态系统分论坛:HBase、Spark、ES、Kylin技术生态

2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,...

2916
来自专栏CDA数据分析师

如何让Hadoop结合R语言做统计和大数据分析?

R是GNU的一个开源工具,具有S语言血统,擅长统计计算和统计制图。由Revolution Analytics发起的一个开源项目RHadoop将R语言与Hadoo...

2545
来自专栏PPV课数据科学社区

分享:6个公司大数据岗位的面试经验

【热门下载】 2015中国数据分析师行业峰会精彩PPT下载(共计21个文件) 关注PPV课微信菜单栏回复“2015数据分析师”即可下载 来源:CSDN 作者:g...

5747
来自专栏Albert陈凯

flink与Spark的对比分析

我们是否还需要另外一个新的数据处理引擎?当我第一次听到flink的时候这是我是非常怀疑的。 在大数据领域,现在已经不缺少数据处理框架了,但是没有一个框架能够完...

1.7K4
来自专栏飞总聊IT

大数据那些事(7):腾飞的拉丁猪

2007到2008年的Hadoop世界,是Hadoop发展历史上非常关键的一年。这一年Yahoo Research 发表了Pig Latin的paper 在 S...

37811
来自专栏飞总聊IT

大数据那些事(5):沉没的微软以及Dryad

到目前为止,我大致上是按照年代的顺序来讲述故事,除了刻意的延迟了对Google第三架马车的叙述。但是接下来的文章,出于逻辑的考虑,可能会更加的前后错开一些。大数...

3787
来自专栏飞总聊IT

大数据到底是什么

最近这段时间有很多人问我,大数据到底是什么。当然实际上问题没有那么直接。更多的问题是,飞总啊你看我亲戚家的那个企业是不是可以上个大数据啊,用起来就能发财了。或者...

36612
来自专栏斑斓

选型的目光瞄准Spark

在Spark社区,众多参与者已经在为Spark 1.4.0(RC2)推出的特性投票了。我之遗憾,在于我们暂时还未参与这项工程的创造工作;我之欣喜,在于我们可以毫...

3068

扫码关注云+社区

领取腾讯云代金券