让Spark成为你的瑞士军刀

今天基本算是完成了一个类似spark-jobserver 的功能,当然功能还是比较简单的,不过提供了Web界面。很感慨Spark 用好了,真的是大数据的瑞士军刀

依托于Spark Streaming /Spark SQL,封装了一套通过配置和SQL就能完成批处理和流式处理的引擎,这样可以很好的完成复杂的ETL处理过程,实现了数据的流转和变换。

完成了数据的流转和变换,接着就是查询了,通过对Spark SQL的封装,我现在可以任意指定多个数据源,举个例子,将ES的索引A` 命名为表A,将来自HDFS 的Parquet 文件命名为表B,这个时候我就可以写SQL作任意的处理了。用户要做的就是选择对应数据来源,接着就是完成SQL就好。

能实现上面的功能得益于Spark

  • 统一易用的API,比如RDD/DF/DS
  • 功能丰富的组件,比如流式计算/批处理,机器学习,强大的SQL支持

Spark 背后的Databricks公司是我见过最重视

  • 用户API设计
  • 对领域问题具有高度抽象和设计能力

API 我就不说了,Spark的用户层API都是经过精心设计的,RDD自然不必说,上层的DF/DS 已经很好用,在2.0又更进一步统一了DF/DS (DF 是DS 类型为Row的一个特例),这样可以让用户进一步减少使用和理解障碍。而且机器学习相关的API 也要慢慢迁移到 DF/DS ,进一步简化用户学习和使用成本。

对领域问题的高度抽象能力,我觉得给我特别印象深刻的是机器学习相关的,几经发展,目前形成了一套完善的ML-Pipelines 的东西,结果是啥呢? 机器学习通过抽象以下几个概念

  • Estimator
  • Transformer
  • Pipeline
  • Parameter
  • DataFrame

实现了模块化。基于之上,你可以实现配置化来完成机器学习流程。

大数据现阶段在我目前看来从功能上可划分数据处理和机器学习。从架构上而言,则是流式计算和批处理。 Spark 目前的组件已经涵盖了大部分你需要的东西。加上上面我提及的几点,用好了,你会觉得很多事情变得很简单了。

微信链接: 让Spark成为你的瑞士军刀

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯大数据的专栏

一文教你看懂大数据的技术生态圈 Hadoop,hive,spark

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗...

29850
来自专栏杨建荣的学习笔记

浅谈Hadoop (r4笔记第81天)

大数据的概念炒了好多年了,很显然这项技术经受住了时间的考验,不是有些人想的那样华而不实,多年来总是伴随着Hadoop的身影越发壮大。 这些年来数据的增长量真是发...

37160
来自专栏云计算D1net

为什么不改进MapReduce,而要取代它?

MapReduce的高延迟已经成为Hadoop发展的瓶颈,为当前的MapReduce寻找性能更高的替代品已成为Hadoop社区的一个共识。 MapReduce ...

42960
来自专栏灯塔大数据

干货|大数据主流工具,你知道几个?

业内有这样一种说法,SQL虽然在大数据分析领域久经考验,但是无奈长江后浪推前浪,和炙手可热的Hadoop相比,SQL已经过时了。这个说法有点言过其实,现在很多...

35360
来自专栏挖掘大数据

Hadoop的正确打开方式

关于 Hadoop 所谓的消亡,以及它跌落神坛的报道数不胜数。有很多人放马后炮说,Hadoop 从一开始就没有意义。还有人说“Hadoop 对于小型,临时的工作...

24090
来自专栏ATYUN订阅号

Cloudera宣布更新一系列机器学习产品,为数据团队提速

软件公司Cloudera今天在Strata Data伦敦会议上宣布了一系列机器学习产品更新:Cloudera Data Science Workbench 1....

13230
来自专栏Albert陈凯

《Hadoop大数据技术体系:原理、内幕与项目实践》课程体系

《Hadoop大数据技术体系:原理、内幕与项目实践》课程体系 课程特色: 本课程以 “互联网日志分析系统”这一大数据应用案例为主线,依次介绍相关的大数据技...

43350
来自专栏华章科技

教你读懂大数据的技术生态圈

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所需要的各种工具:锅碗瓢盆...

10630
来自专栏大数据技术学习

常用的大数据技术有哪些?hadoop学习总结

大数据技术为决策提供依据,在政府、企业、科研项目等决策中扮演着重要的角色,在社会治理和企业管理中起到了不容忽视的作用,很多国家,如中国、美国以及欧盟等都已将大数...

27120
来自专栏hadoop学习

大数据hadoop入门之hadoop家族详解

大数据这个词也许几年前你听着还会觉得陌生,但我相信你现在听到hadoop这个词的时候你应该都会觉得“熟悉”!越来越发现身边从事hadoop开发或者是正在学习ha...

16620

扫码关注云+社区

领取腾讯云代金券