前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一份超详细的 Spark 入门介绍

一份超详细的 Spark 入门介绍

作者头像
大数据技术架构
发布2019-08-16 15:43:44
5420
发布2019-08-16 15:43:44
举报

Apache Spark 是 UC Berkeley AMP Lab 开源的类 Hadoop MapReduce 的通用并行框架,是专为大规模数据处理而设计的快速通用的计算引擎。

Spark 是目前最流行的批流统一的大数据处理平台。Spark 自 2014 年发布 1.2 版本以来,已经成为了大数据领域不可或缺的计算组件,近几年发展迅速,社区非常活跃。Spark 已经形成了一套自己的生态圈,主要包括 Spark SQL 批处理/交互式查询,Spark Streaming 流式计算,GraphX 和 MLlib 提供常用的图计算和机器学习算法。

截至目前,Spark 最新发布版本为 2.4.3。

本文来自近期的一次 Spark 内部分享,内容主要包括 Spark RDD 的重点介绍, 以及 Spark 核心模块 DAGScheduler、TaskScheduler、BlockManager 等讲解,内容充实。如下

  • Spark简介及总体流程
  • Spark核心模块的实现
  • Spark应用库
  • Spark与Hadoop的区别与联系
  • Spark应用

关注本微信公众号并回复 0705 即可获取完整 PPT。内容:

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-07-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据技术架构 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档