Spark踩坑记:初试

Spark简介

整体认识

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。

Spark在整个大数据系统中处于中间偏上层的地位,如下图,对hadoop起到了补充作用:

基本概念

Fork/Join框架是Java7提供了的一个用于并行执行任务的框架, 是一个把大任务分割成若干个小任务,最终汇总每个小任务结果后得到大任务结果的框架。

  • 第一步分割任务。首先我们需要有一个fork类来把大任务分割成子任务,有可能子任务还是很大,所以还需要不停的分割,直到分割出的子任务足够小。
  • 第二步执行任务并合并结果。分割的子任务分别放在双端队列里,然后几个启动线程分别从双端队列里获取任务执行。子任务执行完的结果都统一放在一个队列里,启动一个线程从队列里拿数据,然后合并这些数据。具体可参考Fork/Join

核心概念

  • RDD(Resilient Distributed Dataset) 弹性分布数据集介绍

弹性分布式数据集(基于Matei的研究论文)或RDD是Spark框架中的核心概念。可以将RDD视作数据库中的一张表。其中可以保存任何类型的数据。Spark将数据存储在不同分区上的RDD之中。

RDD可以帮助重新安排计算并优化数据处理过程。

此外,它还具有容错性,因为RDD知道如何重新创建和重新计算数据集。

RDD是不可变的。你可以用变换(Transformation)修改RDD,但是这个变换所返回的是一个全新的RDD,而原有的RDD仍然保持不变。

RDD支持两种类型的操作:

  • 变换(Transformation)
  • 行动(Action)

变换:变换的返回值是一个新的RDD集合,而不是单个值。调用一个变换方法,不会有任何求值计算,它只获取一个RDD作为参数,然后返回一个新的RDD。

变换函数包括:map,filter,flatMap,groupByKey,reduceByKey,aggregateByKey,pipe和coalesce。

行动:行动操作计算并返回一个新的值。当在一个RDD对象上调用行动函数时,会在这一时刻计算全部的数据处理查询并返回结果值。

行动操作包括:reduce,collect,count,first,take,countByKey以及foreach。

* 共享变量(Shared varialbes)

  • 广播变量(Broadcast variables)
  • 累加器(Accumulators)

* Master/Worker/Driver/Executor

  • Master:

1) 接受Worker的注册请求,统筹记录所有Worker的CPU、Memory等资源,并跟踪Worker结点的活动状态;

2)接受Driver中App的注册请求( 这个请求由 Driver 端的 Client 发出 ),为App在Worker上分配CPU、Memory资源,生成后台Executor进程;之后跟踪Executor和App的活动状态。

  • Worker:负责接收Master的指示,为App创建Executor进程。Worker在Master和Executor之间起着桥梁作用,实际不会参与计算工作。
  • Driver:负责用户侧逻辑处理。
  • Executor:负责计算,接受并执行由App划分的Task任务,并将结果缓存在本地内存或磁盘。

Spark部署

关于Spark的部署网上相关资料很多,这里进行归纳整理

部署环境

  • Ubuntu 14.04LTS
  • Hadoop:2.7.0
  • Java JDK 1.8
  • Spark 1.6.1
  • Scala 2.11.8

Hadoop安装

由于Spark会利用HDFS和YARN,所以需要提前配置Hadoop,配置教程可以参考:

Setting up a Apache Hadoop 2.7 single node on Ubuntu 14.04

Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04

Spark安装

在安装好Hadoop的基础上,搭建Spark,配置教程参考:

Spark快速入门指南 – Spark安装与基础使用

scala安装

Scala作为编写Spark的源生语言,更新速度和支持情况肯定是最好的,而另一方面Scala本身语言中对于面向对象和函数式编程两种思想的糅合,使得该语言具有很多炫酷的语法糖,所以在使用Spark的过程中我采用了Scala语言进行开发。

  • Scala最终编译成字节码需要运行在JVM中,所以需要依托于jdk,需要部署jdk
  • Eclipse作为一款开发Java的IDE神器,在Scala中当然也可以使用,有两种方式:
  • Eclipse->Help->Install New Software安装Scala Plugins
  • 下载官网已经提供的集成好的Scala IDE
  • 基于以上两步已经可以进行Scala开发,需要用到Scala自带的SBT编译的同学可以装下Scala官网下载地址,本人一直使用Maven进行包管理就延续Maven的使用。

简单示例:WordCount(Spark Scala)

  • 开发IDE:Eclipse Scala
  • 包管理:Maven
  • 开发语言:Scala

创建Maven项目

1) 跳过archetype项目模板的选择

2)下载模板pom.xml

3) 对maven项目添加Scala属性: Right click on project -> configure - > Add Scala Nature.

4) 调整下Scala编译器的版本,与Spark版本对应: Right click on project- > Go to properties -> Scala compiler -> update Scala installation version to 2.10.5

5)从Build Path中移除Scala Library(由于在Maven中添加了Spark Core的依赖项,而Spark是依赖于Scala的,Scala的jar包已经存在于Maven Dependency中): Right click on the project -> Build path -> Configure build path and remove Scala Library Container.

6) 添加package包com.spark.sample

7) 创建Object WordCount和SimpleCount,用来作为Spark的两个简单示例

Spark Sample

源码

原理如下图:

参考文献:

  1. http://spark.apache.org/docs/latest/programming-guide.html#resilient-distributed-datasets-rdds
  2. http://www.infoq.com/cn/articles/apache-spark-introduction?utm_source=infoq_en&utm_medium=link_on_en_item&utm_campaign=item_in_other_langs
  3. http://www.infoq.com/cn/articles/apache-spark-sql
  4. http://www.infoq.com/cn/articles/apache-spark-streaming
  5. http://www.devinline.com/2016/01/apache-spark-setup-in-eclipse-scala-ide.html
  6. https://databricks.gitbooks.io/databricks-spark-reference-applications/content/
  7. http://wuchong.me/blog/2015/04/06/spark-on-hbase-new-api/
  8. http://colobu.com/2015/01/05/kafka-spark-streaming-integration-summary/
  9. http://www.devinline.com/2016/01/apache-spark-setup-in-eclipse-scala-ide.html

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏胡杰雄的专栏

编写可维护代码之“中间件模式”

当我们在编写业务代码时候,我们无法避免有些业务逻辑复杂而导致业务代码写得又长又乱,如果再加上时间紧凑情况下写出来的代码估计会更让人抓狂。以至于我们一直在寻求更好...

1K0
来自专栏韩伟的专栏

如何设计一个 RPC 系统

RPC 是一种方便的网络通信编程模型,由于和编程语言的高度结合,大大减少了处理网络数据的复杂度,让代码可读性也有可观的提高。本文就是通过分析几种流行的 RPC ...

10.2K8
来自专栏北京马哥教育

Linux中epoll IO多路复用机制

epoll简介 epoll 是Linux内核中的一种可扩展IO事件处理机制,最早在 Linux 2.5.44内核中引入,可被用于代替POSIX select 和...

3839
来自专栏Albert陈凯

Hive迁移Saprk SQL的坑和改进办法

Qcon 全球软件开发者大会2016北京站 演讲主题:Spark在360的大规模实践与经验分享 李远策 360-Spark集群概况 ? 360-Spark集...

4157
来自专栏xingoo, 一个梦想做发明家的程序员

Spark源码分析 之 Driver和Excutor是怎么跑起来的?(2.2.0版本)

今天抽空回顾了一下Spark相关的源码,本来想要了解一下Block的管理机制,但是看着看着就回到了SparkContext的创建与使用。正好之前没有正式的整理...

1937
来自专栏MongoDB中文社区

MongoDB事务模型分析

在了解写操作的事务性之前,需要先了解mongo层的每一个table,是如何与wiredtiger层的table(btree)对应的。mongo层一个最简单的ta...

702
来自专栏抠抠空间

python中的Redis键空间通知(过期回调)

Redis是一个内存数据结构存储库,用于缓存,高速数据摄取,处理消息队列,分布式锁定等等。

1115
来自专栏最高权限比特流

数据库连接池技术详解

1663
来自专栏王亚昌的专栏

UNIX编程艺术之“模块性”

     本章主要讨论模块划分、接口设计,提出了几个很重要的概念,包括紧凑性、正交性、自顶向下和自底向上的设计、SPOT原则、分层、插件化。下面就这几个概念,谈...

782
来自专栏大数据人工智能

ZStack--工作流引擎

在IaaS软件中的任务通常有很长的执行路径,一个错误可能发生在任意一个给定的步骤。为了保持系统的完整性,一个IaaS软件必须提供一套机制用于回滚先前的操作步骤。...

4154

扫码关注云+社区