前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >《Spark的使用》--- 大数据系列

《Spark的使用》--- 大数据系列

作者头像
用户3467126
发布2019-07-03 18:06:49
8470
发布2019-07-03 18:06:49
举报
文章被收录于专栏:爱编码
一、Spark是什么?

引用官网的简介

Apache Spark is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs. It also supports a rich set of higher-level tools including Spark SQL for SQL and structured data processing, MLlib for machine learning, GraphX for graph processing, and Spark Streaming.

二、Spark的架构

Spark架构图

1.Spark Core 包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的

2.Spark SQL 提供通过Apache Hive的SQL变体Hive查询语言(HiveQL)与Spark进行交互的API。每个数据库表被当做一个RDD,Spark SQL查询被转换为Spark操作。

3. Spark Streaming 对实时数据流进行处理和控制。Spark Streaming允许程序能够像普通RDD一样处理实时数据。

4.MLlib 一个常用机器学习算法库,算法被实现为对RDD的Spark操作。这个库包含可扩展的学习算法,比如分类、回归等需要对大量数据集进行迭代的操作。

5.GraphX 控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDD API,包含控制图、创建子图、访问路径上所有顶点的操作。

如果您还是一脸懵逼的话,可以参考下面的链接介绍的spark原理

代码语言:javascript
复制
https://blog.csdn.net/swing2008/article/details/60869183
三、Spark的安装

1、下载 直接到官网下,选择源码下载

代码语言:javascript
复制
wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.0/spark-2.3.0.tgz

2、按照官网要求安装maven3.3.9以上和jdk1.8以上版本 指定maven的本地jar库

代码语言:javascript
复制
<localRepository>/root/data/maven/repo</localRepository>

3、安装Scala2.11.8 配置Scala到环境变量中

代码语言:javascript
复制
wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz

4、解压后,进入spark-2.3.0目录 修改pom.xml 4.1、修改插件版本为3.3.2

代码语言:javascript
复制
<dependency>
    <groupId>net.alchim31.maven</groupId>
    <artifactId>scala-maven-plugin</artifactId>
    <version>3.3.2</version>
</dependency>

4.2、添加cdh的资源库

代码语言:javascript
复制
<repository>
  <id>cloudera</id>
  <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>

4.3、编译

代码语言:javascript
复制
./dev/change-scala-version.sh 2.11  ./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Phadoop-2.6 -Phive -Phive-thriftserver -Pyarn

如果build成功就行了(这是一个漫长的过程,期间会出现很多错误,您就要靠搜索引擎了,或者看官网的教程)

四、Spark启动

建议添加spark到环境变量中 启动命令 local模式启动:

代码语言:javascript
复制
spark-shell --master local[2]
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-08-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 爱编码 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、Spark是什么?
  • 二、Spark的架构
  • 三、Spark的安装
  • 四、Spark启动
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档