spark入门(2.0.1版本):概述,下载,编译,运行环境及实例运行

问题导读 1.spark下载方式有哪些? 2.spark可以运行在哪些系统? 3.spark支持哪些语言? 4.如何运行spark各种语言版本例子? 概述 spark是一个快速通用的计算系统集群。它提供Java高级APIs,Scala,Python和R和一个支持通用执行graphs优化引擎。他还支持一组丰富的高级工具包括spark sql和结构化数据处理,mllib机器学习, GraphX图像处理和Spark Streaming. 下载 下载链接:http://spark.apache.org/downloads.html 当前最新版本2.0.1 1.通过maven下载 spark托管在maven中央库,可以通过下载依赖下载

[Bash shell] 纯文本查看 复制代码

?

groupId: org.apache.spark
artifactId: spark-core_2.11
version: 2.0.1

2.通过git下载

[Bash shell] 纯文本查看 复制代码

?

# Master development branch
git clone git://github.com/apache/spark.git
 
# 2.0 maintenance branch with stability fixes on top of Spark 2.0.1
git clone git://github.com/apache/spark.git -b branch-2.0

3.直接下载安装包 spark-2.0.1-bin-hadoop2.7.tgz 网盘下载: https://yunpan.cn/cvmIFgVAajIw4 访问密码 7943 编译 如果你想编译源码,可以访问http://spark.apache.org/docs/latest/building-spark.html spark运行系统 spark运行在window和类UNIX系统(比如Linux, Mac OS),在一台机器上运行是很容易的。前提是必须按照Java,并且配置path或则JAVA_HOME spark运行语言API版本要求 Spark运行在 Java 7+, Python 2.6+/3.4+ 和R 3.1+. 比如 Scala API, Spark 2.0.1使用 Scala 2.11.你需要使用兼容Scala version (2.11.x). 运行例子和shell spark有附带的几个例子。在目录 examples/src/main包括Scala, Java, Python 和R 例子。运行Java 或则Scala例子程序, 使用bin/run-example <class> [params]在顶级目录.例如:

[Bash shell] 纯文本查看 复制代码

?

./bin/run-example SparkPi 10

你可以运行spark通过 Scala shell,这是一个很好的方法学习框架

[Bash shell] 纯文本查看 复制代码

?

./bin/spark-shell --master local[2]

--master选项指定分布式集群的 master URL 或则本地运行一个线程,或则local[N] 运行本地几个线程。你可以开始使用local测试。所有选项列表,可以使用 --help 选项. spark也提供了Python API,使用Python脚本运行spark,使用 bin/pyspark:

[Bash shell] 纯文本查看 复制代码

?

./bin/pyspark --master local[2]

应用程序也提供了Python例子,例如

[Bash shell] 纯文本查看 复制代码

?

./bin/spark-submit examples/src/main/python/pi.py 10

自从1.4(仅包括DataFrames APIs),spark也提供了R例子。使用R脚本运行spark,使用bin/sparkR:

[Bash shell] 纯文本查看 复制代码

?

./bin/sparkR --master local[2]

应用程序也提供了R例子,例如

[Bash shell] 纯文本查看 复制代码

?

./bin/spark-submit examples/src/main/r/dataframe.R

原文发布于微信公众号 - about云(wwwaboutyuncom)

原文发表时间:2016-10-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Hadoop实操

如何修改CDSW会话的时区

无论我们的CDSW服务器上设置的为什么时区,CDSW中启动的会话默认时区为UTC,与我们的时区不一致影响使用。本篇文章Fayson主要介绍如何为CDSW的会话设...

16330
来自专栏Linyb极客之路

网络编程之抓包工具Fiddler入门

1)要使用Fiddler进行抓包,首先需要确保Capture Traffic是开启的(安装后是默认开启的),勾选File->Capture Traffic,也可...

26730
来自专栏落花落雨不落叶

MAC终端命令行下用sublime、vscode、atom打开文件或目录

415100
来自专栏Django中文社区

注册

用户注册就是创建用户对象,将用户的个人信息保存到数据库里。回顾一下 Django 的 MVT 经典开发流程,对用户注册功能来说,首先创建用户模型(M),这一步我...

53150
来自专栏ShaoYL

iOS 获取真机上系统动态库文件

366130
来自专栏cnblogs

vue组件如何被其他项目引用

自己写的vue组件怎么才能让其他人引用呢,或者是共用组件如何让其他项目引用。本文就粗细的介绍下,如有疑问欢迎共同讨论。在这里你能了解下如下知识点: 1. 如何发...

29550
来自专栏魏艾斯博客www.vpsss.net

The uploaded file exceeds the upload_max_filesize directive in php.ini 解决办法

74910
来自专栏岑玉海

hadoop的调试

  折腾hadoop的调试很久了,一直都没折腾对,查过很多资料,但是都没试出来,最终在不断地尝试当中调试出来了,所以想把这个过程记录下来,和大家分享一下。   ...

34940
来自专栏ShaoYL

iOS 获取真机上系统动态库文件

28750
来自专栏圣杰的专栏

ABP入门系列(1)——通过模板创建MAP版本项目

一、从官网创建模板项目 进入官网下载模板项目 依次按下图选择 ? 3.输入验证码开始下载 ? 4.下载提示: ? 二、启动项目 使用VS2015打开项目,还...

30970

扫码关注云+社区

领取腾讯云代金券