前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Spark官方文档翻译(一)~Overview

Spark官方文档翻译(一)~Overview

作者头像
大数据流动
发布2019-08-08 11:41:22
1.2K0
发布2019-08-08 11:41:22
举报
文章被收录于专栏:实时计算实时计算

Spark官方文档翻译,有问题请及时指正,谢谢。

Overview页

http://spark.apache.org/docs/latest/index.html

Spark概述

Apache Spark 是一个快速的,分布式集群计算系统.它提供了高等级的针对 Java, Scala, Python and R的API接口, 他还是一个优秀的图处理引擎. 它还支持一套高级的工具集: Spark SQL,Sql和结构化数据处理;

MLlib ,机器学习; GraphX ,图处理; 还有 Spark Streaming.

下载

可以去网站下载页(http://spark.apache.org/downloads.html)下载。文档的版本是2.3.1.Spark 使用了Hadoop的客户端库来访问HDFS和YARN。下载会预先打包一个最新的Hadoop版本。用户可以下载Hadoop包然后通过Spark的环境变量使用Hadoop的各种版本。Scala和Java的用户可以用Maven集成。以后Python的用户可以用Pypi安装。

想自己编译去这页看看(http://spark.apache.org/docs/latest/building-spark.html)

Spark 可以运行在Windows 和 UNIX(比如Linux, Mac OS)系统。单机安装很简单,装java,配置JAVA_HOME环境变量。

Spark 运行在Java 8+, Python 2.7+/3.4+ ,R 3.1+.Scala 的API使用Scala 2.11。你需要使用Scala 的版本(2.11.x)来兼容。

Spark 2.2.0以后就不支持Java 7, Python 2.6和 Hadoop 2.6.5以前的版本了。

2.3.0以后就不支持Scala 2.10了。

运行例子和Shell

Spark 提供了几个简单的小程序。 Scala, Java, Python 、R的例子在examples/src/main文件夹下。运行java或scala简单程序,在高一级目录执行 bin/run-example <class> [params] (更相信的spark提交指令访问http://spark.apache.org/docs/latest/submitting-applications.html),比如:

代码语言:javascript
复制
./bin/run-example SparkPi 10


你也可以用Scala shell与spark交互,这样是学习框架最好的方式。
代码语言:javascript
复制
./bin/spark-shell --master local[2]
--master 这个设置可以查看http://spark.apache.org/docs/latest/submitting-applications.html#master-urls
local是一个线程  local[N]是多个线程  可以用local作为测试   获得全部设置用 --help


Spark也提供了python api   用python解释器与spark进行交互 bin/pyspark
代码语言:javascript
复制
./bin/pyspark --master local[2]

例子也有:
代码语言:javascript
复制
./bin/spark-submit examples/src/main/python/pi.py 10



1.4以后也提供了R api
代码语言:javascript
复制
./bin/sparkR --master local[2]
例子:./bin/spark-submit examples/src/main/r/dataframe.R
代码语言:javascript
复制
集群启动
Spark集群模式可以在这查看 http://spark.apache.org/docs/latest/cluster-overview.html
Spark 可以独立运行 ,也可以几个存在的管理者协作运行,现在提供了这几种部署方式:
代码语言:javascript
复制
可以查阅什么呢(官网菜单翻译)

Programming Guides:编程指南

代码语言:javascript
复制
代码语言:javascript
复制

API Docs:

代码语言:javascript
复制
代码语言:javascript
复制

Deployment Guides:部署指南

代码语言:javascript
复制
代码语言:javascript
复制

Other Documents:其他文档

代码语言:javascript
复制
代码语言:javascript
复制

External Resources:外部资源

代码语言:javascript
复制
代码语言:javascript
复制
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018-08-09 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Overview页
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档