spark 用什么linux

Apache Spark 是一个开源的大数据处理框架，可以在多种 Linux 发行版上运行，包括但不限于以下几种常见的 Linux 发行版：

Spark 在 Linux 上的优势

高性能：Spark 使用内存计算和基于任务的调度机制，能够在处理大规模数据时提供快速的计算速度。
可扩展性：Spark 可以在集群中分布式运行，可以轻松地扩展到数千台机器，处理 PB 级别的数据。
容错性：Spark 能够自动将计算过程中的数据进行备份，以应对节点故障，从而保证计算的可靠性。
多语言支持：Spark 提供了 Java、Scala、Python 和 R 等多种编程语言的 API，方便开发人员使用自己熟悉的语言进行开发。

Spark 在 Linux 上的类型

Local 模式：适用于开发和测试，不需要其他节点资源。
Standalone 模式：Spark 自带的分布式资源平台，适用于小规模集群部署。
YARN 模式：允许 Spark 运行在 Hadoop 的 YARN 资源管理器上，适用于大规模生产环境。
Mesos 模式：允许 Spark 运行在 Mesos 集群管理器上，适用于需要灵活资源管理的场景。
Kubernetes 模式：允许 Spark 运行在 Kubernetes 集群上，适用于需要容器化部署的场景。

通过选择合适的 Linux 发行版和配置 Spark，可以充分发挥 Spark 在大数据处理和分析方面的潜力。

页面内容是否对你有帮助？

有帮助

没帮助

为文本找到多个源

、、、

使用spark-submit运行时的错误消息如下所示： at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkSubmit.text.TextDataSourceV2 org.apache.spark.sql.exec

浏览 14提问于2021-03-16得票数 1

回答已采纳

3回答

尝试运行Spark时出错

、、

我是spark的新手。我已经下载了为hadoop版本2.6预建的spark版本1.3.1。我解压并导航到该文件夹，然后键入以下命令：./bin/spark-shell，对于该命令，我得到一个错误，指出没有找到spark-shell命令。我使用git bash在windows上做了同样的事情，我得到了一个错误消息：在尝试运行spark之前，我还需要做什么吗？

浏览 1提问于2015-05-09得票数 4

回答已采纳

2回答

访问.ivy2/cache/org.apache.spark/spark-core_2.11/jars/spark-core_2.11-1.4.0.jar时，加载<root>时出错

、、

在Spark中使用示例部署应用程序时，在sbt中执行“编译”时，我一直收到下面的错误消息。[info] Updating {file:/home/sankalp/Desktop/spark/SVMexample/}svmexample...[info] Compiling 1 Scala source to /home/sankalp/Desktop/spark/SVMexample/target/scala-2

浏览 1提问于2015-08-16得票数 0

3回答

火花:如何将员工专用的SPARK_HOME设置为独立模式

、

但是，当我尝试用start-all.sh启动集群时，遇到了一个问题:即，Spark安装在不同工作人员的不同目录中。但是，尽管每个工作人员的路径不同，但主服务器使用主服务器对$SPARK_HOME的定义对每个工作人员调用$SPARK_HOME。编辑#1 Hmm，找到了，强烈建议这是当前的实现--假设所有员工的$SPARK_HOME都是相同的。

浏览 0提问于2014-06-24得票数 2

2回答

有没有使用API提交spark作业的方法

、、、、

我可以使用控制台在linux服务器上提交spark作业。但是在linux服务器上有没有什么API或者框架可以用来提交spark作业呢？

浏览 0提问于2017-01-04得票数 0

2回答

在为“pyspark.worker”查找模块规范时出错(ModuleNotFoundError:没有名为“pyspark”的模块)

、、、

from pyspark.sql import SparkSessionimport pyspark.sql.functions as func .builder\ .config("spark.master", "localfloat('Nan')),(1,14),(1,10),(2,22),(2,

浏览 4提问于2019-09-23得票数 0

回答已采纳

1回答

如何在Spark程序中将Hive用户设置为与Spark用户不同的用户？

、、、、

我对Linux、Hive和Spark之间的用户帐户有一个非常有趣、棘手的问题……import org.apache.sparkhc.SetUser("<hiveuserid>&q

浏览 8提问于2015-06-09得票数 1

3回答

将命令行参数传递给Spark-shell

我有一个用scala写的spark作业。我使用来运行作业。我需要向作业传递一个命令行参数。现在，我通过一个linux任务调用该脚本，我这样做了并使用环境变量选项通过以下方式访问值：有没有更好的方法来处理Spark-shell中的命令行参数？

浏览 1提问于2015-04-29得票数 18

回答已采纳

1回答

从dockerfile生成Azure机器学习环境(tensorflow)失败

、、、、

/horovod/spark copyinghorovod/spark/__init__.py -> build/lib.linux-x86_64-3.7/horovod/spark

浏览 32提问于2021-10-12得票数 1

1回答

用ExitCode:1和stderr说“找不到主类”的Spark作业失败

、、

/bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --num-executors 3 -\examples\target\spark-examples_2.10-1.4.0.jar 10我们的HDFS和纱线工作良好。我们使用Hadoop2.7.0和Spark1.4.1。-> PRIVATE,PRIVATE 2015-08-21 11:07:22,060 DEBUG [ma

浏览 0提问于2015-08-21得票数 1

回答已采纳

1回答

从windows上的星星之火到HDFS存储文件

、、、

我已经在本地windows机器上的linux中安装了Hadoop/YARN。在同一台windows机器(不在VM中)上，我已经安装了Spark。在windows上运行spark时，我可以读取HDFS中存储的文件(在linux中)。我想，这是因为Windows和linux用户是不同的，windows用户没有在Linux中编写文件的权限。使用spark将文件从windows存储到HDFS (linux )的正确方法是什么？

浏览 1提问于2018-09-16得票数 0

回答已采纳

2回答

Spark执行错误:spark-提交

我正在尝试使用下面的命令从spark-shell执行一个程序 spark-submit --class com.aadharpoc.spark.UIDStats \ --packages com.databricks:spark-csv_2.10:1.5.0 \ --master yarn-client \ /home/cloudera/Desktop/aadhar_jar/Untitled.jar \ /homespark-submit --c

浏览 43提问于2017-07-14得票数 1

回答已采纳

1回答

(Apache光束)无法增加执行器内存-尽管使用了多个设置，但内存仍固定在1024M

、、、

我在Spark上运行一个apache beam工作负载。我用32 of的内存初始化了工作进程(从进程使用-c 2 -m 32G运行)。此外，我看到所有的java进程都是用-Xmx 1024m启动的。这意味着spark-submit不会将其executor设置传播给executor。PROCESS \ --environment_config='{"command": "$HOME/beam/sdks/python/container&#

浏览 32提问于2020-10-23得票数 2

1回答

Apache火花-shell错误导入罐

、、

正如所解释的，我在Windows上安装了一个本地spark 1.5.2 (Hadoop2.4)。我在"E:/installprogram/spark-1.5.2-bin-hadoop2.4/lib/jmatrw-v0.1-beta.jar“中复制了这个库编辑星星之火-env.sh并添加SPARK_CLASSPATH="E:&#x

浏览 5提问于2015-12-29得票数 1

回答已采纳

3回答

如何使用java以编程方式检索yarn的日志

、、、

我实际上使用以下命令在linux shell上检索我的spark应用程序的日志：有没有办法用java以编程方式检索它？

浏览 15提问于2017-04-25得票数 3

1回答

如何通过Linux使用Databricks Cluster运行spark sql查询？

、、、

我想从Databricks Cluster上的Linux Machine执行spark sql命令。有什么方法可以做到这一点吗？我在一个.sql文件中设置了一组spark sql命令，并希望使用Linux Machine中的Databricks集群来执行该文件。我正在寻找类似于SQLPLUS的东西，在那里我们与DB建立连接并执行sql，以类似的方式，我们是否有任何实用程序/解决方案来在Databricks集群上执行spark sql。

浏览 30提问于2021-08-10得票数 1

1回答

高寒linux坞上的apache火花启动错误

、、

我是spark.Requesting的新手，来自我们信任的社区成员。spark/logs/spark--org.apache.spark.deploy.master.Master-1-e6b8f9219a40.out failed to launch: nice -n0 /opt/spark/bin/spark-class org.apache.spark.deploy.master.Master --host

浏览 2提问于2017-06-15得票数 5

回答已采纳

1回答