在过去的几天里,我在Kubernetes上体验了Spark (2.3.0)。
我已经在linux和windows机器上测试了示例SparkPi,发现linux spark-submit运行正常,并且给出了正确的结果(剧透: Pi大约是3.1402157010785055)
在windows上,spark因类路径问题而失败(Could not find or load main class org.apache.spark.examples.SparkPi)
我注意到当从linux运行spark-submit时,类路径是这样的:
-cp ':/opt/spark/jars/*:/var/
我正在尝试在我配置的Linux上运行我的第一个PySpark脚本。当我运行以下命令时,我得到的错误消息是KeyError: SPARK_HOME:
from os import environ
from pyspark import SparkContext
我通过运行export SPARK_HOME=~/spark-2.4.3-bin-hadoop2.7暂时消除了这个错误。然后我遇到了一个新的错误error=2, No such file or directory。搜索将我带到了这个页面:。然后我运行了export PYSPARK_PYTHON=~/python3*。这让我回到了经历Key
我在机器上使用Python2.7.6
$ python --version
Python 2.7.6
我的机器上有Spark1.1.0依赖于Python2.7.6。如果我执行:
user@user:~/bin/spark-1.1.0$ ./bin/pyspark
我得到了
Python 2.7.6 (default, Mar 22 2014, 22:59:56)
[GCC 4.8.2] on linux2
Type "help", "copyright", "credits" or "license" for more info
我已经在集群模式下安装了hadoop,现在我已经安装了Spark。我想用电火花,这是我的.bashrc
# User specific aliases and functions
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:/opt/hadoop/spark/bin:/opt/hadoop/spark/sbin
export JAVA_HOME=/usr/java/jdk1.8.0_202-amd64
#Estas variables las metemos con sp
我无法在pyspark代码中使用Kudu模块,而则接受它。
Scala火花代码:
[root@sandbox-hdp ~]# spark-shell --jars /root/jars/org.apache.kudu_kudu-spark_2.10-1.5.0.jar
SPARK_MAJOR_VERSION is set to 2, using Spark2
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setL
长话短说:我有一个应用程序,它使用Spark和机器学习,ScalaFX作为前端。我想要创建一个巨大的“fat”jar,这样它就可以在任何有JVM.的机器上运行。
我熟悉组装sbt插件,我已经研究了几个小时的方法来组装一个罐子。下面是我的build.sbt:
lazy val root = (project in file(".")).
settings(
scalaVersion := "2.11.8",
mainClass in assembly := Some("me.projects.MyProject.Main"),
as