spark linux jar_在Spark中安装.jar_找不到spark独立集群jar - 腾讯云开发者社区

、

在过去的几天里，我在Kubernetes上体验了Spark (2.3.0)。我已经在linux和windows机器上测试了示例SparkPi，发现linux spark-submit运行正常，并且给出了正确的结果(剧透: Pi大约是3.1402157010785055) 在windows上，spark因类路径问题而失败(Could not find or load main class org.apache.spark.examples.SparkPi) 我注意到当从linux运行spark-submit时，类路径是这样的： -cp ':/opt/spark/jars/*:/var/

浏览 0提问于2018-04-09得票数 0

1回答

Eclipse露娜scala IDE中对SQLContext.class的错误符号引用

、、、

我已经在Linux机器上安装了eclipse for scala IDE。在构建时，我得到以下错误错误的符号引用。SQLContext.class中的签名引用org.apache.spark.sql包中不可用的术语类型。我从stackoverflow中的其他类似问题中了解到，我缺少一个依赖项。然而，我不确定我错过了什么。我在构建路径中有以下jars spark-core_2.10-1.5.2.jar spark-sql_2.10-1.5.2.jar spark-graphx_2.10-1.5.2.jar spark-hive_2.10-1.5.2.jar log4j-1.2.17.jar

浏览 5提问于2015-12-11得票数 0

1回答

Spark-Shell不能使用Netlib-Java

、、

我尝试在一个简单的示例中链接到本地BLAS库，以测试与“常规”实现的性能差异。我尽职尽责地遵循了官方netlib-java GitHub上发布的说明，但仍然得到一个类似于的错误。我使用Hadoop2.7运行预编译的Spark2.3；我尝试从源代码构建Spark，并选择显式启用netlib-java (如中所述，但无济于事。让我感到困惑的具体错误消息如下： spark-shell --packages com.github.fommil.netlib:all:1.1.2 Ivy Default Cache set to: /home/user/.ivy2/cache The jar

浏览 5提问于2018-06-13得票数 2

1回答

在spark-shell中可访问正确的配置单元转移存储，但不能在spark- file.jar中访问

、、、

当我跑的时候 spark-shell 在linux shell中，然后尝试： spark.sql("show databases").show() 我得到了正确的数据库列表(因为我连接到了正确的metastore)。现在，当我使用以下代码提交我的jar时：通过以下方式提交： spark-submit file.jar Jar代码- SparkConf conf = new SparkConf().setAppName("test"); SparkSession spark = SparkSession .builder()

浏览 1提问于2019-04-02得票数 0

2回答

无法找到火花罐: Java ClassNotFoundException

、、

我正在Ubuntu服务器上安装Spark，我已经执行了所有步骤，它甚至说最终构建成功，但是当我运行./bin/spark-shell时，它给了我这个错误。这可能意味着它无法定位具有./spark-1.4.1/launcher/src/main/java/org/apache/spark/launcher位置的.jar文件，后者拥有所有的java文件，如Main.java。此外，在$CLASSPATH和$SPARK_CLASSPATH中什么也没有。我以前在Linux和Mac中安装了Spark，没有遇到这个问题。有人能告诉我这里有什么问题吗？可能我需要指定类路径或一些环境变量来指向包含所

浏览 1提问于2015-08-27得票数 3

回答已采纳

0回答

如何在YARN和HDP上运行Spark 2.2？

、、

我正在尝试用HDP 2.6运行Spark 2.2。我在安巴里阻止Spark2，然后我运行： /spark/bin/spark-shell --jars /home/ed/.ivy2/jars/stanford-corenlp-3.6.0-models.jar,/home/ed/.ivy2/jars/jersey-bundle-1.19.1.jar --packages databricks:spark-corenlp:0.2.0-s_2.11,edu.stanford.nlp:stanford-corenlp:3.6.0 \--master yarn --deploy-mode clie

浏览 4提问于2017-12-09得票数 0

回答已采纳

1回答

莫比乌斯:如何设置c#应用的CSharpBackendPortNumber来与Linux上的星火集群对话？

、

我有以下非常基本的代码，可以从连接到在linux虚拟机器上运行的spark集群的windows机器上运行： string sparkMaster = "spark://192.168.1.193:7077"; string hdfsURI = "hdfs://192.168.1.193:8020"; var sparkContext = new SparkContext(new SparkConf().SetAppName("MobiusWordCount").SetMaster(sparkMas

浏览 7提问于2016-05-24得票数 0

1回答

SparkContext初始化错误: Scala

、

我使用以下运行命令运行spark： spark-submit --class "Pagecounts" --master local[*] target/scala-2.11/Pagecounts-assembly-0.1-SNAPSHOT.jar <some_file_name> 但是我得到了以下初始化错误： Using Spark's default log4j profile: org/apache/spark/log4j- defaults.properties

浏览 1提问于2016-10-01得票数 0

2回答

如何在linux中实现星火提交

、

我正试图在Linux上构建一个使用Spark的软件包，以下说明如下：命令来构建可执行的jar：在cmd提示符中导航到项目的基本位置。执行sbt package 可执行的jar将在以下路径中创建：<project path>\target\scala-2.11 我发现了一个错误： bash: sbt: command not found 我能够在windows机器上构建jar，但无法在Linux上创建项目包。

浏览 5提问于2017-01-31得票数 0

1回答

Cloudera Hadoop群集的Windows客户端

、

我正在尝试了解是否可以使用Windows客户端计算机来调试在Linux Cloudera集群上运行的作业。我目前使用的是Linux客户端，我想运行spark-submit test.jar之类的任务，它在集群上运行一个spark作业，并在windows客户端上复制这种行为。如果是的话，有没有关于如何做这件事的信息会非常感谢？

浏览 0提问于2016-05-19得票数 0

1回答

错误SparkContext:初始化SparkContext时出错。java.lang.RuntimeException: java.lang.NoSuchFieldException: DEFAULT_TINY_CACHE_SIZE

、、

我正试图运行一个火花作业，但得到的错误。 21/12/24 15:40:43 ERROR SparkContext: Error initializing SparkContext. java.lang.RuntimeException: java.lang.NoSuchFieldException: DEFAULT_TINY_CACHE_SIZE at org.apache.spark.network.util.NettyUtils.getPrivateStaticField(NettyUtils.java:131) at org.apache.spark.network.u

浏览 50提问于2021-12-24得票数 -1

1回答

如何在Kubernetes-火花中加载jar包(如JDBC )

、、、、

我正在遵循上的说明。我可以通过启动PySpark外壳来完成这个步骤。但是，我需要使用PySpark和JDBC连接到Postgres数据库。在尝试Kubernetes之前，我使用spark-defaults.conf文件让JDBC与Spark一起工作： spark.driver.extraClassPath /spark/postgresql-9.4.1209.jre7.jar spark.executor.extraClassPath /spark/postgresql-9.4.1209.jre7.jar 我还得先把司机下载到这个位置。我如何在库伯奈特斯身上实现同样的目标？我觉得我做不到 ku

浏览 2提问于2016-09-09得票数 0

回答已采纳

1回答

使用sbt程序集构建Scala代码，失败

、

我在Windows机器上使用SBT0.13.7和Scala2.11.4将我的代码编译成一个胖jar，这是我最终想在Linux机器上运行的。下面是我的build.sbt文件： import AssemblyKeys._ name := "Simple Project" version := "1.0" organization := "com.myorg" scalaVersion := "2.11.4" libraryDependencies ++= Seq( // Spark dependency "org.

浏览 6提问于2015-01-15得票数 4

回答已采纳

1回答

如何在Google平台上提交星火图形作业示例？

、、、

我在Google平台上创建了一个集群，有五个基于linux的虚拟机(VM)：一个主服务器和4个工作人员。我在主VM上运行./start-master.sh，在worker VM上运行./start-worker.sh [external-master-IP:7077]。现在，我想简单地运行一个图形示例作业，例如，使用./bin/spark-submit.运行一个已经在Spark中的PageRank算法我知道，我读过文件，上面写着要这样运行： ./bin/spark-submit \ --class <main-class> \ --master <master

浏览 6提问于2021-02-07得票数 1

回答已采纳

2回答

Apache Spark 2.3.1与蜂巢转移3.1.0

、、、、

我们将HDP集群升级到3.1.1.3.0.1.0-187，并发现：蜂巢有一个新的亚稳态位置星星之火看不到蜂巢数据库事实上，我们看到： org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database ... not found 你能帮我了解一下发生了什么以及如何解决这个问题吗？更新：配置： (spark.sql.warehouse.dir，/spark.sql.warehouse.dir/tablespace/external/hive/) (spark.admin.acls，) (sp

浏览 0提问于2018-10-26得票数 6

1回答

构建在Linux服务器上运行的jar

、、、、

我有一个Scala程序，我正在使用Intellij。我创建了这个程序的一个jar，并将它放在Linux服务器上。我还制作了一个shell脚本来执行程序。每当我运行shell脚本时，都会得到以下错误： java.net.URLClassLoader$1.run(URLClassLoader.java:359) at java.net.URLClassLoader$1.run(URLClassLoader.java:348) at java.security.AccessController.doPrivileged(Native Method) com.tac.cco.associations

浏览 6提问于2017-11-12得票数 0

1回答

如何修复SparkUI执行器，java.io.FileNotFoundException

、、、、

我已经使用Apache Spark部署了Spring引导服务器，一切都很稳定。但http://X.X.X.X:4040/executors/ SparkUI executors终结点引发java.io.FileNotFoundException，找不到/opt/x/x!/BOOT-INF/lib/spark-core_2.11-2.2.0.jar。我查过inner jar了。这个问题只发生在Linux上，on Windows它工作正常。 2019-04-23 07:01:24,038 WARN [org.spark_project.jetty.servlet.ServletHandler]

浏览 36提问于2019-04-23得票数 4

回答已采纳

1回答

当火花提交时出错，启动jupyter内核

、

执行的命令： sudo -E -u mlp-user /var/lib/pf-spark/bin/spark-submit --master yarn --deploy-mode cluster --py-files hdfs:///user/mlp-user/notebooks/mlsdk/mlsdk.zip --name ${KERNEL_ID:-ERROR__NO__KERNEL_ID} --conf spark.yarn.submit.waitAppCompletion=false --conf spark.hive.mapred.supports.subdirectories=tru

浏览 7提问于2022-01-23得票数 1

1回答

使用火花壳安装软件包图形框

、、、、

我正在尝试使用PySpark shell安装图形框架软件包： pyspark --packages graphframes:graphframes:0.8.1-spark3.0-s_2.12 但是，在终端中存在这样的错误： root@hpcc:~# pyspark --packages graphframes:graphframes:0.8.1-spark3.0-s_2.12 Python 3.6.9 (default, Jan 26 2021, 15:33:00) [GCC 8.4.0] on linux Type "help", "copyright",

浏览 4提问于2021-06-11得票数 5

回答已采纳

1回答

PySpark:读取gzipped文件时为空RDD

、、

我有一个脚本来分析BSON转储，但是它只适用于未压缩的文件。在读取gz bson文件时，我得到了一个空的RDD。 pyspark_location = 'lib/pymongo_spark.py' HDFS_HOME = 'hdfs://1.1.1.1/' INPUT_FILE = 'big_bson.gz' class BsonEncoder(JSONEncoder): def default(self, obj): if isinstance(obj, ObjectId): return s

浏览 2提问于2016-04-27得票数 0

2回答

火花2.3 - Minikube - Kubernetes - Windows SparkPi未找到

、、

我试图跟随，但我遇到了一个错误。特别是，当我跑步时： spark-submit.cmd --master k8s://https://192.168.1.40:8443 --deploy-mode cluster --name spark-pi --class org.apache.spark.examples.SparkPi --conf spark.executor.instances=1 --conf spark.kubernetes.container.image=spark:spark --conf spark.kubernetes.driver.pod.name=spark-pi

浏览 0提问于2018-03-17得票数 0

2回答

当使用oozie火花操作时，在一个节点上生成的火花驱动程序可以找到自定义的log4j配置文件，但在其他节点上却找不到。为什么？

、、、

使用oozie运行火花动作工作流有问题。如果驱动程序是在节点(172.12.0.27)上生成的，则日志配置是始终正确的。如果驱动程序在其他节点上生成(172.12.0.18,172.12.0.20)，则日志配置总是错误的。使用火花提交运行作业，没有上述问题，每个节点上产生的驱动程序工作正常. 我怎么才能追踪问题？有三个节点(172.12.0.27,172.12.0.18,172.12.0.20)。如果使用submit与自定义log4j配置文件，则任何节点上都没有问题. 火花-提交作品的权利. spark-submit --master yarn --deploy-mode cluster

浏览 1提问于2019-08-26得票数 0

1回答

星星之火1.4失踪的Kafka图书馆

、、、、

我正在尝试运行一个Python脚本，该脚本在Spark1.3.1中运行得很好。我已经下载了Spark1.4并尝试运行这个脚本，但是它一直在说星火流的卡夫卡库在类路径中找不到。尝试以下其中之一。将Kafka库及其依赖项作为$bin/submit-packages org.apache.sight:streaming:1.4.0. 从Maven Central 下载工件的JAR，Group = org.apache.spark，artifact =，Version = 1.4.0。然后，将jar包含在星火提交命令中，如 .spark=‘spark 1’>. 我在提

浏览 2提问于2015-07-08得票数 3

1回答

DSE火花-提交失败与SHUTDOWN_HOOK_PRIORITY，我没有hadoop2在cp

、

我正在尝试在本地mac env中运行以下java驱动程序pgm，而且我很确定我的类路径中没有hadoop2，并且不确定为什么它仍然在关闭钩子优先级错误时失败？任何洞察力都会得到gr8的帮助，我也可以毫无例外地运行火花放电作业。我在本地运行dse 484，下面是调用 $SPARKBINFOLDER/dse spark-submit --master local[2] --class com.sample.driver.SampleLoader SampleLoader.jar $@ 下面是我正在使用的代码片段 public class SampleLoader implements Ser

浏览 1提问于2016-02-20得票数 0

1回答

火花壳首次发射误差

我按照这些指示对于CentOS 7.2。当我发射火星雨时，一切看起来都很好： [idf@node1 ~]$ pyspark Python 2.7.11 |Anaconda 4.0.0 (64-bit)| (default, Dec 6 2015, 18:08:32) Type "copyright", "credits" or "license" for more information. IPython 4.1.2 -- An enhanced Interactive Python. ? -> Introduct

浏览 0提问于2016-04-01得票数 0

1回答

结构化流2.1.0卡夫卡驱动程序工作在纱线与-包，但有麻烦的独立集群模式

、

目前，我们正在测试结构化流媒体卡夫卡驱动程序。我们提交的纱线(2.7.3)与-包装'org.apache.spark:spark-sql-kafka-0-10_2.11:2.1.0'，无问题.然而，当我们试图通过部署mode=cluster独立启动星星之火时，我们将获得 ClassNotFoundException: Failed to find data source: kafka 错误，尽管启动命令已经将Kafka添加到-Dspark.jars (参见下面)，随后的日志进一步说明这些jars已经成功添加。所有10个jars都存在于所有节点上的/home/.ivy2/. i

浏览 2提问于2017-01-26得票数 1

3回答

如何解析org.apache.hadoop.conf.Configuration.getPassword？：java.lang.NoSuchMethodError

、、

我正在尝试从我的Spring web应用程序运行一个spark进程，但我收到了这个错误： java.lang.NoSuchMethodError: org.apache.hadoop.conf.Configuration.getPassword(Ljava/lang/String;)[C at org.apache.spark.SSLOptions$.$anonfun$parse$8(SSLOptions.scala:188) ~[spark-core_2.12-2.4.3.jar:2.4.3] at scala.Option.orElse(Option.scala:306)

浏览 105提问于2019-05-09得票数 1

回答已采纳

1回答

我们如何将我现有的kafka - spark -cassandra项目部署到google-cloud--cassandra中的kafka - dataproc平台？

、、

我现有的项目是kafka-spark-cassandra。现在我有了gcp帐户，必须将spark作业迁移到dataproc。在我现有的spark作业中，像masterip、memory、cores等参数都是通过命令行传递的，而命令行是由linux shell脚本触发的，并创建新的sparkConf。 val conf =新的SparkConf(true) .setMaster(master) .setAppName("xxxx") .setJars(List(path+"/xxxx.jar")) .set("spark.executor.memory&#

浏览 1提问于2016-06-01得票数 0

1回答

我如何查询星火JobServer并找到它存放我的罐子的地方？

我正试着跟踪这些文档：文档中列出的选项2是：在提交作业时，还可以在作业配置参数中使用依赖jar-uris。在特定的上下文中，这与依赖的jar-uris上下文配置param具有相同的效果。在持久上下文中，将为当前作业加载jars，然后为在持久上下文上执行的每个作业加载jars。“'localhost:8090/contexts/test-context?num-cpu-cores=4&memory-per-node=512m‘OK⏎curl 'localhost:8090/jobs?appName=test&classPath=spark.jobserve

浏览 3提问于2016-08-12得票数 0

1回答

在DSE 4.8.4上使用"dse spark-submit“时出现netty/epoll错误

我们在DSE 4.8.4上使用"dse spark-submit“来处理Spark/Scala应用程序： scalaVersion := "2.10.5" libraryDependencies ++= Seq("org.apache.spark" %% "spark-core" % "1.4.1", "com.datastax.spark" %% "spark-cassandra-connector" % "1.4.1", "org.slf4j&#

浏览 1提问于2016-02-11得票数 0

1回答

列出在pyspark中加载的所有其他jars

、

我想看看我的spark上下文正在使用的jars。我在Scala中找到了代码： $ spark-shell --jars --master=spark://datasci:7077 --jars /opt/jars/xgboost4j-spark-0.7-jar-with-dependencies.jar --packages elsevierlabs-os:spark-xml-utils:1.6.0 scala> spark.sparkContext.listJars.foreach(println) spark://datasci:42661/jars/net.sf.saxon_Sa

浏览 2提问于2019-07-16得票数 6

1回答

当火花从oozie调用蜂巢时，异常将引发“org.apache.hadoop.hive.ql.metadata.HiveException”：java.lang.ClassNotFoundException“

、、、、

我有火花作业将数据保存到hdfs，然后将相同的数据保存到Hive表中。当我在木星上运行时，它成功地运行了。但是，当我在oozie中运行它时，当它达到写入数据到蜂箱的步骤时，它就会引发后续异常。下面是我的代码，后面跟着异常，然后是工作流.xml： # coding: utf-8 # In[10]: import os JARS_HOME = "hdfs:///dataengineering/jars" os.environ['PYSPARK_SUBMIT_ARGS'] = '--jars '+JARS_HOME+'/ojdbc6.j

浏览 10提问于2020-04-14得票数 1

1回答

Jetty web服务器拒绝linux上的连接

、、、、

我正在开发一个java web应用程序，并且正在使用web框架Spark，它利用了Jetty (由eclipse创建的用java编写的http服务器)。Spark利用了Jetty的嵌入式app服务器功能，本质上是在应用程序中创建一个Jetty实例。当创建我的应用程序的可执行jar并在windows上运行时，一切正常，我可以通过本地连接到我的应用程序(我使用的是端口81)。最终，我希望这个应用程序能在linux服务器上运行，但在ubuntu上执行jar时，我无法在本地连接到该应用程序。我对linux只有一般的了解，不明白为什么会发生这种情况。我正在屏幕上执行命令'java -jar G2

浏览 2提问于2016-10-25得票数 0

1回答

Smark2.0-- Dataset<Row>用Java写Parquet

、

我想在Java中将数据集写入Parquet文件，我使用 Dataset<Row> ds = getDataFrame(); ds.write().parquet("data.parquet"); 此代码由火花提交命令运行，如下所示 sudo spark-submit --class getdata --master yarn --num-executors 4 --executor-cores 1 --jars guava-14.0.1.jar,hadoop-common-2.7.3.jar,hbase-client-1.3.0.jar,hbase-common-1

浏览 0提问于2017-06-15得票数 0

1回答

Pool2kafka- NoClassDefFound: org/apache/commons/ PySpark

、、、

我在打印kafka主题的数据到控制台时遇到了问题。我得到的错误信息如下图所示。 ? 正如您在上图中所看到的，在batch 0之后，它不会进一步处理。 ? ? 所有这些都是错误消息的快照。我不明白错误发生的根本原因。请帮帮我。以下是kafka和spark版本： spark version: spark-3.1.1-bin-hadoop2.7 kafka version: kafka_2.13-2.7.0 我正在使用以下jars： kafka-clients-2.7.0.jar spark-sql-kafka-0-10_2.12-3.1.1.jar spark-toke

浏览 30提问于2021-07-02得票数 1

回答已采纳

1回答

StreamingQueryException：‘描述Streams\n===流查询时出错

、、

我在运行无法连接到Kinesis数据源的胶水流式作业时遇到以下错误：错误： WARNING:root:StreamingQueryException caught. Retry number 10 ERROR:root:Exceeded maximuim number of retries in streaming interval, exception thrown Parse yarn logs get error message: StreamingQueryException: 'Error while Describe Streams\n=== Streaming Q

浏览 0提问于2020-09-08得票数 0

2回答

使用Cassandra配置的Spark

、

在卡桑德拉身上运行spark得到TTransportException。有没有人能告诉我，要通过spark访问cassandra db需要做什么配置？我在.bashrc & conf/spark-env.sh文件中设置了以下变量： export SCALA_HOME=/opt/scala-2.10.3 export SCALA_LIBRARY_PATH=/opt/scala-2.10.3/lib export MAVEN_OPTS="-Xmx1300M -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

浏览 4提问于2014-03-21得票数 4

1回答

虽然jar文件中确实存在主类，但它没有找到主类。

首先:下面是要提交的应用程序jar文件： $ls -rlta /shared/ysgood/target/yardstick-spark-uber-0.0.1.jar -rw-r--r-- 1 steve staff 138611565 Aug 6 01:41 /shared/ysgood/target/yardstick-spark-uber-0.0.1.jar 以下是要提交的课程： 01:55:02/ysgood $jar -tvf target/yardstick-spark-uber-0.0.1.jar | grep SparkCoreRDDBenchmark.class 1

浏览 4提问于2015-08-06得票数 4

1回答

从不是Hadoop集群中的机器上运行spark提交

、、

我正在尝试为我们的分析人员建立一个Spark客户端发行版，他们可以从桌面上使用。为了实现这一点，我在我现有的Hadoop客户端发行版中添加了一个“预置使用用户提供的Apache”版本的Spark。我在Windows (客户端部署在C:\HadoopClient中)和Linux (客户端部署在~中)上都尝试过这一点。我正在尝试启动最基本的spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster Spark/examples/jars/spark-examples_2.1

浏览 16提问于2022-11-30得票数 1

1回答

用oozie火花操作加载依赖jar (用于不同操作/作业的相同jar的不同版本)

、、

我的主要星火项目依赖于其他实用程序，jars.So组合集可能如下所示： 1. main_spark-1.0.jar will work with utils_spark-1.0.jar (some jobs use this set) 2. main_spark-2.0.jar will work with utils_spark-2.0.jar (and some of the jobs use this set) 对于我来说，处理这种情况的方法是用火花-选择作为传递罐子。 oozie spark action job1 <jar>main_spark-1.0.jar<

浏览 1提问于2017-10-22得票数 0

回答已采纳

1回答

要检查的UDF是非零向量，不工作后CountVectorizer通过火花提交。

、、、

根据这个，我正在应用udf来过滤CountVectorizer之后的空向量。 val tokenizer = new RegexTokenizer().setPattern("\\|").setInputCol("dataString").setOutputCol("dataStringWords") val vectorizer = new CountVectorizer().setInputCol("dataStringWords").setOutputCol("features") val pipeline

浏览 3提问于2018-02-12得票数 1

1回答

使用jdbc从Spark 2.3.1 Scala 2.11.8连接到Vertica

、、、、

我正在尝试使用JDBC使用Sparkv2.3.1Scala2.11.8连接到Vertica dB。在Vertica网站上：它说我可以在以下位置下载Spark：当我点击链接时，它会带我到登录页面，在我传递日志后，在顶部弹出一个黄色的框，并说我没有查看下载的权限。我尝试了另一种方式，这次是从Vertica的下载页面下载。在Linux包中有3个jar文件(vertica-javadoc、vertica-jdbc、vertica-jdbc-8.0.1-0)，但我找不到vertica-spark2.0(即: vertica-8.1.0_spark2.0_scala2.11.jar)。我下载了三个

浏览 1提问于2018-09-22得票数 0

回答已采纳

2回答

Spring Spark集成- org.springframework.context.annotation.AnnotationConfigApplicationContext :java.io.NotSerializableException

、、

我正在为我的spark应用程序使用spring boot，所有的依赖项都是通过spring来管理的，我正在使用Autowire来添加依赖项。提交给executors的My Function类和Custom类实现了Serializable。但当我运行它并将任务提交给执行器时，它抛出了异常:一个spring类不是serilazable - AnnotationConfigApplicationContext Caused by: java.io.NotSerializableException: org.springframework.context.annotation.AnnotationC

浏览 9提问于2018-08-12得票数 0

1回答

Kudu模块在火花放电中不被识别。即使在使用--jars设置类路径之后，获取模块也找不到错误

、

我无法在pyspark代码中使用Kudu模块，而则接受它。 Scala火花代码： [root@sandbox-hdp ~]# spark-shell --jars /root/jars/org.apache.kudu_kudu-spark_2.10-1.5.0.jar SPARK_MAJOR_VERSION is set to 2, using Spark2 Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setL

浏览 3提问于2020-12-17得票数 0

1回答

如何解析依赖com.typesafe.play#play-json;2.4.0

、、

我正在尝试使用spark-submit命令在本地机器的linux终端上运行jar文件 > spark-submit \ > --master local \ > --class RTP \ > --packages com.typesafe:config:1.3.2,org.apache.kafka:kafka-clients:2.0.0, commons-codec:commons-codec:1.9,org.scalaj:scalaj-http_2.11:2.3.0, com.typesafe.play:play-json:2.4.0 \ >

浏览 12提问于2020-05-24得票数 0

回答已采纳

1回答

在类路径中获取错误，但是添加了jars。

、、

我收到了一个错误，而提交一个火花程序。下面是错误 client token: N/A diagnostics: User class threw exception: org.apache.spark.sql.AnalysisException: Can not load class 'brickhouse.udf.collect.NumericRange' when registering the function 'numeric_range', please make sure it is on the classpath; 我正在使用下

浏览 3提问于2020-05-04得票数 1

回答已采纳

1回答

找不到数据源: com.databricks.spark.xml。请在http://spark.apache.org/third-party-projects.html上查找软件包

、、

我正在使用intellij项目加载Spark，但没有安装Spark。 val spark = SparkSession.builder().config(sparkConf).getOrCreate() 我已经通过使用以下命令将com.spark.databricks.xml添加到spark sparkConf.set("spark.driver.extraClassPath", "C:/.../spark-xml_2.11-0.4.1.jar") sparkConf.setExecutorEnv("spark.driver.extraClassPat

浏览 7提问于2017-12-27得票数 1

1回答

运行火花时的NoHostAvailableException

、、

我在本地机器上使用DataStax5.1版本的cassandra。启动cassandra使用 dse cassandra -k 卡桑德拉踢得很好。接下来，我想用 dse spark 然而，它给了我以下错误。 2017-08-21 12:11:25 [main] ERROR o.a.s.d.DseSparkSubmitBootstrapper - Failed to start or submit Spark application because of com.datastax.driver.core.exceptions.NoHostAvailableException: All host(

浏览 2提问于2017-08-21得票数 0

3回答

在Spark中处理来自CosmosDB的大数据集

、、、、

我学习了如何使用spark-cosmosdb连接器使用来自CosmosDB的数据创建DataFrame，所以现在我想用DataFrame做一些事情。一切都很好，直到我对小的数据集合进行操作(或者我在读取配置中添加了额外的custom_query以缩小数据范围)。例如，我可以创建一个DF，然后执行df.show()，或者在其上创建一个临时视图，然后执行%%sql select * from c。但是当我尝试执行df.count()或%%sql select * from c order by name desc时，收到的错误提示是：Request rate is large ()。我考虑过将表

浏览 2提问于2018-04-07得票数 0

1回答

如何在集群模式下运行spark-submit命令时覆盖spark jars？(okhttp3)

、、、、

我的项目中的jar与spark-2.4.0 jars文件夹中的jar存在冲突。我的Retrofit带来了okhttp-3.13.1.jar (在mvn依赖:树中验证)，但服务器中的spark有okhttp-3.8.1.jar，而我得到了NoSuchMethodException。因此，我尝试显式地给出我的jar来覆盖它。当我尝试在client模式下运行spark submit命令时，它会拾取我提供的显式jar，但是当我尝试在cluster模式下运行相同的jar时，这无法覆盖工作节点上的jar，并且执行器使用相同的Spark旧jar导致NoSuchMethodError。我的jar是一个很大的

浏览 51提问于2020-04-11得票数 1