如何在.jar文件中查看spark job中的源代码_如何在mvn构建的jar中包含源代码_如何在项目之外的Spark (Scala)中打包JAR？ - 腾讯云开发者社区

java、scala、apache-spark、decompiling

我有一份.jar格式的spark工作。我想查看该文件中的源代码。我如何做到这一点，使用我需要的IDE来检查代码。我已经从亚马逊网络服务的s3位置下载了.jar文件。我想检查我本地机器中的代码。我应该为此下载什么，或者我可以检查aws本身中的代码。有谁能帮我一下吗？

浏览 42提问于2021-04-17得票数 1

1回答

无法使用spark-shell从EMR集群连接到远程MongoDB

mongodb、scala、apache-spark、amazon-emr

基于此，我开始使用更新的驱动程序执行spark-shell，如下所示： spark-shell --packages com.stratio.datasource:spark-mongodb_2.10:0.11.2 --jars casbah-commons_2.10-3.1.1.jar,casbah-core_2.10-3.1.1.jar,casbah-query_2.10-3.1.1ja.jar,mongo-java-driver-2.13.0.jar</e

浏览 16提问于2016-07-27得票数 0

回答已采纳

1回答

不使用“wordcount.java - example”脚本运行Spark* Kafka示例*

java、apache-kafka、apache-spark

我正在尝试运行Spark中的字数统计示例，它将从Kafka中流式传输数据。。然而，我发现Cloudera Spark发行版与孵化器发行版略有不同。我运行spark shell和从那里运行字数统计示例都没有问题。但是，bin文件夹中没有"run- example“脚本，如示例源代码所示。 * `.zoo03 my-consumer-group topic1,topic2 1` 我是jar<

浏览 0提问于2014-03-03得票数 4

1回答

使用AWS胶的火花扩展

apache-spark、pyspark、aws-glue

我已经在本地创建了一个脚本，它使用spark扩展'uk.co.gresearch.spark:spark-extension_2.12:2.2.0-3.3‘以简单的方式比较不同的DataFrames。然而，当我在AWS上尝试这一点时，我遇到了一些问题，并收到了以下错误：ModuleNotFoundError: No模块，名为“gresearch” 我尝试从本地磁盘复制.jar文件，当我在本地初始化spark会话并收到以下消息时引用了该

浏览 4提问于2022-09-30得票数 0

回答已采纳

2回答

v2在Azure数据工厂中的HDInsight/Spark活动没有选项指定火花提交的--文件参数

apache-spark、hadoop-yarn、azure-data-factory-2、azure-hdinsight、.net-spark

我已经在Azure中创建了一个HDInsight集群(v4，Spark2.4)，并希望通过Azure Data v2活动在这个集群上运行一个Spark.Ne应用程序。在星火活动中，可以指定jar的路径、-class参数和传递给Spark应用程序的参数。这些参数在运行时自动以"-args“作为前缀。但是，能够设置“--文件”是必要的，因为它告诉火花提交需要部署到工作节点的文件</em

浏览 15提问于2020-10-29得票数 0

1回答

使用Spark在Oozie工作流中检索属性

apache-spark、oozie

我使用的是Spark 1.3.0和Oozie 4.1.0 <spark xmlns="uri:oozie:spark-action:0.1"> <job-tracker>$>${nameNode}/apps/${JobN

浏览 0提问于2015-12-10得票数 0

1回答

使用Yarn Rest API的Spark提交[Spark无法解析namenode HA名称]

apache-spark、hadoop-yarn

我正在通过yarn rest api调用提交spark作业，但是得到了这个异常，spark无法解析namenode HA名称，而从yarn launcher提交spark作业，并且在launcher本身上失败JAVA_HOME=/usr/local/java7/ org.apache.hadoop.yarn.applications.distributedshell.ApplicationMaster --jarspark-job.jar

浏览 18提问于2019-08-05得票数 0

1回答

java.lang.IllegalArgumentException:尝试多次向分布式缓存中添加([自定义jar-带火花代码].jar)。

java、apache-spark、oozie、amazon-emr、oozie-workflow

我试图使用EMR集群上的Oozie运行一个简单的Java作业。作业只从输入路径获取文件，对其执行很少的基本操作，并将结果放入不同的输出路径。当我尝试使用火花-submit从命令行运行它时，如下图所示，它工作得很好： spark-submit --class com.someClassName --master yarn --deploy-mode工作流中设置了相同的东西。我在上找到了一个处理类似错误的和另一个。但是对于他们来说，作业失

浏览 2提问于2019-04-18得票数 2

回答已采纳

1回答

优步jar在Kubernetes没有通过火花提交找到

apache-spark、kubernetes、sbt、sbt-assembly、spark-submit

我得到的错误是：} Dockerfile --这只是一个包装器映像，基于星火二进制文件中的kuber

浏览 5提问于2019-10-03得票数 1

回答已采纳

3回答

为什么IDEA不能识别Spark文件？

intellij-idea、jar、apache-spark

我下载了星火的源代码，解压缩并根据官方文件构建，如下所示：不好的是，我的编辑窗口中有许多语法错误，它们都与Spark包和Hadoop包相关，而项目可以在这个

浏览 1提问于2015-02-04得票数 6

4回答

如果在SparkAction中使用PySpark，Oozie作业将无法运行

java、apache-spark、oozie、pyspark、cloudera-quickstart-vm

我在Oozie中遇到过几个SparkAction作业的例子，其中大多数都是用Java语言编写的。我稍微编辑了一下，然后在Cloudera CDH Quickstart 5.4.0 ( Spark版本为1.4.0)中运行了这个示例。}/user/${wf:user()}/${examplesRoot}/apps/spark/lib/oozie-examples.jar</jar<

浏览 2提问于2015-07-16得票数 1

1回答

如何在启动新作业之前了解spark作业是否已完成

apache-spark

我想通过yarn并行运行一组spark作业，然后等待它们全部完成，然后再启动另一组作业。我如何才能知道我的第一组作业何时完成？谢谢。

浏览 10提问于2018-08-21得票数 1

回答已采纳

1回答

尝试使用Twitter进行spark流媒体时获得NPE

spark-streaming

我是SparkStreaming的新手，当我尝试提交Spark-Twitter流作业时，得到了以下错误：at org.apache.spark.executor.Executor$$anonfun$org$apache$spark$executor$Executor$$upd

浏览 0提问于2016-04-11得票数 0

1回答

通过Oozie工作流提交的shell脚本中存在的火花提交不起作用。

shell、hadoop、oozie、spark-submit、oozie-workflow

原因火花提交是在本地文件系统，但我的脚本运行在hadoop文件系统与hadoop管理用户。任何解决办法都可以克服这一点。如何在hadoop文件系统中运行来自hadoop用户的本地文件系统命令，或者我可以在Oozi的帮助下将脚本从hadoop文件系统复制到本地文件系统。/usr/lib/spark/bin/spark

浏览 0提问于2019-08-08得票数 0

回答已采纳

1回答

Hortonworks Oozie火花行动- NullPointerException

hadoop、apache-spark、oozie、hortonworks-data-platform、oozie-workflow

Spark作业用于从单元表中获取数据，处理数据并将其存储在HDFS中。但是当我尝试提交来自火花行动的火花申请时，我得到的是NullPointerException。xmlns="uri:oozie:spark-action:0.1"> <name-no

浏览 2提问于2017-06-29得票数 1

回答已采纳

2回答

Oozie - Spark* >向何处添加ojdbc.jar以访问oracle*

oracle、apache-spark、oozie、ojdbc

我正试图在Oozie中为以下命令创建一个火花行动：这给出了Oozie中</

浏览 2提问于2016-07-14得票数 0

回答已采纳

1回答

如何将UDF中使用的模块传递给spark* submit*

python、pyspark、spark-submit

我有一个使用dill的用户定义框架的源代码。我在源代码中使用了其他包，所有这些包都列在requirements.txt中。因此，我正在做以下事情，但它显示"dill“的"module not found”。 pip install -r requirements.txt --target .spark-submit --master yarn --jars example.jar --conf spark.exec

浏览 16提问于2020-04-14得票数 0

1回答

我应该把jars放在dataproc集群上，这样它们才能被gcloud dataproc作业使用，提交星星之火？

google-cloud-dataproc

我有一个初始化脚本，它从本地人工存储库下载一个.jar，并将它放到集群上每个节点的/usr/local/bin中。我可以用 --region=us-central1 --jar=file:///usr/local/bin/myjar.jar -- arg1 arg2 但是，如

浏览 3提问于2020-05-28得票数 3

回答已采纳

1回答

当火花从oozie调用蜂巢时，异常将引发“org.apache.hadoop.hive.ql.metadata.HiveException”：java.lang.ClassNotFoundException“

apache-spark、hadoop、hive、oozie、hcatalog

我有火花作业将数据保存到hdfs，然后将相同的数据保存到Hive表中。当我在木星上运行时，它成功地运行了。但是，当我在oozie中运行它时，当它达到写入数据到蜂箱的步骤时，它就会引发后续异常。下面是我的代码，后面跟着异常，然后是工作流.xml： JARS_HOME = "hdfs:///dataengineering- Write Job 316245be-4c54-4

浏览 10提问于2020-04-14得票数 1

1回答

如何在使用terraform创建电子病历时启动Spark作业

apache-spark、terraform、amazon-emr

我的用例如下。通过Terraform，我想创建一个EMR集群，启动一个Spark Job，并在作业完成时终止该集群。我在Terraform文档()中找到了这个步骤机制，但我在谷歌上没有找到任何关于Spark Job的示例(一个谢谢你的帮忙

浏览 0提问于2019-02-27得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云