如何将hadoop conf目录指定为spark应用程序的conf属性

我正在尝试使用InProcessLauncher从Java Spring应用程序提交集群模式的spark 2应用程序。我的代码设置了sparkLauncher.setMaster("yarn")和sparkLauncher.setDeployMode("cluster") 在启动我的HADOOP_CONF_DIR应用程序之前，我将yarn环境变量设置为包含我的配置的</

浏览 29提问于2021-05-08得票数 0

1回答

Google Dataproc集群属性

、

我想了解更多关于这些属性是针对整个集群\每个节点还是两者的组合的详细信息。对于示例spark:spark.executor.instances 

浏览 1提问于2019-11-12得票数 1

1回答

如何将蜂箱访问集成到从pip和conda派生的PySpark中(而不是来自火花分发或软件包)

、、、、

用于HDFS配置)文件放置在conf/中来完成的。上面提到的conf/是指星火分发包中的conf/目录。但是pyspark通过pip和conda当然没有这个目录，那么在这种情况下，如何将蜂窝数据库和亚稳态支持插入到Spark中呢？我怀疑这可能是通过表单的特殊前缀SparkConf K/V对来实现的：spark</em

浏览 2提问于2019-01-30得票数 5

回答已采纳

0回答

将sys props传递给Spark* 1.5，特别是其中包含空格的属性*

、、、

在使用Spark 1.2相当长的一段时间后，我已经意识到您不能再通过命令行通过--conf将spark配置传递给驱动程序。我正在考虑使用系统属性，并使用以下代码获取配置： conf getOption name orElsesys.props.get(name) 如何将指定为开始时间的日期的

浏览 0提问于2016-07-05得票数 1

2回答

来自群集的HADOOP_CONF_DIR的值

、

在哪里可以找到HADOOP_CONF_DIR的值？export HADOOP_CONF_DIR=XXX --class org.apache.spark.examples.SparkPi \ --master yarn-cluster \ # can also

浏览 1提问于2015-12-17得票数 9

2回答

无法使用spark-sftp api将数据帧写入目标sftp服务器

、、

代码在spark-shell中运行良好，但当我使用scala代码部署我的jar时，它会失败，并显示以下错误： --conf spark.yarn.executor.memoryOv

浏览 14提问于2019-09-04得票数 2

1回答

配置单元不在HDFS中存储数据仓库

、、

我已经在本地系统上下载了hive安装，并将hive-site.xml复制到Spark conf目录中。我尝试使用spark shell在Hive上下文中创建一个托管表。我在hive-site.xml (位于spark的conf目录中)中添加了以下属性： <name>hive.metastore.warehouse.dir</name><value>&

浏览 1提问于2016-05-06得票数 2

1回答

我已经按照mapr windows客户端安装中列出的所有步骤进行了操作。我已经将集群中的ssl_truststore文件复制到C：\opt\conf文件夹中，并运行了configure.bat文件。它运行时没有任何错误，我甚至用更新的集群名称和CLDB节点验证了C:\opt\mapr\conf\mapr-clusters.conf。org.apache.hadoop.conf.Configuration.set(Configuration.java:1

浏览 4提问于2018-01-19得票数 0

1回答

launch_container.sh中纱线如何执行PYSPARK环境设置

、、、

将传入的配置文件、传入的可执行python文件上载到用户hadoop主目录下创建的.sparkStaging目录中。除了这些文件，pyspark.zip和py4j-version_number.zip .lib从$SPARK_ home /python/lib也被复制到用户hadoop主目录下创建的.sparkStaging如果我们已经显式地导出了任何东西，比如PYSPARK_PYTHON在.ba

浏览 5提问于2020-08-15得票数 0

2回答

如何覆盖CDH中运行spark的库

、、、

我有CDH5.7.0和spark 1.6.0和kafka 0.9.0，我需要运行一个Spark流作业，它用0.8.2.2版本消耗来自另一个集群中的kafka broker的消息。" %% "spark-streaming-kafka" % "1.2.0" /opt/cloudera/

浏览 5提问于2016-04-24得票数 0

2回答

如何修复GKE上星火应用程序中的"NullPointerException: projectId不能为空“？

、、、、

at meetup.SparkStreamsApp$delayedInit$body.apply(SparkStreamsApp.scala:7) 我很确定这与服务帐户有关，可以访问并创建我一直在使用的存储桶中的子目录，而spark-submit是星火应用程序，在本地使用GOOGLE_APPLICATION_CREDENTIALS环境变量和spark.hadoop.google.cloud.auth.service.account.enable=true配置属性

浏览 2提问于2021-02-04得票数 2

回答已采纳

1回答

如何将PyDeequ作业从木星笔记本提交给火花/纱线

、

如何设置用于非AWS环境的环境？analysisResult = AnalysisRunner(spark) \ .addAnalyzer_spark_session, df) ---> 52 return AnalysisRunBui

浏览 20提问于2021-08-16得票数 0

回答已采纳

1回答

Spark提交给kubernetes:包不是由执行者拉取的

、、、、

我正在尝试使用spark- submit将我的Pyspark申请提交给Kubernetes集群(Minikube)： --conf spark.kubernetes.container.image='pyspark:dev' \ --conf spark.kubernetes.container.image.pullP

浏览 18提问于2021-02-25得票数 4

回答已采纳

1回答

为什么Hadoop不尊重“spark.hadoop.fs”属性？

、、、、

我的spark-defaults.conf中有三个我希望能够动态设置的属性： print(spark.conf.get('spark.

浏览 3提问于2017-03-10得票数 0

2回答

Dockerfile无法运行cp命令在容器中移动文件

、

.jar /opt/spark-2.2.1-bin-hadoop2.7/jars/ RUN cp /opt/spark-2.2.1-bin-hadoop2.7/conf/spark-defaults.conf.template/opt/spark-2.2.1-bin-hadoop2.7/conf/<

浏览 0提问于2019-06-26得票数 0

回答已采纳

1回答

如何利用电子病历中的引导操作在火花-conf中添加spark.executor.extraClassPath

、、、

我想在启动操作中添加spark.executor.extraClassPath和spark.driver.extraClassPath中的火花-defaults.conf。"sudo echo >> /home/had

浏览 0提问于2017-07-04得票数 2

1回答

brew已安装apache- s3无法访问s3文件

、、、

在brew install apache-spark之后，sc.textFile("s3n://...") in spark-shell与java.io.IOException: No FileSystem在通过使用spark-shell启动的EC2机器访问的EC2中，情况并非如此。公式的构建似乎使用了足够晚的Hadoop版本，无论brew install hadoop是否已经运行，都会引发此错

浏览 2提问于2015-11-06得票数 5

回答已采纳

2回答

如何在Cloudera中安装自定义火花版本

、、

我是星火，哈多普和克劳德拉的新手。我们需要使用一个特定版本(1.5.2)的星火，还需要使用Cloudera用于集群管理，也用于星火。但是，CDH5.5附带了Spark1.5.0，并且不能很容易地更改。谢谢你的帮助和解释。

浏览 3提问于2016-02-23得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云