腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
为什么在dataproc中只有一个
作业
id,而在pyspark脚本中有多个操作?
apache-spark
、
pyspark
、
google-cloud-dataproc
、
dataproc
火花
作业
的定义是:sc.parallelize(range(1000),10).collect() sc.parallelize(range(1000),10).collect()
浏览 3
提问于2022-01-21
得票数 2
回答已采纳
1
回答
即使内部任务返回错误,气流仍将DAG标记为成功。
airflow
、
airflow-2.x
所以我有一个DAG,它使用BashOperator在我们的服务器上触发一个火花
作业
。
spark
作业
从S3存储桶中读取数据,该桶被隔离到按天划分的分区中并执行操作,如果桶中没有数据,则返回一个'path不退出‘错误,即如果桶中没有数据。$$anonfun$org$apache$
spark
$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary$1.apply($$anonfun$org$apache$
spark
$sql$e
浏览 4
提问于2022-11-17
得票数 0
0
回答
运行未在UI中显示的
spark
作业
apache-spark
、
apache-spark-1.6
我已经
提交
了我在这里提到的
spark
作业
,bin/
spark
-submit --class DataSet BasicSparkJob-assembly-1.0.jar没有提到--master参数或
spark
.master而不是将
作业
提交
到我3节点
spark
集群。但我想知道它在哪里
提交
作业
,因为它在Running Applications中没有显示任何信息
浏览 7
提问于2016-07-11
得票数 4
回答已采纳
1
回答
gcloud dataproc
作业
提交
星星之火,以root用户的身份
提交
作业
apache-spark
、
google-cloud-platform
、
hadoop-yarn
、
gcloud
我试图
提交
一个火花
作业
使用'gcloud数据
提交
作业
提交
火花‘,我已经设置为纱线的
spark
.master。当
作业
在dataproc集群上执行时,是否可以使用我在gcloud中通过身份验证的google用户或在命令中设置代理用户来运行它?示例命令:- --cluster gov-demo --region europe-west4 \ --classor
浏览 0
提问于2019-10-14
得票数 1
2
回答
数据库SparkSQL
作业
apache-spark-sql
、
databricks
、
google-cloud-dataproc
Databricks是否支持
提交
类似于Google Cloud Dataproc的SparkSQL
作业
? Databricks job API似乎没有用于
提交
Spark
SQL
作业
的选项。
浏览 41
提问于2020-07-01
得票数 0
3
回答
仅允许在
spark
集群上执行一个驱动程序
apache-spark
、
cluster-computing
我们有一个包含8个节点的
spark
集群。每小时向群集
提交
一个
spark
作业
。如果
spark
作业
已经在集群上运行,我如何配置集群或编写一些不允许在集群上
提交
spark
作业
的代码?
浏览 2
提问于2017-06-13
得票数 0
1
回答
Kubernetes (Docker for Mac)上的Apache
Spark
无法解析我的VPN主机
docker
、
apache-spark
、
kubernetes
、
apache-spark-sql
我正在尝试通过Kubernetes
提交
作业
。已通过,并通过以下命令成功
提交
作业
:--master k8s://https://<k8s-apiserver-host>:<k8s-apiserver-port> \--name
spark
-pi \ --class org.apache.
spark
.exam
浏览 0
提问于2020-01-27
得票数 0
3
回答
如何使用
Spark
-submit命令获取
提交
给
Spark
集群的
作业
的应用Id/Job Id?
apache-spark
我正在使用
spark
-submit命令
提交
Apache
Spark
作业
。我想检索使用
spark
-submit命令
提交
的
作业
的应用程序Id或Job Id。推荐的方式是什么?
浏览 0
提问于2018-09-08
得票数 4
1
回答
如何按顺序运行
spark
作业
?
python
、
apache-spark
、
pyspark
我正在
提交
多个
Spark
作业
。一个
作业
使用一个工人。目前,我一次
提交
了30个
作业
,5个
作业
正在运行,25个
作业
正在等待。但是,此操作会给服务器带来沉重的负载。(有时无法分配
作业
端口并发生错误。)当前我的运行代码:: ~/
spark
-submit ~test1.py & ~/
spark
-submit ~test2.py & ~/
spark
浏览 28
提问于2020-11-30
得票数 0
回答已采纳
1
回答
如何使用火花
提交
提交
火花源
作业
?
python
、
apache-spark
、
pyspark
这个命令足够
提交
作业
了吗?在哪里
提交
这条命令?
浏览 5
提问于2020-01-09
得票数 0
1
回答
使用Marathon运行
spark
-submit应用程序
apache-spark
、
mesos
、
marathon
我有
spark
应用程序,用
spark
-submit运行它,如下所示:--master mesos://dispatcher_ip:7077当我从远程ip或直接在Mesos从机上运行这个
spark
应用程序时,它可以按预期工作,例如,我可以看到在Mesos主机上运行的框架/驱动程序,日志也显示任务正在运行。我想使用Marathon运行同样的程序,但是当我使用Marathon运行时
浏览 3
提问于2016-09-18
得票数 1
2
回答
如何使用python多处理在
Spark
中运行多个并发
作业
python-2.7
、
apache-spark
、
hadoop-yarn
、
pyspark
我已经在我的笔记本电脑上的纱线集群上设置了一个
Spark
,并且使用python多处理在
Spark
中运行多个并发
作业
时遇到了问题。我运行的模式是纱-客户模式。我尝试了两种方法来实现这个目标: 设置一个SparkContext并创建多个进程来
提交
作业
。此方法不起作用,程序崩溃。我想单个SparkContext不支持python多个进程。对于每个进程,设置一个SparkContext并
提交
作业
。在这种情况下,
作业
成功地
提交
给纱线,但<e
浏览 2
提问于2015-11-09
得票数 2
1
回答
如何使PySpark在集群上工作
apache-spark
、
google-cloud-platform
、
google-cloud-storage
、
google-cloud-dataproc
我正在使用这个文档来运行一个火花
作业
: sudo dataproc
作业
提交
pyspar
浏览 3
提问于2019-01-18
得票数 3
2
回答
用Java api调用Kubernetes
Spark
运算符
java
、
apache-spark
、
kubernetes
、
spark-operator
有很多使用Kubernetes
Spark
操作符创建
Spark
作业
并简单地
提交
具有以下内容的请求的示例可以在this 中找到
spark
-pi.yaml有没有人知道用Java
提交
这样的
作业
最简单的方法是什么?
浏览 15
提问于2020-06-04
得票数 0
0
回答
如何从本地
提交
spark
Job并连接到Cassandra集群
apache-spark
、
cassandra
、
spark-cassandra-connector
谁能让我知道如何从本地
提交
spark
Job并连接到Cassandra集群。目前,我正在通过putty登录到Cassandra节点后
提交
Spark
作业
,并
提交
以下dse-
spark
-submit job命令。命令:dse
spark
-submit --class ***** --total-executor-cores 6 --executor-memory 2G **/**/**.jar --config-filebuild
浏览 8
提问于2016-12-23
得票数 0
2
回答
集群中MapReduce和
Spark
作业
的资源分配
hadoop
、
apache-spark
、
mapreduce
、
hadoop-yarn
我无法理解为Map Reduce和
Spark
作业
分配资源的内部机制。在同一个集群中,我们可以运行Map Reduce和
Spark
作业
,但是对于运行map reduce
作业
,内部资源管理器将为
作业
分配可用的资源,如数据节点和任务跟踪器。当涉及到
Spark
上下文时,它需要工作节点和执行器(内部为JVM)来计算程序。 这是否意味着Map Reduce和
Spark
作业
将有不同的节点?如果不是,任务跟踪器和执行器之间的区别将如何发生。集群管理器
浏览 1
提问于2017-06-10
得票数 1
1
回答
使用java代码将星火
作业
提交
给AWS EMR,等待执行并获得最终状态。
java
、
apache-spark
、
amazon-emr
我正试图通过AWS向AWS EMR
提交
一个
spark
作业
。我希望流程
提交
作业
,然后等待
作业
完成/失败,并获得相应的状态。new HadoopJarStepConfig() .withArgs("
spark
-submitsparkJarPath) .withArgs(args)
浏览 3
提问于2017-07-28
得票数 2
回答已采纳
1
回答
资源匮乏下Kubernetes上的
Spark
作业
无限期等待
SPARK
_MIN_EXECUTORS
apache-spark
、
kubernetes
我正在使用
Spark
3.0.1,并在Kubernetes上进行项目
spark
部署,其中Kubernetes代理
spark
作业
的集群管理器,
spark
使用客户端模式
提交
作业
。假设集群配置为: total Memory=204Gifree memory= 4Gi
SPARK
.DYNAMICALLOCTION.MINEXECUTORS=4
S
浏览 7
提问于2021-02-05
得票数 0
2
回答
Submitted在
提交
员工节点/
作业
IOException后无休止地重新
提交
java
、
scala
、
apache-spark
、
pyspark
在我们的应用程序中,我们有一个内置的火花独立集群(Version2.4.3),它通过submit主URL接收主数据引擎加载程序
提交
的
作业
。2020-04-28 11:31:15,466 INFO
spark
.SecurityManager: Secur
浏览 1
提问于2020-04-28
得票数 0
回答已采纳
1
回答
为什么dataproc不承认论点:
spark
.submit.deployMode=cluster?
google-cloud-dataproc
我以这种方式向dataproc
提交
了一个火花
作业
: gcloud dataproc
作业
提交
星星之火--集群=$集群--region=$REGION --properties
spark
.jars.packages=com.google.cloud.
spark
:
spark
-bigquery-with-dependencies_2.11:0.19.1,
spark
.submit.deployMode=cluster错误:(gcloud.dataproc.jo
浏览 2
提问于2021-04-29
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark提交参数说明和常见优化
Spark实战(6)_spark-sql-e-f-i命令的整合和spark-sql日常作业开发流程总结
北师学子利器:一个软件查看所有未提交的作业
高性能Spark作业基础:你必须知道的调优原则及建议
如何使用Oozie API接口向非Kerberos环境的CDH集群提交Java作业
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券