腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用
spark
群集
模式
将
文件
写入
unix
目录
apache-spark
我有一个
spark
应用程序,它当前在本地
模式
下运行,并将输出
写入
本地
UNIX
目录
中的一个
文件
。 现在,我希望在yarn集群
模式
下运行相同的作业,并且仍然希望
写入
该
UNIX
文件
夹。我可以
使用
相同的saveAsTextFile(路径)吗?
浏览 14
提问于2017-08-23
得票数 0
1
回答
在
群集
模式
SPARK
中
写入
本地
文件
系统
apache-spark
、
permissions
、
hadoop-yarn
、
cluster-mode
对于
spark
作业,我们尝试添加一个在本地
文件
系统上创建自定义日志
文件
的日志记录框架。在客户端
模式
下,一切都很好,
文件
由启动
spark
-submit的用户在本地
文件
系统上创建。但是,在
群集
模式
下,本地
文件
是
使用
没有
写入
本地
目录
权限的用户yarn创建的…… 有没有什么解决方案可以让提交作业的用户在集群
模式
下
写入
本地
文件</
浏览 12
提问于2020-07-02
得票数 0
1
回答
Spark
独立集群行为查询
apache-spark
我们有两台安装了20核linux的
unix
机器,each.We需要设置一个独立的集群和
spark
调度器。目前我们暂时不能
使用
cloudera/Hortonwork。我的问题是关于
Spark
Scheduler。 如果我创建一台
unix
机器同时作为Master和Slave,另一台机器作为slave节点,那么有多少内核可供我运行
spark
代码。是40还是更少?我可以在
群集
模式
下在此
群集
上运行多个作业吗?
浏览 0
提问于2016-07-27
得票数 0
1
回答
将
两个浮点数
写入
常规txt的正确方法
python
、
apache-spark
、
io
、
distributed-computing
、
bigdata
我在集群
模式
下运行一个大任务。然而,当工作成功时,我只对两个浮动数字感兴趣,我想以某种方式阅读它。Current working dir : %s" % os.getcwd()建议驱动程序实际上是集群的一个节点,这就是为什么我看不到网关中的
文件
也许以某种方式在HDFS中
写入
文件
?
浏览 4
提问于2016-09-03
得票数 2
回答已采纳
1
回答
使用
spark
从一个配置单元读取所有表,然后
写入
另一个
群集
上的另一个配置单元
apache-spark
、
hadoop
、
hive
我们可以通过
将
hive-site.xml设置为
spark
.But的"conf“方向来读取或
写入
配置单元中的表。现在,我有两个可以连接到每个other.Let`s的
群集
,分别是
群集
上的配置单元1和另一个
群集
上的配置单元2 现在我需要从配置单元1读取数据并执行一些转换,然后
写入
配置单元2,问题是我只能将一个hive-site.xml
文件
放入
spark
conf,这意味着当我执行 someDataFrame.write.saveA
浏览 12
提问于2018-12-20
得票数 2
回答已采纳
1
回答
是分布式
文件
存储(HDFS/Cassandra/S3等)是否强制
spark
在
群集
模式
下运行?若有,原因为何?
apache-spark
、
hadoop
、
hdfs
是分布式
文件
存储(HDFS/Cassandra/S3等)是否强制
spark
在
群集
模式
下运行?若有,原因为何?
Spark
是用于计算海量数据的分布式数据处理引擎。
Spark
从mysql读取数据,并在集群节点本身上执行内存(或磁盘)计算。我仍然不能理解为什么在集群
模式
下运行
spark
需要分布式
文件
存储?
浏览 3
提问于2021-03-25
得票数 0
2
回答
Apache Ignite到亚马逊S3的连接
ignite
我想知道如何
将
数据从亚马逊S3加载到Apache Ignite集群?是否需要单节点或多节点
群集
?
浏览 5
提问于2017-05-02
得票数 1
1
回答
如何
将
配置
文件
添加到以纱线-
群集
模式
运行的星火作业中?
scala
、
apache-spark
我想上传一个
文件
使用
spark
-submit \ --files /home/user/test.csv\我阅读了星火文档,它建议我
使用
SparkFiles.get("test.csv"),但这并不适用于纱线集群
模式
。如果<em
浏览 3
提问于2018-06-19
得票数 1
2
回答
spark
-submit中的--files的用途和用法是什么?
scala
、
apache-spark
我有两个
文件
,现在本地,以后可以在S3/HDFS上,等等用户
文件
是~75mb ~100万条记录。位置
文件
大小约为150kb ~7000条记录。如果是,是否应该只
使用
小
文件
(多大?)要通过--files标志发送,因为它将
文件
放到每个执行器,因为涉及到传输?我有这样的代码 override def run(
spark</
浏览 2
提问于2020-06-29
得票数 1
1
回答
独立集群中执行器的PySpark日志记录
apache-spark
、
pyspark
、
log4j
、
rdd
使用
我们可以从火花上下文派生的log4j记录器,从驱动程序中进行日志记录很容易。 但是,如何从RDD的foreach或foreachPartition中登录呢?有办法收集这些日志并打印出来吗?
浏览 1
提问于2018-03-29
得票数 0
2
回答
Hadoop (Mapr) - AddFile如何工作
hadoop
、
apache-spark
假设我在hdfs上有10个
目录
,它包含了我想用
spark
处理的100多个
文件
。--这要求
文件
在集群中的所有节点上都可用,这对于本地
模式
来说并不是什么问题。在分布式
模式
下,您将希望
使用
Spark
的addFile功能将
文件
复制到
群集
.中的所有机器上。 我无法理解这一点,会在每个节点上激发
文件
的创建副本。我想要的是,它应该读取该
目录
中
浏览 2
提问于2014-04-21
得票数 2
2
回答
Spark
read csv
文件
提交自--files
apache-spark
我正在向yarn上的远程
Spark
集群提交一个
spark
作业,并在
spark
-submit --file中包含一个
文件
,我希望
将
提交的
文件
作为数据帧读取。但我对如何在不将
文件
放入HDFS中的情况下进行此操作感到困惑:--class com.Employee \--files /User/employee.csv\
spa
浏览 0
提问于2018-11-28
得票数 1
1
回答
更改
spark
_temporary
目录
路径,避免删除parquets
scala
、
hadoop
、
spark2.4.4
当两个或多个
Spark
作业具有相同的输出
目录
时,相互删除
文件
将不可避免。我正在
使用
spark
2.4.4在append
模式
下
写入
一个数据帧,我想在
spark
的tmp
目录
中添加一个时间戳,以避免这些删除。示例:
使用
其他数据调用相同的
spark
作业,并在hdfs:
浏览 20
提问于2020-03-19
得票数 1
1
回答
spark
-提交从本地到
群集
的
文件
传输
apache-spark
我正在
使用
spark
-submit集群
模式
从本地向
spark
集群提交作业。我需要在本地机器和
spark
集群之间来回传输输入
文件
、输出
文件
和作业日志
文件
。
使用
文件
传输的任何推荐方法。有没有什么未来的计划,
spark
将
支持
文件
从
群集
传输到本地,反之亦然。
浏览 2
提问于2015-07-27
得票数 0
2
回答
Spark
-更新记录(在拼接
文件
中)(如果已经存在
java
、
apache-spark
、
spark-dataframe
、
parquet
我正在编写一个
Spark
作业,用于从json
文件
中读取数据并将其
写入
parquet
文件
,以下是示例代码: dataFrame = dataFrame.withColumn("year", year(to_date(
unix
_timestamp(dataFrame.colYYYY-MM-dd'T'hh:mm:ss.
浏览 0
提问于2016-11-25
得票数 3
1
回答
在亚马逊EC2中以
群集
模式
读取
Spark
中的
文件
hadoop
、
amazon-ec2
、
apache-spark
我正尝试在亚马逊Ec2中以
群集
模式
执行
spark
程序
spark
-submit --master
spark
://<master-ip>:7077 --deploy-mode cluster --class我无法在集群
模式
下读取这个txt
文件
,即使我可以在独立
模式
下读取。因此,我
使用
以下命令
将
文件
放入hdfs中的/root/persistent-h
浏览 1
提问于2015-09-22
得票数 0
1
回答
scala.collection.immutable.List$SerializationProxy的java.lang.ClassCastException:无法分配实例
apache-spark
我从Spring java应用程序处理csv
文件
来触发清理。 获取序列化异常。由: scala.collection.immutable.List$SerializationProxy :无法
将
org.apache.
spark
.rdd.RDD.org$apache$
spark
$rdd实例分配给java.io.ObjectStreamClass$FieldReflector.setObjFieldValues(ObjectStreamC
浏览 0
提问于2019-05-07
得票数 2
1
回答
改变窗口上的火花独立主端口
scala
、
apache-spark
我在bin
目录
中看到了加载火花-env.cmd。这以以下块结束:if exist "%user_conf_dir%\
spark
-env.cmd" ( call "%user_conf_dir%\
spark
-env.cmd
浏览 1
提问于2017-08-29
得票数 0
回答已采纳
3
回答
在纱线客户端错误上运行火花壳
shell
、
hadoop
、
apache-spark
、
hadoop-yarn
我有
Spark
1.6.1,我已经设置了现在,如果我运行星火外壳:$./shell主纱-部署
模式
客户端,我将得到这种类型的错误(相关部分)。short-circuit local reads feature cannot be used because libhadoop cannot be loaded. 16/09/18 15:49:19 ERROR
spark
.SparkContext/
s
浏览 7
提问于2016-09-18
得票数 0
回答已采纳
1
回答
将
pyspark stderr从控制台
写入
特定
目录
下的日志
文件
logging
、
pyspark
我正在
使用
spark
2-submit test.py在客户端
模式
(本地)提交一个pyspark程序 我想将所有生成到日志
文件
的STDERR
写入
到我想要的
目录
中。 有没有办法做到这一点。我知道下面的代码会将stderr
写入
到与程序相同的
目录
下的文本
文件
中
spark
2-submit something.py > results.txt 2>&1 但是有没有办法把它写到我拥有的特定日志
目录</
浏览 25
提问于2021-09-20
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
即时通信 IM
活动推荐
运营活动
广告
关闭
领券