腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
spark
和
HDFS
作为
文件
存储系统
,
使用
YARN
作为
资源管理器
的
优势
是什么
?
apache-spark
、
hadoop
、
hdfs
我正在尝试理解
spark
是否是分析BigData
的
普通MapReduce方法
的
替代方法。既然
spark
在
使用
HDFS
作为
spark
的
存储系统
时,将对数据
的
操作保存在内存中,那么它是否利用了
HDFS
的
分布式存储?例如,假设我在
HDFS
中存储了100 it
的
CSV
文件
,现在我想对其进行分析。如果我将其从
HD
浏览 17
提问于2019-01-27
得票数 0
回答已采纳
2
回答
Spark
没有
使用
core-site.xml中
的
正确配置
scala
、
apache-spark
、
hdfs
、
hadoop-yarn
、
hadoop3
当我试图用file://test ()从指定
的
位置(如/test )读取拼图
文件
时,我得到一个错误,提示
spark
.read.parquet不存在。将core-site.xml
作为
资源添加到代码中时它确实在
hdfs
我
的
问题是如何确保
spark
读取core-site.xml并
使用</
浏览 5
提问于2019-06-25
得票数 1
3
回答
如何从
Spark
查看底层Hadoop
文件
系统
hadoop
、
apache-spark
、
hdfs
我已经这样启动了
Spark
:我正在尝试查看底层Hadoop安装上
的
文件
。
hdfs
ls 我该怎么做呢?
浏览 5
提问于2016-11-10
得票数 0
2
回答
是否可以
使用
HADOOP
YARN
运行任何应用程序或程序?
apache-spark
、
hadoop
、
hadoop-yarn
我最近在研究分布式计算,发现Hadoop
Yarn
就是其中之一。所以我想,如果我只是建立Hadoop
Yarn
集群,那么每个应用程序都将分布式运行。但现在有人告诉我,HADOOP
Yarn
本身不能做任何事情,需要其他东西,如mapreduce、
spark
和
hbase。 如果这是正确
的
,那么这是否意味着
Yarn
只能运行有限
的
任务?或者我可以将
Yarn
的
分布式计算应用到我想要
的
所有应用程序中?
浏览 0
提问于2020-02-05
得票数 0
3
回答
如何为启用HA
的
群集配置SparkContext
java
、
hadoop
、
apache-spark
当我试图
使用
HDFS
文件
系统在纱线模式下运行星火应用程序时,当我提供以下属性时,它工作得很好。",resourcemanagerAddress);但这方面的问题是: 由于我
的
HDFS
启用了NamdeNode HA,所以当我为
spark
.
yarn
.stagingDir提供
spar
浏览 3
提问于2017-05-09
得票数 1
1
回答
SPARK
作为
linux集群中
的
资源管理器
-内部Kubernetes
和
外部Kubernetes
apache-spark
、
hadoop
、
kubernetes
、
google-kubernetes-engine
、
hadoop-yarn
如果我
使用
Kubernetes集群来运行星星之火,那么我将
使用
星火中
的
Kubernetes
资源管理器
。 如果我
使用
Hadoop集群运行
spark
,那么我将
使用
Spark
中
的
Yarn
资源管理器
。但我
的
问题是,如果我在kebernetes中生成多个linux节点,并
使用
其中一个节点
作为
星星之火,
使用
另外三个节点
作为
浏览 5
提问于2021-02-14
得票数 0
回答已采纳
1
回答
Python+PySpark
文件
本地连接到远程
HDFS
/
Spark
/纱线集群
apache-spark
、
pyspark
、
hadoop-yarn
我一直在玩
HDFS
和
Spark
。我已经在我
的
网络上设置了一个五个节点集群,运行
HDFS
、
Spark
,并由
Yarn
管理。工作人员正在以客户端模式运行。从主节点,我可以很好地启动PySpark外壳。对于是否以及如何在这个集群上运行python/Pyspark
文件
,我有几个问题。如果我在其他地方有一个带有PySpark调用
的
python
文件
,比如在我
的
本地dev笔记本电脑上或者在某个地方
浏览 45
提问于2022-10-11
得票数 0
回答已采纳
2
回答
纱线上
的
火花,连接到/0.0.0.0:8032上
的
ResourceManager
java
、
hadoop
、
apache-spark
、
hadoop-yarn
我在我
的
开发机器上写了一个
spark
程序,这是一台mac。hadoop
的
版本是2.6,
spark
的
版本是1.6.2。hadoop集群有3个节点,当然都在linux机器上。我在idea IDE中以
spark
独立模式运行
spark
程序,它工作成功。但现在,我将其更改为
yarn
客户端模式,它不能成功工作,并给出如下消息:2017-02-23 11:01:33,725-[HL] INFO main org.apache.hadoop.
yarn
浏览 16
提问于2017-02-23
得票数 8
1
回答
以指定
的
Linux用户身份运行
Spark
executors
apache-spark
、
nfs
我有一个包含5个节点
的
spark
独立集群。所有节点都通过nfs挂载了相同
的
卷。这些挂载中
的
文件
具有特定
的
linux
文件
权限。当我以用户x(在所有节点上都可用,并且在所有节点上具有相同
的
uid)
的
身份
spark
提交作业时,我希望
spark
executors也以用户x
的
身份运行,以便作业只能访问用户x有权访问
的
文件
。我没有Kerberos,也没有<
浏览 0
提问于2020-02-22
得票数 1
1
回答
在Hadoop 2.0.0-cdh4.4.0上运行Apache星火
hadoop
、
apache-spark
、
hadoop-yarn
我有一个带有Hadoop2.0.0-cdh4.4.0
的
集群,我需要在它上运行
Spark
,并将纱线
作为
资源管理器
。我从得到了以下信息 您可以启用纱线配置
文件
,并可以选择设置
yarn
.version属性(如果它与hadoop.version不同)。星火只支持纱版本2.2.0及更高版本。我不想升级整个Hadoop包来支持SearVersion2.2.0,因为我
的
HDFS
拥有大量数据,升级它会导致服务中断时间过长,对我来说风险太大。我认为最好
的</e
浏览 4
提问于2016-03-11
得票数 0
回答已采纳
1
回答
在Hadoop上运行
Spark
java
、
maven
、
hadoop
、
apache-spark
在我
的
本地机器上,我安装了scala、
spark
、hadoop。我用maven做了一个用
spark
统计字数
的
示例程序。现在我必须
使用
spark
在Hadoop上做这些事情。我该怎么做呢??
浏览 2
提问于2015-05-06
得票数 1
2
回答
无法
使用
spark
-sftp api将数据帧写入目标sftp服务器
scala
、
apache-spark
、
spark-sftp
代码在
spark
-shell中运行良好,但当我
使用
scala代码部署我
的
jar时,它会失败,并显示以下错误:
spark
2-shell --queue xyz --packages com.springml:
spark
-sftp_2.11:1.1.3 val下面是我
的
sp
浏览 14
提问于2019-09-04
得票数 2
2
回答
在
spark
submit中将
hdfs
路径
作为
环境变量传递
hadoop
、
apache-spark
、
hdfs
、
hadoop-yarn
我正在尝试
使用
spark
submit在
yarn
集群上运行我
的
spark
程序,我正在读取一个放在
hdfs
中
的
外部配置
文件
,我正在运行作业- ./
spark
-submit --class com.sample.samplepack.AnalyticsBatch --master
yarn
-cluster --num-executors 3 --://namenode:8020/t
浏览 2
提问于2015-04-15
得票数 1
2
回答
指定
spark
提交
的
spark
驱动程序
apache-spark
我正在提交一个shell脚本中
的
spark
作业,该脚本有一堆环境变量
和
参数要传递给
spark
。奇怪
的
是,驱动程序主机不在这些参数中(但是有驱动程序内核
和
内存)。我不想要这种行为,因为1)我提交
的
jar只在其中一台机器上,2)驱动机器通常应该比其他机器小,如果它是随机选择的话就不是这种情况。到目前为止,我还没有找到在命令行中为
spark
-submit指定此参数
的
方法。我已经尝试了--conf
SPARK
_DRIVER_
浏览 22
提问于2017-03-03
得票数 0
1
回答
SPARK
YARN
:无法从客户端发送作业(org.apache.hadoop.ipc.Client -正在重试连接到服务器: 0.0.0.0/0.0.0.0:8032)
apache-spark
、
hadoop
、
hadoop-yarn
、
hadoop2
我正在尝试将
spark
作业发送到HA模式下
的
yarn
(没有
HDFS
)。 为了提交,我
使用
了org.apache.
spark
.deploy.SparkSubmit。当我
使用
活动
资源管理器
从机器上发送请求时,它工作得很好。但是,如果我尝试从装有备用
资源管理器
的
计算机上发送,作业将失败,并显示错误: DEBUG org.apache.hadoop.ipc.Client - Connecting to
spark<
浏览 196
提问于2018-12-22
得票数 0
4
回答
部署
spark
驱动程序应用程序而不提交
spark
java
、
apache-spark
假设我们有一个
spark
驱动程序,如下所示: public static void main(String[] args) { SparkConf conf = new).count(); System.out.println("Lines with a:
浏览 0
提问于2016-09-09
得票数 6
1
回答
ApacheSpark2.0.1与Spring集成
spring
、
apache-spark
因此,我希望按照spring ()提供
的
指南在我
的
spring应用程序中创建一个apache集成。现在我有几个问题,因为它似乎火花2.0.1不包括火花组装罐。在继续这样做
的
过程中,我有哪些选择,因为集成似乎依赖于jar?有办法用Apache2.0.1获取jar吗?
浏览 4
提问于2016-10-08
得票数 1
回答已采纳
1
回答
EMR - JavaSparkContext -IllegalStateException上
的
火花纱:库目录不存在
apache-spark
、
hadoop-yarn
、
emr
我有Java
Spark
作业,在EC2上以独立模式手动部署
Spark
1.6.0。conf.setMaster(args[0]); 当我提交它时,它开始运行得很好注意到
spark
.
yarn
.jars标志<e
浏览 1
提问于2017-02-18
得票数 1
1
回答
在群集模式下,结构化流不写入
HDFS
apache-spark
、
spark-structured-streaming
我
使用
的
是结构化流媒体。当我在构建sparksession时将master设置为local,并在
使用
spark
-submit时以客户端模式部署它时,应用程序成功地写入
HDFS
。当我注释master(local)
和
spark
-submit时,当我部署模式为集群时,它不会写入
HDFS
。我尝试在
YARN
模式下运行,并将其部署为集群模式。我是否需要指定
spark
.
yarn
.keytab,如下所示:感谢任何输
浏览 0
提问于2020-07-28
得票数 0
1
回答
从远程客户端在
Yarn
集群上提交
Spark
作业
hadoop
、
apache-spark
、
cluster-computing
、
hadoop-yarn
我想提交一个星火作业在一个远程纱线集群
使用
火花提交命令。我
的
客户端是一台Windows机器,集群由一个主服务器
和
4个从服务器组成。我将Hadoop配置
文件
从我
的
集群复制到远程机器上,即core-site.xml
和
yar-site.xml,并将火花-env.sh中
的
HADOOP_CONF_DIR变量设置为指向它们。但是,当我
使用
以下命令提交作业时:
spark
-submit --jars
hdfs
:/
浏览 0
提问于2018-03-13
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Hadoop生态圈初识
Spark简介和架构
五大最佳数据框架的快速比较
Hadoop或衰落,但核心组件生命力旺盛!
Spark实战(5)_Spark Core核心编程
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券