腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1501)
视频
沙龙
1
回答
在
spark
Scala
中
以
编程
方式
在
电子
病历
集群
级别
设置
maximizeResourceAllocation
=
true
amazon-web-services
、
scala
、
apache-spark
、
amazon-emr
我正在尝试找到一种
在
spark
scala
中
在
EMR
集群
级别
设置
maximizeResourceAllocation
=
true
属性的方法。我
在
spark
-
maximizeResourceAllocation
=
true
命令中使用了--conf提交参数,但看起来没有任何效果。
浏览 7
提问于2021-04-09
得票数 1
2
回答
EMR忽略火花提交参数(内存/核心/等)
amazon-web-services
、
apache-spark
、
amazon-emr
我正在尝试使用我的
电子
病历
集群
中
的所有资源。
集群
本身是4 m4.4×大型机器(1个驱动程序和3个工作人员),16 vCore,64 GiB内存,EBS存储:128 GiB什么都不做,留下火花-默认做他们的工作使用AWS关于如何在EMR
中
配置
集群
的指南
在
之后,我推导出以下
浏览 7
提问于2021-09-22
得票数 5
回答已采纳
3
回答
使用亚马逊的"
maximizeResourceAllocation
“
设置
的
Spark
+ EMR不会使用所有内核/vcore
apache-spark
、
hadoop-yarn
、
emr
、
amazon-emr
、
elastic-map-reduce
我正在为
Spark
运行一个
电子
病历
集群
(版本emr-4.2.0),使用亚马逊特定的
maximizeResourceAllocation
标志,就像文档
中
记录的一样。根据这些文档,“此选项计算核心节点组
中
节点上的executor可用的最大计算和内存资源,并使用此信息
设置
相应的
spark
-defaults
设置
”。但是,
在
实际实例本身上,
在
/etc/hadoop
浏览 0
提问于2015-12-01
得票数 20
2
回答
EMR没有检测到所有内存。
apache-spark
、
hadoop
、
amazon-emr
下面是
设置
: 知道是什么原因造成的吗?谢谢。
在
UI
中
,它是28672,但在yarn-site.xml
中
,它是352768 以下是安装的应用程序列表:Hive 2.3.3, Pig 0.17.0, Hue 4.2.0,
Spark
2.3.2, Ganglia
浏览 1
提问于2019-08-02
得票数 1
3
回答
无法将
Spark
SQL DataFrame写入S3
scala
、
apache-spark
、
amazon-s3
、
apache-spark-sql
、
spark-dataframe
我已经
在
EC2上安装了
Spark
2.0,我正在使用SparkSQL,使用
Scala
从DB2
中
检索记录,我想写入S3,在那里我将访问键传递给
spark
Context..Following,这是我的代码:jcc.DB2Driver")).option("query", "SELECT * from tablename limit 10").load() df.write.save("s3n://data-analytics
浏览 3
提问于2016-09-01
得票数 2
3
回答
如何从提交的
spark
应用程序步骤
中
获取AWS EMR
集群
id和步骤id
amazon-web-services
、
scala
、
apache-spark
、
amazon-emr
场景: 我
在
AWS EMR
中
运行
Spark
Scala
作业。现在,我的工作转储了该应用程序独有的一些元数据。现在为了转储,我在位置"s3://bucket/key/<APPLICATION_ID>“
中
写入,其中ApplicationId为val APPLICATION_ID: String = getSparkSession.sparkContext.getConf.getAppId现在基本上有没有一种像"s3://
浏览 0
提问于2020-09-13
得票数 2
1
回答
Amazon EMR仅使用一个核心节点,但我有两个核心节点
pyspark
、
amazon-emr
我
在
试着用
电子
病历
来爬行。目标服务器可以识别客户机IP,因此我希望为每个核心节点运行一个executor。目前,我有一个主节点和两个核心节点。因此,我需要更改
设置
。(默认
设置
是
在
一个核心节点上运行两个执行器。) 这是我的
集群
的配置。[{"classification":"
spark
", "properties":{"
maximizeResourceAllocation</em
浏览 13
提问于2020-04-08
得票数 0
1
回答
如何从AWS日志
中
读取stderr日志
apache-spark
、
debugging
、
logging
、
pyspark
、
amazon-emr
通常,当我想要分析作业的性能或了解它失败的原因时,我会查看
spark
历史服务器
中
的DAG可视化和作业错误等。例如,如果作业由于堆错误或Fetchfailed等原因而失败,我可以
在
spark
历史服务器
中
清楚地看到它。但是,当我查看写入日志URI S3存储桶的stderr日志文件时,似乎找不到这样的描述。我使用pyspark并将日志
级别
设置
为 sc =
spark
.sparkContext sc.setLogLevel('DEBUG')
浏览 20
提问于2021-01-19
得票数 1
回答已采纳
1
回答
如何在EMR for
Scala
对象上解决
Spark
3加载类失败的问题
scala
、
apache-spark
、
sbt
我正在尝试构建一个简单的基于
Scala
的
Spark
应用程序并在
电子
病历
中
运行它,但是当我运行它时,我得到的是Error: Failed to load class: com.myorganization.MyScalaObj/foo.parquet") }
在
常用的build.sbt文件
中
,我添加了几行代码,包括
Scala
版本、
Spark
库依赖项和mainClass (我
在
this questio
浏览 17
提问于2020-10-02
得票数 1
回答已采纳
1
回答
与EC2相比,EMR
在
星火方面还有什么优势吗?
python-3.x
、
apache-spark
、
amazon-ec2
有了
spark
-ec2脚本(可通过GitHub for 2.0获得),您的环境就准备好了。是否有任何令人信服的用例(除了一个远超的boto3 sdk接口)用于
在
EC2上运行
电子
病历
?
浏览 2
提问于2016-11-03
得票数 3
回答已采纳
1
回答
在
EMR上启动蜂窝节约服务器时出错
java
、
hadoop
、
amazon-web-services
、
hive
在下面的代码
中
,我试图从
spark
启动一个蜂巢节约服务器:df.registerTempTable("test") } 作为E
浏览 3
提问于2016-06-03
得票数 4
回答已采纳
2
回答
如何使用SDK
在
EMR
集群
上运行
Scala
代码?
scala
、
amazon-web-services
、
amazon-emr
我用
Scala
编写了
在
EMR
中
运行
集群
的代码。另外,我还有一个用
Scala
编写的
Spark
应用程序。我想在EMR
集群
上运行此
Spark
应用程序。但我可以
在
第一个脚本(启动EMR
集群
)
中
执行此操作吗?基本上;如果可能
浏览 1
提问于2020-03-23
得票数 0
1
回答
AWS IAM用户角色或策略自包含
amazon-web-services
、
aws-sdk
、
amazon-iam
我想在IAM
中
创建一个用户,它基本上可以对该用户自己创建的资源执行任何操作(创建、修改、删除)。 这将包括创建其他角色,并再次policies...but仅允许控制由父用户本身创建的资源的角色。我有一种感觉,这可以
在
政策文件
中
的条件下实现,但不确定具体如何实现。
浏览 5
提问于2016-04-29
得票数 2
1
回答
在
PYspark
中
创建RDD
pyspark
Spark
中
的一切都是以RDD (键和值对)的形式创建的。这有必要吗?可以通过RDD数据集创建/执行哪种类型的分析?请提供一个将其转换为RDD的示例和用法 谢谢,Aditya
浏览 15
提问于2019-04-30
得票数 0
4
回答
在
EMR上不以群集模式工作的动态流示例(EMR 4.3,
Spark
1.6)
apache-spark
、
spark-streaming
、
amazon-emr
、
amazon-kinesis
在
集群
模式下,我试图
在
EMR4.3上运行示例的一个版本,但没有成功。具体来说,即使我可以访问流的元数据,也不会从Kinesis读取任何消息。相同的代码确实在相同的EMR
集群
上
以
客户端模式运行(即使用"local*"),但是当我尝试
在
集群
模式下运行时,移动接收器的第一项工作就被卡住了:
在
Spark
的流页面
中
,我没有看到任何内容: --我正在寻找关于为什么应用程序不能从Kinesis读取的
浏览 4
提问于2016-03-06
得票数 2
2
回答
批量数据从关系型数据库转换到S3的最佳方法
amazon-s3
、
rdbms
在
没有CDC的情况下,每天晚上都会复制整个数据库。它是连接本地站点和aws部件的VPN连接。有没有
浏览 4
提问于2020-05-03
得票数 0
3
回答
Hadoop on EC2 vs Elastic Map Reduce
hadoop
、
amazon-web-services
下面是我能想到的一些利弊: Elastic Map Reduce =>亚马逊提供更好的支持,无需管理
集群
,成本更高(?)EC2 + Hadoop =>更好地控制您的hadoop配置,更便宜(?)
浏览 3
提问于2013-03-03
得票数 17
3
回答
在
Apache
Spark
中提交申请
java
、
apache-spark
我是Apache
Spark
的新手,正在尝试创建一个简单的应用程序来
在
本地模式下运行它,我意识到它有像
spark
-submit这样的脚本来提交应用程序。我正在寻找类似于Apache Storm的LocalCluster.submitTopology()
以
编程
方式
提交应用程序。请告诉我
在
Spark
中
对应的API。感谢在这方面的帮助。谢谢。
浏览 3
提问于2016-09-20
得票数 1
2
回答
Amazon EMR和Yarn部署模式
amazon-web-services
、
pyspark
、
hadoop-yarn
、
amazon-emr
我正在学习
Spark
基础知识,为了测试我的Pyspark应用程序,我
在
AWS上创建了一个使用
Spark
、Yarn、Hadoop和Oozie的EMR实例。但我无法区分
spark
作业是
在
“客户端”模式下运行还是
在
“
集群
”模式下运行。我该如何确定呢?/usr/lib/hadoop/lib/native:/usr/lib/hadoop-lzo/lib/native
spa
浏览 0
提问于2020-01-27
得票数 0
2
回答
Spark
on Amazon EMR:“等待来自池的连接超时”
apache-spark
、
amazon-emr
我
在
一个有三个服务器的小型Amazon EMR 5 (
Spark
2.0)
集群
上运行
Spark
作业。我的作业运行了一个小时左右,失败了,错误如下。我的
Spark
程序只是
在
循环中执行以下操作:从S3加载数据,->进程->将数据写入S3上的不同位置。 at org.apache.
浏览 5
提问于2016-08-28
得票数 17
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
基于Spark Streaming实时处理Kafka数据流
SparkStreaming&Kafka——Receiver方式
使用Spark Streaming处理Kafka数据流
大数据工程师进阶学习
Apache Spark强势崛起
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券