在spark Scala中以编程方式在电子病历集群级别设置maximizeResourceAllocation=true

amazon-web-services、scala、apache-spark、amazon-emr

我正在尝试找到一种在spark scala中在EMR集群级别设置maximizeResourceAllocation=true属性的方法。我在spark- maximizeResourceAllocation=true命令中使用了--conf提交参数，但看起来没有任何效果。

浏览 7提问于2021-04-09得票数 1

2回答

EMR忽略火花提交参数(内存/核心/等)

amazon-web-services、apache-spark、amazon-emr

我正在尝试使用我的电子病历集群中的所有资源。集群本身是4 m4.4×大型机器(1个驱动程序和3个工作人员)，16 vCore，64 GiB内存，EBS存储:128 GiB什么都不做，留下火花-默认做他们的工作使用AWS关于如何在EMR中配置集群的指南在之后，我推导出以下

浏览 7提问于2021-09-22得票数 5

回答已采纳

3回答

使用亚马逊的"maximizeResourceAllocation“设置的Spark + EMR不会使用所有内核/vcore

apache-spark、hadoop-yarn、emr、amazon-emr、elastic-map-reduce

我正在为Spark运行一个电子病历集群(版本emr-4.2.0)，使用亚马逊特定的maximizeResourceAllocation标志，就像文档中记录的一样。根据这些文档，“此选项计算核心节点组中节点上的executor可用的最大计算和内存资源，并使用此信息设置相应的spark-defaults设置”。但是，在实际实例本身上，在/etc/hadoop

浏览 0提问于2015-12-01得票数 20

2回答

EMR没有检测到所有内存。

apache-spark、hadoop、amazon-emr

下面是设置：知道是什么原因造成的吗？谢谢。在UI中，它是28672，但在yarn-site.xml中，它是352768 以下是安装的应用程序列表：Hive 2.3.3, Pig 0.17.0, Hue 4.2.0, Spark 2.3.2, Ganglia

浏览 1提问于2019-08-02得票数 1

3回答

无法将Spark SQL DataFrame写入S3

scala、apache-spark、amazon-s3、apache-spark-sql、spark-dataframe

我已经在EC2上安装了Spark2.0，我正在使用SparkSQL，使用Scala从DB2中检索记录，我想写入S3，在那里我将访问键传递给spark Context..Following，这是我的代码：jcc.DB2Driver")).option("query", "SELECT * from tablename limit 10").load() df.write.save("s3n://data-analytics&#x

浏览 3提问于2016-09-01得票数 2

3回答

如何从提交的spark应用程序步骤中获取AWS EMR集群id和步骤id

amazon-web-services、scala、apache-spark、amazon-emr

场景：我在AWS EMR中运行Spark Scala作业。现在，我的工作转储了该应用程序独有的一些元数据。现在为了转储，我在位置"s3://bucket/key/<APPLICATION_ID>“中写入，其中ApplicationId为val APPLICATION_ID: String = getSparkSession.sparkContext.getConf.getAppId现在基本上有没有一种像"s3://

浏览 0提问于2020-09-13得票数 2

1回答

Amazon EMR仅使用一个核心节点，但我有两个核心节点

pyspark、amazon-emr

我在试着用电子病历来爬行。目标服务器可以识别客户机IP，因此我希望为每个核心节点运行一个executor。目前，我有一个主节点和两个核心节点。因此，我需要更改设置。(默认设置是在一个核心节点上运行两个执行器。) 这是我的集群的配置。[{"classification":"spark", "properties":{"maximizeResourceAllocation</em

浏览 13提问于2020-04-08得票数 0

1回答

如何从AWS日志中读取stderr日志

apache-spark、debugging、logging、pyspark、amazon-emr

通常，当我想要分析作业的性能或了解它失败的原因时，我会查看spark历史服务器中的DAG可视化和作业错误等。例如，如果作业由于堆错误或Fetchfailed等原因而失败，我可以在spark历史服务器中清楚地看到它。但是，当我查看写入日志URI S3存储桶的stderr日志文件时，似乎找不到这样的描述。我使用pyspark并将日志级别设置为 sc = spark.sparkContext sc.setLogLevel('DEBUG')

浏览 20提问于2021-01-19得票数 1

回答已采纳

1回答

如何在EMR for Scala对象上解决Spark* 3加载类失败的问题*

scala、apache-spark、sbt

我正在尝试构建一个简单的基于Scala的Spark应用程序并在电子病历中运行它，但是当我运行它时，我得到的是Error: Failed to load class: com.myorganization.MyScalaObj/foo.parquet") } 在常用的build.sbt文件中，我添加了几行代码，包括Scala版本、Spark库依赖项和mainClass (我在this questio

浏览 17提问于2020-10-02得票数 1

回答已采纳

1回答

与EC2相比，EMR在星火方面还有什么优势吗？

python-3.x、apache-spark、amazon-ec2

有了spark-ec2脚本(可通过GitHub for 2.0获得)，您的环境就准备好了。是否有任何令人信服的用例(除了一个远超的boto3 sdk接口)用于在EC2上运行电子病历？

浏览 2提问于2016-11-03得票数 3

回答已采纳

1回答

在EMR上启动蜂窝节约服务器时出错

java、hadoop、amazon-web-services、hive

在下面的代码中，我试图从spark启动一个蜂巢节约服务器：df.registerTempTable("test") } 作为E

浏览 3提问于2016-06-03得票数 4

回答已采纳

2回答

如何使用SDK在EMR集群上运行Scala代码？

scala、amazon-web-services、amazon-emr

我用Scala编写了在EMR中运行集群的代码。另外，我还有一个用Scala编写的Spark应用程序。我想在EMR集群上运行此Spark应用程序。但我可以在第一个脚本(启动EMR集群)中执行此操作吗？基本上；如果可能

浏览 1提问于2020-03-23得票数 0

1回答

AWS IAM用户角色或策略自包含

amazon-web-services、aws-sdk、amazon-iam

我想在IAM中创建一个用户，它基本上可以对该用户自己创建的资源执行任何操作(创建、修改、删除)。这将包括创建其他角色，并再次policies...but仅允许控制由父用户本身创建的资源的角色。我有一种感觉，这可以在政策文件中的条件下实现，但不确定具体如何实现。

浏览 5提问于2016-04-29得票数 2

1回答

在PYspark中创建RDD

pyspark

Spark中的一切都是以RDD (键和值对)的形式创建的。这有必要吗？可以通过RDD数据集创建/执行哪种类型的分析？请提供一个将其转换为RDD的示例和用法谢谢，Aditya

浏览 15提问于2019-04-30得票数 0

4回答

在EMR上不以群集模式工作的动态流示例(EMR 4.3，Spark1.6)

apache-spark、spark-streaming、amazon-emr、amazon-kinesis

在集群模式下，我试图在EMR4.3上运行示例的一个版本，但没有成功。具体来说，即使我可以访问流的元数据，也不会从Kinesis读取任何消息。相同的代码确实在相同的EMR集群上以客户端模式运行(即使用"local*")，但是当我尝试在集群模式下运行时，移动接收器的第一项工作就被卡住了：在Spark的流页面中，我没有看到任何内容： --我正在寻找关于为什么应用程序不能从Kinesis读取的

浏览 4提问于2016-03-06得票数 2

2回答

批量数据从关系型数据库转换到S3的最佳方法

amazon-s3、rdbms

在没有CDC的情况下，每天晚上都会复制整个数据库。它是连接本地站点和aws部件的VPN连接。有没有

浏览 4提问于2020-05-03得票数 0

3回答

Hadoop on EC2 vs Elastic Map Reduce

hadoop、amazon-web-services

下面是我能想到的一些利弊： Elastic Map Reduce =>亚马逊提供更好的支持，无需管理集群，成本更高(?)EC2 + Hadoop =>更好地控制您的hadoop配置，更便宜(?)

浏览 3提问于2013-03-03得票数 17

3回答

在Apache Spark中提交申请

java、apache-spark

我是Apache Spark的新手，正在尝试创建一个简单的应用程序来在本地模式下运行它，我意识到它有像spark-submit这样的脚本来提交应用程序。我正在寻找类似于Apache Storm的LocalCluster.submitTopology()以编程方式提交应用程序。请告诉我在Spark中对应的API。感谢在这方面的帮助。谢谢。

浏览 3提问于2016-09-20得票数 1

2回答

Amazon EMR和Yarn部署模式

amazon-web-services、pyspark、hadoop-yarn、amazon-emr

我正在学习Spark基础知识，为了测试我的Pyspark应用程序，我在AWS上创建了一个使用Spark、Yarn、Hadoop和Oozie的EMR实例。但我无法区分spark作业是在“客户端”模式下运行还是在“集群”模式下运行。我该如何确定呢？/usr/lib/hadoop/lib/native:/usr/lib/hadoop-lzo/lib/native spa

浏览 0提问于2020-01-27得票数 0

2回答

Spark on Amazon EMR：“等待来自池的连接超时”

apache-spark、amazon-emr

我在一个有三个服务器的小型Amazon EMR 5 (Spark 2.0)集群上运行Spark作业。我的作业运行了一个小时左右，失败了，错误如下。我的Spark程序只是在循环中执行以下操作:从S3加载数据，->进程->将数据写入S3上的不同位置。 at org.apache.

浏览 5提问于2016-08-28得票数 17

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

EMR忽略火花提交参数(内存/核心/等)

使用亚马逊的"maximizeResourceAllocation“设置的Spark + EMR不会使用所有内核/vcore

EMR没有检测到所有内存。

无法将Spark SQL DataFrame写入S3

如何从提交的spark应用程序步骤中获取AWS EMR集群id和步骤id

Amazon EMR仅使用一个核心节点，但我有两个核心节点

如何从AWS日志中读取stderr日志

如何在EMR for Scala对象上解决Spark* 3加载类失败的问题*

与EC2相比，EMR在星火方面还有什么优势吗？

在EMR上启动蜂窝节约服务器时出错

如何使用SDK在EMR集群上运行Scala代码？

AWS IAM用户角色或策略自包含

在PYspark中创建RDD

在EMR上不以群集模式工作的动态流示例(EMR 4.3，Spark1.6)

批量数据从关系型数据库转换到S3的最佳方法

Hadoop on EC2 vs Elastic Map Reduce

在Apache Spark中提交申请

Amazon EMR和Yarn部署模式

Spark on Amazon EMR：“等待来自池的连接超时”

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐