无法在spark Executor中创建DynamoDB客户端

、、、

我需要将流数据加载到DynamoDB表中。我试过下面的代码。:DynamoDB = new DynamoDB(client), executor 5): java.lang.NoClassDefFoundError: C

浏览 4提问于2017-07-20得票数 1

1回答

火花DynamoDB连通性问题

、

需求：使用Scala从本地机器读取DynamoDB(不是本地的，而是在AWS上)的数据。:无法在DynamoDB中查找桌面音乐。(Task.scala:121)，org.apache.spark.executor.Executor$TaskRunner$$anonfun$10.apply(Executor.scala:403)，org.apache.spark.util.Utils$.tryWith

浏览 0提问于2020-11-19得票数 2

1回答

如何将发电机数据库表中的数据读入dataframe？

、、、

下面是我试图从发电机数据库中读取数据并将其加载到数据帧中的代码。使用scanamo也可以做到这一点吗？编辑-1 现在我可以使用下面的代码创建dataframe，并且能够从dynamodb表中读取数据(如果它不包含null )。(Task.scala:123) at org.apache.spark.executor.Executor$TaskRunner$$anonfun$10.apply(Executor.scal

浏览 25提问于2019-12-17得票数 1

回答已采纳

1回答

火花壳适用于适当的纱线资源设置，但不适用于火花提交。

纱线上的火花壳(客户端模式)使用$spark_HOME/conf/spark defaults.conf(创建5个执行器)中指定的纱线配置。spark.master yarnspark.executor.cores1 spark.executor.memor

浏览 0提问于2018-03-04得票数 2

回答已采纳

1回答

在对solr进行了几次成功的更新之后，抛出SolrException: java.util.concurrent.TimeoutException:无法连接到ZooKeeper

、、

在我的应用程序中，我使用localhost:2182,localhost:2183连接到solr，使用下面的代码。builder = new CloudSolrClient.Builder(zkHosts, Optional.empty());我使用多个spark在更新失败后，它可以很好地处理一些1100-1300条记录的更新，但出现以下异常： Caused by: org.apache.solr.common.SolrException: java.u

浏览 1提问于2018-09-20得票数 0

1回答

在Spark中对DynamoDB进行简单的RDD写入

、、、

只是在尝试将基本的RDD数据集导入到DynamoDB时卡住了。", "table_x")at org.apache.hadoop.dynamodb.write.AbstractDynamoDBRec

浏览 0提问于2016-03-02得票数 4

1回答

无法成功运行从DynamoDB读取的AWS作业

、、

我已经成功地运行了在Dynamodb和AWS重新转换中读取我的表的爬虫。表现在在目录中。我的问题是当运行Glue作业从Dynamodb读取数据到Redshift时。它似乎无法从Dynamodb中读取。at org.apache.spark.rdd.RDD.iterator(RDD.scala:337) at org.apache.spark.shuffle.ShuffleWriteProcessor.writ

浏览 11提问于2022-02-01得票数 2

回答已采纳

3回答

获取emr-ddb-hadoop.jar以连接DynamoDB和EMR Spark

、、、

我有一个DynamoDB表，需要连接到EMR Spark SQL才能在该表上运行查询。我得到了EMR Spark Cluster，上面有版本标签emr-4.6.0和Spark 1.6.1。我指的是文档：spark-shell --jars /usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jarWarning稍后，当我使用以下命令导入Dyn

浏览 3提问于2016-05-06得票数 5

1回答

SparkSession应用程序源代码Config属性在AWS默认情况下不覆盖JupyterHub & Zeppelin

、、、、

我有星火驱动程序设置使用Zeppelin和或JupyterHub作为客户端进行AWS EMR上的交互式火花编程。但是，当我创建具有自定义配置属性(应用程序名称、内核#、executor ram、# of executor、序列化程序等)的SparkSession时，它不会覆盖这些信任的默认值(在Spark UI和spark.conf.get(...)中的Environment选项卡下确认)。与任何Spark一样，EMR上的这些

浏览 0提问于2019-08-15得票数 0

2回答

如何限制木星笔记本的PySpark集群资源？

、、、

我希望限制运行在朱庇特笔记本上的PySpark代码的资源使用。我试过了但是它抛出了以下错误：

浏览 6提问于2020-12-18得票数 0

回答已采纳

2回答

在纱线上以群集模式运行Spark时不使用SparkConf设置

、、、

"); conf.set("spark.driver.memory", "1800m"); conf.set("spark.yarn.am.memory", "1800m"); conf.set(&qu

浏览 2提问于2017-05-04得票数 5

回答已采纳

2回答

如何在pyspark中设置分割器和减速器的数量

、、、

我正尝试在amazon EMR实例上运行pyspark以从dynamodb读取数据，我想知道如何在我的代码中设置拆分和工作的数量？我按照下面两篇文档中的说明使用了下面的代码，该代码当前连接到dynamoDB并读取数据。": "dynamodb", "dynamodb.input.tableName": "Table1", "dynamodb.endpoint&

浏览 2提问于2017-12-03得票数 0

1回答

Spark+Mesos初始作业未接受任何资源；请检查群集UI以确保工作进程已注册并具有足够的资源

、、、

我在云上有一个主人，有3个主人和10个奴隶。所有从属设备都显示为活动状态，但在Mesos Master UI中分配的资源为0：在主页上，我可以看到10个激活的代理，但其中9个无法访问：我试图在集群上运行的作业永远停留在运行状态Spark需要启动并运行(在每个从服务器上运行start-slve.sh)，还是mesos需要？会出什么问题呢？

浏览 3提问于2020-09-02得票数 0

2回答

星团模式下环境变量的设置

、、

我正在浏览这个，它提到：在cluster模式下在纱线上运行Spark时，需要使用conf/spark-defaults.conf文件中的spark.yarn.appMasterEnv.另外，如果我创建自己的自定义conf文件，并将其指定为--configurations的一部分(在星火提交中)，它会解决我的用例吗？

浏览 3提问于2017-11-28得票数 4

1回答

更改闪烁中的JVM时区

、、

我正拼命地试图更改Sparklyr中JVM的时区(使用spark 2.1.0)。我要GMT无处不在。我正在设置：在我的spark_config()文件中，但不幸的是，在Spark中，我仍然(在System下)看到user.timezone被设置为America/New_York。

浏览 0提问于2018-09-14得票数 2

回答已采纳

1回答

警告cluster.YarnScheduler:初始作业未接受任何资源

、、、

我在发火星雨的工作。您可以从作业时间线中注意到，它无限期地运行，没有添加或删除任何资源。

浏览 7提问于2017-06-16得票数 7

回答已采纳

1回答

如何在Spark* executor崩溃后重新启动它(在YARN客户端模式下)？*

、、、

有可能在Spark executor崩溃后重新启动它吗？我知道失败的任务会在现有的工作Spark executor中重新运行，但我希望有一种方法可以重新启动崩溃的Spark executor。在客户端模式下，我在YARN上运行pyspark 1.6

浏览 16提问于2016-07-31得票数 2

回答已采纳

1回答

是什么控制了一个应用程序拥有多少星团？

、

在用于静态分区的docs 的这一页中，它说“使用这种方法，每个应用程序都会获得它可以使用的最大资源数量”。我只是在想，这些最大的资源是什么？在另一个类似的注意事项上，是否有办法改变每个作业或任务级别上所要求的内存？

浏览 3提问于2015-01-14得票数 10

回答已采纳

4回答

如何在Spark单机版上调试Spark应用？

我正在尝试使用一个主节点和几个工作节点在集群上调试Spark应用程序。我已经成功地使用Spark独立集群管理器设置了主节点和工作节点。我下载了包含二进制文件的spark文件夹，并使用以下命令设置工作节点和主节点。这些命令是从spark目录执行的。./bin/spark-class org.apache.spark.deploy.worker.Worker master-URL./sbin/spar

浏览 0提问于2015-03-17得票数 21

1回答

将dataframe写入Ceph存储时出错

、、、

在我的组织中，我目前正在探索如何使用Ceph来取代HDFS来运行AI/ML工作负载。作为该计划的一部分，我们设置了一个Ceph集群，并使用Rook将其导入到Kubernetes中。在我使用Ceph进行测试的过程中，我能够使用Kubernetes上的Spark访问Ceph Storage，也能够使用S3CMD读取数据。但是，我在将数据写回Ceph Storage时遇到错误。下面是我在写回数据时得到的代码和错误。希望有人能帮上忙。",

浏览 2提问于2021-03-04得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

火花DynamoDB连通性问题

如何将发电机数据库表中的数据读入dataframe？

火花壳适用于适当的纱线资源设置，但不适用于火花提交。

在对solr进行了几次成功的更新之后，抛出SolrException: java.util.concurrent.TimeoutException:无法连接到ZooKeeper

在Spark中对DynamoDB进行简单的RDD写入

无法成功运行从DynamoDB读取的AWS作业

获取emr-ddb-hadoop.jar以连接DynamoDB和EMR Spark

SparkSession应用程序源代码Config属性在AWS默认情况下不覆盖JupyterHub & Zeppelin

如何限制木星笔记本的PySpark集群资源？

在纱线上以群集模式运行Spark时不使用SparkConf设置

如何在pyspark中设置分割器和减速器的数量

Spark+Mesos初始作业未接受任何资源；请检查群集UI以确保工作进程已注册并具有足够的资源

星团模式下环境变量的设置

更改闪烁中的JVM时区

警告cluster.YarnScheduler:初始作业未接受任何资源

如何在Spark* executor崩溃后重新启动它(在YARN客户端模式下)？*

是什么控制了一个应用程序拥有多少星团？

如何在Spark单机版上调试Spark应用？

将dataframe写入Ceph存储时出错

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐