尝试通过Java SDK将记录从Spark DataFrame写入Dynamodb时，任务不可序列化

、、、、

(new AWSStaticCredentialsProvider(new BasicAWSCredentials("access_key", "secret_key"))).build()val table = dynamoDB.getTable("tbl_name") ""

浏览 4提问于2017-08-01得票数 1

3回答

Spark:写入Avro文件

、、、

我在Spark，我有一个来自Avro文件的RDD。org.apache.hadoop.io.NullWritable], job.getConfiguration) 在运行此Spark时，Spark会报告Schema$recordSchema不可序列化。

浏览 1提问于2013-12-16得票数 17

1回答

Spark任务不可序列化

、、、

我们正在迁移我们的变异代码从Hadoop到星火运行在卡桑德拉之上(通过DataStax企业)。DSE 4.7在生产中，4.8在发展中。我们的数据的每一个文本值都是前缀和后置“。这在sqlCont

浏览 3提问于2016-03-23得票数 1

回答已采纳

2回答

火花驱动程序如何序列化发送给执行器的任务？

RDD通过对象中用户定义的函数/方法进行一系列转换。这些函数以任务的形式传递给执行者。这些任务是火花核心中定义的Scala类的实例。我假设用户定义的函数/方法包装在一个任务对象中，并传递给执行者。在这里，序列化到底有多大帮助？火花上下文如何读取用户代码并将其转换为任务？

浏览 3提问于2015-07-12得票数 10

回答已采纳

2回答

火花数据处理中的操作错误

、、

在构建DataFrames之前，我对文件进行解压缩，将未压缩的csv文件写入磁盘，并使用它创建DataFrame。问题是:如果我从磁盘中删除csv文件(使其成为临时文件)，在创建dataframe之后，我无法对dataframe执行任何操作(例如year_df.count())。抛出Spark.exception：在对此进行了一些

浏览 0提问于2017-01-09得票数 1

回答已采纳

5回答

spark java.util.logging.Logger

、

我正在使用Spark来运行一个使用java.util.logging.Logger的现有Java包，并且我得到了一个错误： at org.apache.spark.api.java.JavaRDDLike$class.foreach(JavaRDDLike.scala:332)at org.apache.spark.api.java

浏览 10提问于2016-08-12得票数 0

4回答

在DataFrames上执行RDD操作

、、、、

我需要在这些DataFrame上执行RDD操作。是否可以执行map、flatMap等RDD操作。下面是我的示例代码：这是我的dataframe，我需要将这个dataframe转换成RDD，并在这个新的RDD上操作一些RDD下面是我如何将dataframe转换为RDD的代码 RDD<Row> java = df.select("COUNTY&quo

浏览 2提问于2016-12-14得票数 0

1回答

我试图通过JAVA代码在SAP上使用spark来执行查询。在调用数据框架对象的任何操作时，当调用java.io.NotSerializableException.In时，将抛出NotSerializableException。:任务中的异常不能在、org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:315)、org.apache.<

浏览 0提问于2016-03-29得票数 2

1回答

火花-如何将~20 to的数据从一个DataFrame写到一个蜂窝表或hdfs？

、、

我试图使用以下方法将数据写入Hive表：sqlContext.sql("INSERT OVERWRITE TABLE my_table：调用py4j.protocol.Py4JJavaError时出错：org.apache.spark.SparkException:由于阶段失败而中止的作业: 95561个任务(1024.0 MB)的序列化结果的总大小大于(SparkPlan.s

浏览 0提问于2018-06-17得票数 2

1回答

Apache使用动态分区覆盖和S3委员会将Parquet文件写入到S3

、、、、

确保在提交到S3之前将火花暂存文件写入本地磁盘，因为在S3中进行暂存，然后通过重命名操作提交，这是非常昂贵的。除了最后一颗子弹外，我什么都有。但是，这意味着我的spark-staging文件是在S3中进行的，然后使用删除和重命名操作提交，这是非常昂贵的。为了在本地磁盘上放置文件，我尝试使用。我希望能够将我的暂存文件写入本地磁盘，然后将结果提交给S3。但是，我还需要能够动态地覆盖单个分区，而不必

浏览 33提问于2022-01-17得票数 2

2回答

如何在Spark2.3.0UDF中构造和持久化每个工作人员的引用对象？

、、、、

在Spark2.3.0结构化流作业中，我需要将一列附加到从现有列的同一行的值派生的DataFrame中。在每个工作节点上构造和持久化该对象一次的最佳方法是什么，这样就可以对每个批处理中的每条记录重复引用该对象？注意，对象是不可序列化的。我目前的尝试是将</em

浏览 1提问于2018-06-06得票数 2

回答已采纳

5回答

如何在火花中写入CSV

、、、、

我使用的是Spark，到目前为止，我的所有文件都保存为part-00000。有什么想法，如何使我的火花保存为文件指定的文件名？

浏览 2提问于2014-05-07得票数 33

回答已采纳

2回答

正确使用.cache()和.unpersist()

、、、

这是我所做的： val grc = Tables.getGRC(spark) // This is my first df.val grc_cache = grc.cache() { sigma = sigma.union(Tables.getSIGMA(spark, use_databas

浏览 43提问于2019-09-06得票数 0

回答已采纳

1回答

Jupyter notebook、pyspark、hadoop-aws问题

、、、、

我正在尝试同时使用Jupyter、PySpark和S3文件(通过s3a协议)。,file:///home/ashic/.ivy2/jars/com.amazonaws_aws-java-sdk-bundle-1.11.199.jar'), ('spark.submit.pyFiles-3.0.0.jar,file:///home/ashic/.ivy2/j

浏览 1提问于2018-11-16得票数 2

1回答

调用外部web服务的Databricks UDF不能序列化(PicklingError)

、、、、

我正在使用Databricks，并且在dataframe中有一个列，我需要用外部web服务调用来更新每个记录。在本例中，它使用并执行服务调用。这段代码在没有作为一个UDF运行的火花(即。但是，当我试图将其称为UDF时，它会抛出一个序列化错误。如果我使用lambda和带有rdd的映射，也会发生同样的情况。该模型使用fastText，可以通过普通的http调用或使用WebService SDK从Postman或python调用它--只是当它是一个UDF时，

浏览 1提问于2019-11-12得票数 1

回答已采纳

1回答

无法在scala工作表中运行Intellij

、、

但是，当我尝试从工作表中运行它时，我会遇到以下情况之一： .option("header", "true") // Displays the content of the Dat

浏览 12提问于2017-04-05得票数 4

3回答

Spark函数与UDF性能？

、、、、

Spark现在提供了可以在数据帧中使用的预定义函数，而且它们似乎是高度优化的。我最初的问题是哪个更快，但我自己做了一些测试，发现spark函数至少在一个实例中快了10倍。有没有人知道为什么会这样，什么时候udf会更快(只有在存在相同的spark函数的情况下)？下面是我的测试代码(在Databricks社区版上运行)：from faker import Factory

浏览 26提问于2016-07-11得票数 58

回答已采纳

2回答

为什么星火比Hadoop地图减少更快

、

有人能用单词计数的例子来解释为什么星火比地图减少更快吗？

浏览 5提问于2015-09-14得票数 15

1回答

DynamicFrame.fromDF在使用glueContext.write_from_options()写入数据库时会造成极大的延迟

、

要写入的数据大小约为15 be。将数据从approx.)Perform读取到火花数据存储(在火花数据处理上的3-5秒glueContext.create_dynamic_frame.from_options()转换(约5秒))将数据<em

浏览 9提问于2022-10-14得票数 0

1回答

执行多个数据连接时的PySpark OutOfMemoryErrors

、、

在尝试将许多不同的数据文件连接在一起时，我在PySpark中遇到了PySpark。我要加入的主dataframe大约有10列，但也包含一个uid列(我正在加入)。我只是尝试加入1500行数据。但是，当所有这些数据显然都可以放入内存中时，我将遇到频繁的OutOfMemory错误。我真的怀疑任务序列化/反序列化存在一些问题。例如，当我为一个典型的阶段查看我的事件Timeline时，我看到它的

浏览 1提问于2018-07-12得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark:写入Avro文件

Spark任务不可序列化

火花驱动程序如何序列化发送给执行器的任务？

火花数据处理中的操作错误

spark java.util.logging.Logger

在DataFrames上执行RDD操作

从火花连接到SAPHANA

火花-如何将~20 to的数据从一个DataFrame写到一个蜂窝表或hdfs？

Apache使用动态分区覆盖和S3委员会将Parquet文件写入到S3

如何在Spark2.3.0UDF中构造和持久化每个工作人员的引用对象？

如何在火花中写入CSV

正确使用.cache()和.unpersist()

Jupyter notebook、pyspark、hadoop-aws问题

调用外部web服务的Databricks UDF不能序列化(PicklingError)

无法在scala工作表中运行Intellij

Spark函数与UDF性能？

为什么星火比Hadoop地图减少更快

DynamicFrame.fromDF在使用glueContext.write_from_options()写入数据库时会造成极大的延迟

执行多个数据连接时的PySpark OutOfMemoryErrors

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐