rdd :尝试将rdd dataframe作为Py4JJavaError文件写入本地目录时调用o389 parquet时出错

、、、、

我正在尝试使用Jupyter笔记本中的以下代码将dataframe写入我的本地目录中的parquet文件： rdd1 = rdd.coalesce(partitions) :

浏览 192提问于2021-11-20得票数 1

1回答

是否可以允许用户在FastAPI或烧瓶中下载的结果？

、、、

最后，我想把DataFrame写到用户的磁盘上，作为一个拼花文件。由于以下几个原因，我不太清楚如何将文件以拼花格式传递给用户： df.write.parquet('out/path.parquet')将数据写入out/path.parquet的一个目录，当我试图将数据传递给将我知道存在的单个.parquet文件<

浏览 3提问于2020-01-15得票数 0

回答已采纳

1回答

当写入和重读到parquet文件时保留数据分区。

、

当我将带有定义分区的数据文件写入磁盘时，将其作为拼板文件，然后再次重新读取拼图文件，分区就会丢失。是否有一种方法可以在写入和重读过程中保留数据的原始分区？第二个数字在我看来也不错:我得到了100个*.parquet文件、100个*.parquet.crc文件和两个_SUCCESS文件，所以这个拼图文件仍然由100个分区组成。第三行显示，在再次读取拼花文件<

浏览 0提问于2018-06-28得票数 8

回答已采纳

1回答

星星之火Java映射函数将被执行两次

、、、

我有上面的代码作为火花驱动程序，当我执行我的程序，它正确地保存所需的数据作为Parquet文件。Read json string array into a Dataframe (execution 1)dataSchemaDF.write().parquet</

浏览 0提问于2016-10-16得票数 5

回答已采纳

4回答

如何在不覆盖的情况下将火花流输出写入HDFS

、

经过一些处理后，我有了一个DStream[String，ArrayListString]，所以当我使用saveAsTextFile将它写入hdfs时，在每批处理之后它都会覆盖数据，那么如何通过附加到以前的结果来写入新的结果output.foreachRDD(r => {}) 编辑::如果有人可以帮助我将输出转换成avro格式，然后用附加的方式写入HDFS

浏览 3提问于2017-06-12得票数 3

回答已采纳

1回答

从包含实际文件路径的文本文件中生成rdd

、

我必须从包含原始文本文件路径的文本文件中生成rdd。我有一个目录，其中包含三个文件-- hw2-file-10mb.txt(the hw2-file.txt、实际文本文件)和hw2.ipynb，这是我必须处理的一个jupyter笔记本。我的hw2-file.txt包含 with open('.：调

浏览 0提问于2019-06-18得票数 0

3回答

如何在Apache Spark中处理变化的拼图模式

、、、、

我遇到了一个问题，我在S3中将拼图数据作为每日数据块(以s3://bucketName/prefix/YYYY/MM/DD/的形式)，但我无法从不同的日期读取AWS EMR Spark中的数据，因为一些列类型不匹配但是当编写拼图文件时，问题就出现了。据我所知，当我使用元数据文件编写parquet时，这些文件包含了parquet文件的所有部分

浏览 0提问于2016-12-02得票数 24

回答已采纳

1回答

如何在LabeledPoint中序列化PySpark中的RDD？

、、、

我需要保存一个RDD of ( key，val)，其中键是字符串，val是LabeledPoint RDD (label，SparseVector)。错误如下所示。：调用Py4JJavaError时出错：：net.razorvine.pickle.objects.ClassDictConstructor.construct(ClassDictConstructor.java方法，当它不需要时，我尝试传递它的参数。编辑2:按照zero323的建议(谢谢

浏览 23提问于2015-11-12得票数 3

回答已采纳

2回答

持久化火花流输出

、、

我对我尝试过的每一种方法都有异议。但是，对于我来说，所提供的解决方案似乎并不理想，例如，作为一个用户状态--只有在数据很少的情况下，拥有单个输出文件才是个好主意。将RDD数据直接插入到单元表中。我尝试过调整批处理间隔大小，运行更多的使用者实例。

浏览 3提问于2015-10-01得票数 8

3回答

Spark 2.3 Dataframe分区-想要在n个分区中对key上的数据进行分区

、、、

我需要spark(scala)数据帧分区方面的帮助。我需要将一个键列划分为n个分区，所有与相同key相关的行都应该在同一个分区中(即key不应该跨分区分布)例如:假设我有下面的数据帧诸若此类提前感谢

浏览 4提问于2020-03-13得票数 0

3回答

如何配置pyspark默认写入HDFS？

、、

默认情况下，我正在尝试将spark写入HDFS。目前，当我在RDD上调用saveAsTextFile时，它会写入我的本地文件系统。具体地说，如果我这样做：rdd.saveAsTextFile("/tmp/sample") 它将写入我的本地文件<

浏览 0提问于2017-11-28得票数 1

1回答

在多个分区的DataFrame中，读取单个文件的单块分割结果

、、、

上下文 | year=2020 \ | year=2021 \尽管我检索了正确的数据，但火花仍然有两个分区连接到DataFrame

浏览 2提问于2021-12-17得票数 2

回答已采纳

2回答

将RDD分解到多个ORC表上

、

我正在尝试将存储在S3中的数据转换为JSON逐行文本文件，将其转换为结构化的、列式格式，如S3上的ORC或Parquet。 StructField("sessionId", StringType)我把这部分做得很好，但是尽可能高效地将数据写回我尝试了三种方法：

浏览 0提问于2016-12-14得票数 6

回答已采纳

4回答

在循环中评估火花DataFrame会随着每次迭代而减慢，所有的工作都是由控制器完成的。

、、

我正在尝试使用星火集群(运行在AWS EMR上)来链接具有公共元素的项目组。本质上，我有一些元素的组，如果其中一些元素在多个组中，我想要创建一个包含来自所有这些组的元素的组。我从一个表(DataFrame) item_links开始，它有两个列：item和group_name。项在每个组中是唯一的，但在此表中不是唯一的。一个项目可以在多个组中。我将这些信息作为额外的列附加到原始DataFrame中。然后，通过按组名分组并在每个组中找到这个新列的最小值来创建一个新的DataFrame。我使

浏览 4提问于2016-08-22得票数 13

回答已采纳

1回答

为什么在减少分区数量时，spark数据帧重新分区比合并更快？

、

我有一个有100个分区的df文件，在保存到HDFS作为.parquet之前，我想减少分区的数量，因为拼图文件太小(<1MB)。当我尝试重新分区时：这个过程一点也不慢，每个文件2-3秒。背景：我正在将</em

浏览 16提问于2021-05-20得票数 1

0回答

Spark:在写入本地文件系统时，saveAsTextFile()只创建成功文件，不创建部件文件

、

我正在使用以下命令将RDD写入文件：当FilePath为HDFS path (hdfs://node:9000/folder/)时，一切正常。当FilePath是本地路径(file:///home/user/folder/)时，一切似乎都正常。输出文件夹

浏览 9提问于2017-06-14得票数 9

1回答

Spark - on电子病历saveAsTextFile不会将数据写入本地目录

、、

在尝试将RDD写入本地文件时，我在name/master节点上没有得到任何结果。在我之前的EMR集群上(使用bootstrap脚本安装了相同版本的Spark，而不是作为EMR的附加组件)，数据将写入name节点上的本地目录。现在我可以看到它出现在集群中其他节点上的"/home/hadoop/test/_temporary&

浏览 2提问于2015-08-06得票数 0

1回答

熊猫到PySpark会产生OOM错误而不是溢出到磁盘上

、、、

我有一个用例，在这个用例中，我想迭代地将数据加载到Pandas中，使用外部函数(即xgboost，在示例代码中没有显示)进行一些处理，然后将结果推到单个PySpark对象(RDD或DF)中。在将数据存储为RDD或Dataframe时，我尝试让PySpark溢出到磁盘，同样，源是Pandas DataFrame。似乎什么都没有用，我一直在破坏Java驱动程序，无法加载数据。或者，我尝试加载我的数据而不使用基本的text

浏览 1提问于2017-09-18得票数 0

1回答

Spark scala输入/输出目录

、、

我这里有两个问题，这两个问题都是在spark环境/ Windows本地运行的:1. scala程序是如何识别输入的。2.如何将输出写入文本文件。) counts.saveAsTextFile("file:/home/root1/Avinash/output") } 当我将文件放在/home/root1/Avinash

浏览 0提问于2016-04-29得票数 0

1回答

星火本地模式-所有作业只使用一个CPU核心

、、、

谢谢1)使用sqlContext从磁盘(S3)读取gzipped CSV文件1，并使用com.databricks.spark.csv (S3)读取DataFrame DF1。2)使用sqlContext从磁盘(S3)读取gzipped CSV文件2，并将其从磁盘(S3)读入DataFrame DF2。5)呼吁农村发展和农村发展联盟 6)在统一的RDDs上调用reduceByKey()以“按键合并”，因此有一个Tuple>)，只有一个特定键的实例(在RDD1和

浏览 2提问于2016-10-31得票数 6

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

是否可以允许用户在FastAPI或烧瓶中下载的结果？

当写入和重读到parquet文件时保留数据分区。

星星之火Java映射函数将被执行两次

如何在不覆盖的情况下将火花流输出写入HDFS

从包含实际文件路径的文本文件中生成rdd

如何在Apache Spark中处理变化的拼图模式

如何在LabeledPoint中序列化PySpark中的RDD？

持久化火花流输出

Spark 2.3 Dataframe分区-想要在n个分区中对key上的数据进行分区

如何配置pyspark默认写入HDFS？

在多个分区的DataFrame中，读取单个文件的单块分割结果

将RDD分解到多个ORC表上

在循环中评估火花DataFrame会随着每次迭代而减慢，所有的工作都是由控制器完成的。

为什么在减少分区数量时，spark数据帧重新分区比合并更快？

Spark:在写入本地文件系统时，saveAsTextFile()只创建成功文件，不创建部件文件

Spark - on电子病历saveAsTextFile不会将数据写入本地目录

熊猫到PySpark会产生OOM错误而不是溢出到磁盘上

Spark scala输入/输出目录

星火本地模式-所有作业只使用一个CPU核心

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐