如何在尝试将Py4j JavaError写入CSV文件时解析PySpark DataFrame？

、

fifa_df.write.mode("overwrite").csv("C:\\Users\\003608\\Desktop\\pyspark_info\\csv_files")或fifa_df.write.mode("overwrite").csv("C:\\Users\\003608\\Desktop\\pyspark_info\\csv_test.csv") 两者都试过了我得到的错

浏览 14提问于2020-10-28得票数 0

1回答

Azure Blob存储错误无法解析spark中的日期

、、

我正在尝试使用python将azure datalake gen2中分配的文件读取到spark dataframe中。代码是from pyspark.sql import SparkSession key =# write csv该文件已被读取且写入良好，但我

浏览 2提问于2021-09-13得票数 0

1回答

如何将大型spark数据帧(5M行)/csv文件拆分成每个数据帧具有相同标题的区块(优化方案)

、、、、

我有一个很大的csv文件(5 5GB)，其中包含大约50M行。我想让更小的块csv(~1M行)从原始的csv文件。我尝试了下面的方法来分块，但花了很多时间来执行分块：data = dask.dataframe.read_csv('test.csv') data.t

浏览 1提问于2020-09-02得票数 0

1回答

如何将具有大量列计数的csv文件导入ApacheSpark2.0

、、、、

我遇到了将多个带有over的小型csv文件导入ApacheSpark2.0时遇到的问题，这些文件作为Google集群运行。有少数字符串列，但真正感兴趣的只有1作为类标签。当我在pyspark中运行以下代码时 csvdata = spark.read.csv("gs://[bucket]/csv/*.csv", header=True,mode="D

浏览 4提问于2016-08-27得票数 6

回答已采纳

1回答

PySpark加载CSV AttributeError：'RDD‘对象没有属性'_get_object_id’

、、、

我正在尝试将CSV文件加载到星火DataFrame中。line: (line.split(';')[0], line.split(';')[1])).collect() File "/usr/hdp/2.5.6.0-40/spark/python/lib/pyspark.zip/pyspark/context.py", l

浏览 6提问于2017-08-11得票数 1

回答已采纳

1回答

如何在pyspark中将重复列名的数据帧写入csv文件

、、、

如何在join操作后将具有相同列名的数据帧写入csv文件。目前，我正在使用以下代码。')将在“/home/user/output”中写入数据帧"dfFinal“.But它在数据帧包含重复列的情况下不起作用。30| 4| 70|上述dataframe当写入<em

浏览 0提问于2018-10-03得票数 6

1回答

pyspark在所有执行器上均匀地拆分负载

、、、、

我有一个5节点集群，我正在使用pyspark将一个100k的csv文件加载到一个dataframe中，并执行一些etl操作，并将输出写入到一个parquet文件中。当我加载数据帧时，如何在每个执行器处理20k记录的所有执行器0上均匀地划分数据集。

浏览 2提问于2017-10-06得票数 1

1回答

Databricks -即使指定为CSV文件，也可以将CSV写入Parquet文件夹

、、

但是，我有一位同事想要CSV格式的数据，这样他们就可以将这些信息输入到本地SQL数据库中。day}.parquet"这一切都很好，就在下面，我编写了如下代码： df.write.format("csv").mode("overwrite").save(f"/mnt/successfactors-work/{dimname}/

浏览 5提问于2022-07-07得票数 0

回答已采纳

1回答

如何在pyspark中写入csv文件时为列保留数据中的空格(4space)

、、、、

我有一个带有一条记录的输入csv文件。当我在pyspark中读取文件时，dataframe分别有三列a、b、c。A和c有数据，b有4个空格的数据。将文件写入csv时，4个空格的数据丢失，它将以空字符串的形式写入文件。aaaa, , bbbbaaaa,"", bbbb 如何按原

浏览 19提问于2020-02-20得票数 0

1回答

如何修复'DataFrame‘对象没有属性’聚结‘？

、、、、

在一个PySpark应用程序中，我试图将数据转换成熊猫，然后将结果写入csv文件。df.toPandas().set_index("s").transpose()在执行此脚本

浏览 2提问于2017-09-28得票数 5

回答已采纳

1回答

将url处的pyspark* csv复制到dataframe，而不写入磁盘*

、、

如何在不写入磁盘的情况下将url上的csv读取到Pyspark中的dataframe中？我尝试过以下几种方法，但都没有成功：from io import StringIO url = "https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/dat

浏览 2提问于2017-12-16得票数 11

回答已采纳

1回答

为什么AWS上的Spark与AbstractMethodError失败？

、、、、

当我试图将我的DataFrame输出到XML时，我会得到一个错误。/pyspark/sql/readwriter.py"，第550行，保存文件"/mnt/yarn/usercache/root/appcache/application_1517883778506_0016/pyspark/sql/utils.py"，调用文件的第63行中，在

浏览 0提问于2018-02-06得票数 4

1回答

用Spark的from_json解析任意JSON

、

如您所见，每个JSON blob本身的形式为{A:B}，其中A是一个随机/任意字符串，B是一个格式相对良好的JSON对象。,doctor]ix,name,profession2,sarah,scientist因为我不知道A的可能键，所以很难将JSONblob解析为StructType (我无法枚举所有可能的键)或MapType (from_json不支持)： >>> rdd.withColumn('parsed'

浏览 2提问于2018-05-14得票数 4

2回答

在同一目录中创建具有和不具有标头的多个文件的PySpark DataFrame

、

我正在尝试从包含多个文件的目录创建数据帧。在这些文件中，只有一个文件有头。我想使用infer schema选项从头部创建模式。但是，当我读取目录中的所有文件</em

浏览 0提问于2018-04-26得票数 1

1回答

能够读进RDD，但不能读到火花数据格式

、

回溯(最近一次调用)：文件"/opt&#x

浏览 3提问于2022-01-25得票数 0

2回答

CSV python的Dataframe索引(仅限)

、、、

我正在尝试将一些数据转换为pandas数据帧。不知何故，数据帧原来是空的。print语句显示以下内容(部分)Columns: []Empty DataFrameIndex: [data "2434" "33" "37" "name@emai

浏览 2提问于2014-11-17得票数 2

1回答

在CSV文件中处理JSON对象并保存到PySpark DataFrame

、、、、

我有一个CSV文件，它包含JSON对象以及其他数据，比如String，Integer。如果我尝试将文件读取为CSV，那么JSON对象将在其他列中重叠。from pyspark.sql.types import *# Initializing SparkSession and setting up thefile source filepath = "s3a://file.csv<

浏览 2提问于2020-09-23得票数 1

1回答

Pyspark不能将大型数据输出到csv。会话设置不正确？

、、、

我的程序应该连接几个表，格式化一些数据，描述最终的结果表并以csv格式导出它。我在将数据导出到csv方面有问题。我的方法引发以下错误： 22/11/30 15:08:50 216 ERROR TaskSetManager:/pyspark/sql/functions.py", line

浏览 10提问于2022-11-30得票数 0

5回答

AnalysisException: u“给定spark中sqlContext中的[ list]输入列，无法解析'name‘

、、

我尝试了一个简单的例子，比如： data.cache() #

浏览 3提问于2016-08-18得票数 18

1回答

Pyspark:从表中读取数据并写入文件

、、、

我正在使用HDInsight spark集群来运行我的Pyspark代码。我尝试从postgres表中读取数据，并将其写入如下所示的文件中。pgsql_df返回的是DataFrameReader而不是DataFrame。所以我无法将DataFrame写到文件中。为什么"spark.read“返回DataFrameReader。from pyspark.sql.types import * from pyspark</

浏览 40提问于2020-04-24得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Azure Blob存储错误无法解析spark中的日期

如何将大型spark数据帧(5M行)/csv文件拆分成每个数据帧具有相同标题的区块(优化方案)

如何将具有大量列计数的csv文件导入ApacheSpark2.0

PySpark加载CSV AttributeError：'RDD‘对象没有属性'_get_object_id’

如何在pyspark中将重复列名的数据帧写入csv文件

pyspark在所有执行器上均匀地拆分负载

Databricks -即使指定为CSV文件，也可以将CSV写入Parquet文件夹

如何在pyspark中写入csv文件时为列保留数据中的空格(4space)

如何修复'DataFrame‘对象没有属性’聚结‘？

将url处的pyspark* csv复制到dataframe，而不写入磁盘*

为什么AWS上的Spark与AbstractMethodError失败？

用Spark的from_json解析任意JSON

在同一目录中创建具有和不具有标头的多个文件的PySpark DataFrame

能够读进RDD，但不能读到火花数据格式

CSV python的Dataframe索引(仅限)

在CSV文件中处理JSON对象并保存到PySpark DataFrame

Pyspark不能将大型数据输出到csv。会话设置不正确？

AnalysisException: u“给定spark中sqlContext中的[ list]输入列，无法解析'name‘

Pyspark:从表中读取数据并写入文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐