spark python读取多个csv到dataframe

文章/答案/技术大牛

发布

2回答

、、

我在一个数据记录上有多个csv文件。我可以连接到datalake，甚至可以列出文件。但我需要将这些文件放在一个数据帧中，以便可以将此数据帧加载到SQL中。加载到SQL也没有问题。问题是，只有datalakefolder中的最后一个文件的内容被读写到SQL中(因此也在dataframe中)。可能是因为每次都会覆盖数据帧。但我不知道如何在每个周期中将数据附加到数据帧中。filename = file.name tablename = "Obelix"

浏览 53提问于2020-01-24得票数 0

回答已采纳

3回答

利用火花放电在循环中添加火花DataFrames的有效方法

、、、、

低效方式( 2)在循环中，读取文本文件以激发dataframe df1，并将其附加到空中。df = spark.createDataFrame([],schema) filepath = '{}/{}'.format(textfiles_dir,x)

浏览 7提问于2020-03-27得票数 2

回答已采纳

1回答

如何在Spark中处理多个csv.gz文件？

、、、、

我有一个包含多个表的大型数据集。每个表被分成数百个csv.gz文件，我需要通过PySpark将它们导入到Spark中。有关于如何将"csv.gz“文件导入到Spark的想法吗？

浏览 22提问于2017-07-06得票数 1

1回答

在spark中从HDFS加载文件

、

我尝试从HDFS运行这个spark程序，因为当我在本地运行它时，我的pc上没有足够的内存来处理它。有人可以告诉我如何从HDFS加载csv文件，而不是在本地加载吗？下面是我的代码：import org.apache.spark.sql.Row;import org.apache.spark.sql.SparkSession; import

浏览 0提问于2018-04-19得票数 0

2回答

数据砖.从文件夹中读取CSV文件

、

从dbfs:/FileStore/shared_uploads/prasanth/Company.csv中选择* 我试图在蔚蓝数据砖中从文件夹中选择记录，但我面临以下错误：SQL语句: AnalysisException

浏览 3提问于2022-10-21得票数 0

3回答

PySpark序列化EOFError

、、、

我正在以火花DataFrame的形式读取CSV，并在其上执行机器学习操作。我一直得到一个Python序列化EOFError --知道为什么吗？conf)df = sqlContext.read.format('com.databricks.spark.csv').options(header='tru

浏览 5提问于2016-04-12得票数 34

1回答

使用架构更改pyspark dataframe标头名称

、、

我有10列左右的csv，我从不同的源获得数据，头名也不同。我试图使用模式更改标题名称，如下所示。True), return df_transform df = transform(spark.read.csv</em

浏览 1提问于2021-03-11得票数 0

回答已采纳

2回答

使用spark* dataFrame从HDFS加载数据*

、

我们可以在从硬盘文件系统中读取数据时使用DataFrame吗？我在HDFS中有一个制表符分隔的数据。我用谷歌搜索了一下，但我发现它可以用于NoSQL数据

浏览 1提问于2016-06-05得票数 5

回答已采纳

2回答

Spark错误地读取CSV

、、、

我想在spark中读取train.csv，但似乎spark不知何故无法正确读取该文件。我使用python将csv读取到pandas中，它显示了正确的值1作为project_is_approved中的第一个条目。当我使用spark (scala)读取csv时，我得到一个字符串，该字符串可能来自数据集中的其他地方。为什么会发生这种情况？大多数示例使用我用来读取csv

浏览 0提问于2018-06-08得票数 0

1回答

PySpark DataFrame写入空(零字节)文件

、、

我正在使用Spark3.1.1版本的PySpark DataFrame API进行本地设置。在读取数据、执行一些转换等之后，我将DataFrame保存到磁盘。我试着用parquet和csv格式编写它，结果是一样的。在编写之前，我调用了df.show()以确保DataFrame中有数据。= SparkSession.builder.appName('My Spark App').getOrCreate() data = spark.r

浏览 8提问于2022-05-11得票数 1

2回答

是否会在每次操作中从外部源读取数据？

、、

在星火外壳上，我使用下面的代码从csv文件中读取 val df = spark.read.format("org.apache.spark.csv").option("header", "true").option("mode", "DROPMALFORMED").csv("/opt/person.csv") //

浏览 5提问于2016-12-05得票数 1

回答已采纳

1回答

将python数据对象保存到google存储中，从dataproc中运行的pyspark作业中保存文件。

、、、

我在使用dataproc运行pyspark作业时收集度量，并且无法在google存储中持久化它们(只使用python函数，而不是使用Spark)。关键是我可以保存它们，在执行过程中，我成功地读取和修改了它们，但是当作业结束时，我的google存储文件夹中什么都没有。pdf = pd

浏览 0提问于2018-02-08得票数 2

1回答

读取Spark中的多个CSV文件并生成DataFrame

、、、

我使用下面的代码读取多个csv文件，并将它们转换为熊猫df，然后将其作为一个单独的熊猫df连接起来。最后再一次转换为星火DataFrame。我想跳过转换到熊猫df部分，只是想有火花DataFrame。=1/dayofmonth=1/hour=2/*.csv spark_df = spark.read.format("<

浏览 1提问于2021-04-14得票数 1

回答已采纳

1回答

将星星之火转换为熊猫的dataframe有例外:在使用基于文件的收集时不支持箭头。

、、、、

我已经使用链接：尝试了引用代码#read file# Convert the Spark DataFrame to a Pandas DataFrame pandas_df = df1.select

浏览 0提问于2019-08-26得票数 1

回答已采纳

1回答

Azure Blob存储错误无法解析spark中的日期

、、

我正在尝试使用python将azure datalake gen2中分配的文件读取到spark dataframe中。代码是from pyspark.sql import SparkSession key =appName) \ .set("fs.azure.account.key.myaccount.dfs.core.wind

浏览 2提问于2021-09-13得票数 0

1回答

Scala无法解析符号AnalysisException

在使用spark从S3读取文件时，我试图捕获一些异常，如果Path does not exist异常发生，我希望我的代码什么也不做。为此，我有如下代码：if (fileType == "csv"){

浏览 2提问于2021-09-02得票数 0

回答已采纳

1回答

Pyspark从路径存储桶中读取csv文件: AnalysisException: S3不存在

、

在Google Colab中，我正在尝试让PySpark从S3存储桶中读取csv。"df = spark.read.csv(SparkFiles.get("filename.csv"), sep=",", header"----> 6 df = spa

浏览 32提问于2021-10-15得票数 0

1回答

AWS作业create_dynamic_frame_from_options()打开特定的文件？

、、、

如果使用create_dynamic_frame_from_catalog()，则提供数据库名称和表名，例如，从Glue爬虫中创建，这实际上是命名特定的输入文件。我希望能够在没有爬虫和数据库的情况下完成同样的操作(指定一个特定的输入文件)。

浏览 1提问于2020-07-15得票数 1

2回答

在同一目录中创建具有和不具有标头的多个文件的PySpark DataFrame

、

我正在尝试从包含多个文件的目录创建数据帧。在这些文件中，只有一个文件有头。我想使用infer schema选项从头部创建模式。但是，当我读取目录中的所有文件时flights = spark.read.

浏览 0提问于2018-04-26得票数 1

1回答

PySpark如何将CSV读入数据帧，并对其进行操作

、、、、

我对pyspark非常陌生，正在尝试使用它来处理一个保存为csv文件的大型数据集。我想将CSV文件读入spark dataframe，删除一些列，然后添加新列。我该怎么做呢？这是我目前所学内容的精简版本： fields = data_portion.split(",")a, b: a.union(b)) .format(&q

浏览 2提问于2016-10-30得票数 7

回答已采纳

点击加载更多