向pyspark dataframe添加包含文件名的附加列

可以通过以下步骤实现：

首先，导入必要的库和模块：

from pyspark.sql import SparkSession
from pyspark.sql.functions import input_file_name

创建一个SparkSession对象：

spark = SparkSession.builder.getOrCreate()

读取包含文件的数据集，并使用input_file_name()函数添加一个名为"filename"的附加列：

df = spark.read.format("csv").option("header", "true").load("path/to/files/*.csv")
df_with_filename = df.withColumn("filename", input_file_name())

在上述代码中，"path/to/files/*.csv"是包含文件的路径，可以根据实际情况进行修改。

最后，可以查看添加了附加列的DataFrame：

df_with_filename.show()

这样，你就可以成功向pyspark dataframe添加包含文件名的附加列了。

附加列的优势是可以帮助我们在处理多个文件时，跟踪每个记录所属的文件。这在处理大规模数据集、数据分析和数据挖掘任务中非常有用。

推荐的腾讯云相关产品是腾讯云的云数据仓库（Tencent Cloud Data Warehouse，CDW），它提供了强大的数据分析和处理能力，适用于大规模数据集的存储和分析。你可以通过以下链接了解更多关于腾讯云CDW的信息：腾讯云CDW产品介绍

请注意，本答案中没有提及其他云计算品牌商，如有需要，可以自行搜索相关信息。

如何使用PySpark将这些多个csv文件(大约130,000个)有效地合并为一个大型数据集？

python、apache-spark、memory、pyspark、bigdata

我之前发布了这个问题，并得到了一些使用PySpark的建议。下面的压缩文件()包含一个名为data的文件夹，其中包含大约130,000个csv文件。我想把它们合并到一个单独的数据帧中。我有16 of的RAM，当我访问前几百个文件时，我一直在耗尽RAM。这些文件的总大小只有300-400MB的数据。如果您打开任何csv文件，您可以看到它们都具有相同的格式，第一列用于日期，第二列用于数据系列。所以现在我改用PySpark，但是我不知道连接所有文件的最有效的方法是什么，对于pandas数据帧，我会像这样连接单个帧的列表，因为我想让它们在日期上合并： bigframe = pd.concat(

浏览 14提问于2020-02-17得票数 2

回答已采纳

1回答

在两个函数python之间传递数据

python-3.x、pyspark

from varname import nameof from pyspark.sql import SparkSession cwd = os.getcwd() def output_to_csv(df): df.coalesce(1).write.option("header", "true")\ .mode('overwrite')\ .csv(cwd + '/output_files/' + nameof(df)) return None def main()

浏览 10提问于2022-05-11得票数 0

回答已采纳

1回答

将python数据对象保存到google存储中，从dataproc中运行的pyspark作业中保存文件。

python、pyspark、google-cloud-storage、google-cloud-dataproc

我在使用dataproc运行pyspark作业时收集度量，并且无法在google存储中持久化它们(只使用python函数，而不是使用Spark)。关键是我可以保存它们，在执行过程中，我成功地读取和修改了它们，但是当作业结束时，我的google存储文件夹中什么都没有。是否有可能持久化python对象，或者这是只可能使用py行之有效的库？编辑：我添加了一个代码片段来澄清这个问题 # Python import pandas as pd # Pyspark from pyspark.sql import SparkSession # Google storage filepath file

浏览 0提问于2018-02-08得票数 2

3回答

向PySpark数据帧中添加组计数列

apache-spark、pyspark、dplyr

我来自R和到PySpark，因为它的出色的火花处理，我正在努力从一个上下文映射到另一个特定的概念。尤其是，假设我拥有如下数据集 x | y --+-- a | 5 a | 8 a | 7 b | 1 我希望添加一个列，其中包含每个x值的行数，如下所示： x | y | n --+---+--- a | 5 | 3 a | 8 | 3 a | 7 | 3 b | 1 | 1 在dplyr中，我只想说： import(tidyverse) df <- read_csv("...") df %>% group_by(x) %>% mutate(n

浏览 0提问于2018-02-14得票数 37

回答已采纳

1回答

从文件夹中读取多组csv文件，并使用spark或databricks并行插入到相应的目标表

python、apache-spark、pyspark、databricks

输入：abc.tar.gz -> un >文件夹: abc 文件夹结构的abc: 根文件夹: abc包含csv文件，每天5分钟从100个城市生成。 csv文件数量:100个城市*每小时12个文件* 24小时= 28800个csv文件 abc/ city1_0005.csv city1_0010.csv .. city1_2355.csv .. .. city2_0005.csv city2_0010.csv .. city2_2355.csv .. .. city100_0005.csv city100_0010.csv 功能需求：使用spark/ databricks为

浏览 1提问于2021-10-21得票数 1

1回答

用修改后的PySpark DataFrame覆盖现有的Parquet数据集

python、apache-spark、pyspark、apache-spark-sql、parquet

用例是将一列附加到Parquet数据集，然后在同一位置高效地重写。下面是一个很小的例子。创建一个pandas DataFrame并将其写入一个分区的Parquet数据集。 import pandas as pd df = pd.DataFrame({ 'id': ['a','a','a','b','b','b','b','c','c'], 'value': [0,1,2,3,4,5,6,

浏览 7提问于2021-10-14得票数 0

回答已采纳

1回答

使用Spark，如何在将所有内容加载到数据帧中时拾取文件名？

python、dataframe、apache-spark、pyspark、pyspark-dataframes

我的代码示例如下所示。 from pyspark.sql.functions import input_file_name from pyspark.sql import SQLContext from pyspark.sql.types import * sqlContext = SQLContext(sc) customSchema = StructType([ \ StructField("asset_id", StringType(), True), \ StructField("price_date", StringType(), True), \

浏览 11提问于2019-11-30得票数 0

2回答

星星之火:加载多个文件，执行相同的操作并合并到单个dataFrame中

python、apache-spark、pyspark、hdfs、rdd

我有很多小的，单独的.txt文件。对于这些文件中的每一个，我都有多个行被一个空格分割成两个列，start_time和end_time (一个浮点数)。我想： start_time)for 为每一行加载所有.txt文件计算包含的新列(end_time -每行添加一个新列，该列的名称为)，最后，我希望得到一个带有以下模式的dataFrame： +------------+--------------+------------+------------+ | file_name | start_time | end_time | duration | +------------+--

浏览 2提问于2020-04-19得票数 2

回答已采纳

1回答

Spark加载数据并将文件名添加为dataframe列

apache-spark、pyspark、apache-spark-sql

我正在使用包装器函数将一些数据加载到Spark中： def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\t")\ .option("header", "false")\ .option("mode", "DROPMALFORMED")\ .load(fi

浏览 2提问于2016-10-05得票数 52

回答已采纳

1回答

如何在Databricks中迭代以读取数据湖中存储在不同子目录中的数百个文件？

apache-spark、pyspark、apache-spark-sql、databricks、azure-databricks

我必须从Azure数据湖Gen2中读取数据库中的数百个avro文件，从每个文件中的Body字段中提取数据，并将所有提取的数据连接在一个唯一的数据中。要点是，所有要读取的avro文件都是存储在湖中不同子目录中的，如下所示：根/YYYY/mm/DD/HH/mm/ss.avro 这迫使我循环摄取和选择数据。我正在使用这个Python代码，其中list_avro_files是指向所有文件的路径列表： list_data = [] for file_avro in list_avro_files: df = spark.read.format('avro').load(file_

浏览 3提问于2020-06-17得票数 0

回答已采纳

1回答

读取csv文件时不返回数据格式结果。

csv、pyspark、databricks、azure-databricks

我正在尝试读取csv文件，下面是我使用的代码，它没有返回任何结果。在指定的路径中，csv文件中包含数据。当我使用ValidFile = spark.read.csv(ValidationFileDest, header = True)时，我遇到了一些问题，为此返回结果，但是列的数据是交换的，并且是空的，这就是我在代码中应用模式DROPMALFORMED的原因。但它没有返回任何结果。 parquetextension=".parquet" BronzeStage_Path = "dbfs:/mnt/bronze/stage/" +parentname+

浏览 7提问于2022-07-07得票数 0

1回答

从星火中的多个文件夹加载多个文件

scala、apache-spark

我有一个数据集，在主文件夹中包含多个文件夹，每个文件夹包含多个CSV文件。每个CSV文件都有三列，名为X、Y和Z。我想创建一个dataframe，以便前三列是三列X，Y，Z。我还想要另外两列，例如第四列包含读取CSV文件的文件夹的名称。第五列包含CSV文件的名称。如何在Scala和Spark中创建此数据？

浏览 5提问于2020-04-15得票数 5

回答已采纳

1回答

如何将列添加到PySpark数据column中，该数据column中包含另一列的第9分位数

apache-spark、pyspark、apache-spark-sql、quantile、percentile

我有一个非常大的CSV文件，它已经作为一个PySpark数据文件导入：df。dataframe包含许多列，包括列ireturn。我想要计算该列的0.99和0.01百分位数，然后将另一列添加到dataframe df中，作为new_col_99和new_col_01，它们分别包含0.99和0.01百分位数。我编写了下面的代码，它适用于小数据格式，但是当我将它应用到我的大型数据文件时会出现错误。 from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() df = spark.read.csv(&#

浏览 0提问于2019-01-15得票数 3

1回答

使用PySpark有效地将多个小的csv文件(130,000个，每个列有2列)合并成一个大框架

python、csv、apache-spark、memory、pyspark

这是我之前在上发布的一个问题的又一次跟进我有以下数据集其中有一个文件列表(约13万份)。在主目录中列出了它们的子目录，因此第一个单元可能是A/AAAAA，文件位于/data/A/AAA.csv。这些文件都具有类似的格式，第一列称为日期，第二列是一系列都命名为值的列。因此，首先，值列名需要重命名为每个csv文件中的文件名。第二，帧需要完全外部连接，以日期为主要索引。第三，我希望保存文件并能够加载和操作它。文件大约在N行(日期数)X 130,001左右。我正在尝试将所有文件完全连接到一个数据文件中，我以前尝试过使用熊猫，但是当我试图连接文件列表时内存不足，有人建议我尝试使用PySpark。

浏览 4提问于2020-02-18得票数 0

回答已采纳

4回答

如何从文件夹中的多个csv文件创建一个数据帧

python、r、dataframe、concatenation

我在一个文件夹中有一个CSV文件列表(A1.csv，A2.csv........D10.csv)，其中包含两列但有几行的数据。基本上，我想从所有csv文件中提取最后一行和第二列的值并创建一个数据框，该数据框将包含第一列中的文件名和第二列中提取的值(C)。现在，我可以创建另一个CSV文件列表，然后将它们连接到一个数据帧中。是否可以将CSV文件产生的每个数据帧存储到一个列表中，然后将它们连接起来( rbind在R中做了什么)。我在R中尝试了这段代码，它可以工作。但我想学习R或Python中更有效的方法(python更好，因为我正在尝试学习python)。 #read through csv

浏览 0提问于2017-11-26得票数 0

1回答

如果列具有要绕过并读取csv和chars..how的特殊模式，则SparkDataFrame.dtypes将失败

pyspark、spark-csv

如果csv文件包含带有特殊字符的列，则推断Spark Dataframe的架构将引发错误。测试样本foo.csv id，评论1，#Hi 2，你好 spark = SparkSession.builder.appName("footest").getOrCreate() df= spark.read.load("foo.csv", format="csv", inferSchema="true", header="true") print(df.dtypes) raise ValueError("Cou

浏览 12提问于2020-01-28得票数 0

4回答

无法访问pyspark中的本地文件。

apache-spark、pyspark

我试图在Yarn框架上以客户端模式读取本地文件。我也无法在客户端模式下访问本地文件。 import os import pyspark.sql.functions as F from os import listdir, path from pyspark import SparkConf, SparkContext import argparse from pyspark import SparkFiles from pyspark.sql import SparkSession def main(): spark = SparkSession \ .builder \

浏览 1提问于2018-10-18得票数 1

回答已采纳

1回答

在Spark DataFrame SQL中获取不带路径的文件名

apache-spark、apache-spark-sql、spark-dataframe

我有一个Spark Dataframe，它通过spark-xml包含来自已解析的XML文件夹的数据。我想添加一个包含源文件的列，这可以通过input_file_name()函数轻松完成。问题是这会返回整个路径，而我只需要文件名。因此，我尝试在spark SQL中注册一个UDF，它提取文件名，但最后得到一个空列。这个函数可以工作，但显然它得到了空值作为输入，我不明白为什么。有没有人知道这个问题以及如何解决它？编辑:示例如果我通过df.selectExpr('input_file_name()')选择filename列，那么我会得到路径和文件名。但是，如果我定义一个函数，简

浏览 0提问于2016-11-10得票数 3

2回答

从csv文件读取增量/插入数据集

csv、apache-spark、pyspark、spark-dataframe

我有一个定期更新的数据集，作为一系列CSV文件接收这些更改。我想要一个只包含每一行的最新版本的Dataframe。是否有一种方法可以在火花/火花放电中加载整个数据集，从而允许并行性？示例：文件1(键，值) 1,ABC 2,DEF 3,GHI 文件2(键，值) 2,XYZ 4,UVW 文件3(键，值) 3,JKL 4,MNO 应导致：1,ABC 2,XYZ 3,JKL 4,MNO 我知道，我可以通过顺序加载每个文件，然后使用一个反连接(用于踢出旧值被替换)和一个联合，但这并不是让工作负载是并行的。

浏览 3提问于2017-06-28得票数 0

回答已采纳

1回答

csv和PySpark的Unicode问题

python、csv、pyspark、unicode、encoding

我有一个包含unicode字符的PySpark数据帧，如下所示： from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() df = spark.createDataFrame([{"a": 0, "b": 1, "c": "somestring\u0001bla"}]) 结果是：我希望通过读取或写入新的csv文件来消除这种情况。我尝试过不同的选项： option("encoding", "UTF

浏览 0提问于2021-03-19得票数 0

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

向pyspark dataframe添加包含文件名的附加列

相关·内容

如何使用PySpark将这些多个csv文件(大约130,000个)有效地合并为一个大型数据集？

在两个函数python之间传递数据

将python数据对象保存到google存储中，从dataproc中运行的pyspark作业中保存文件。

向PySpark数据帧中添加组计数列

从文件夹中读取多组csv文件，并使用spark或databricks并行插入到相应的目标表

用修改后的PySpark DataFrame覆盖现有的Parquet数据集

使用Spark，如何在将所有内容加载到数据帧中时拾取文件名？

星星之火:加载多个文件，执行相同的操作并合并到单个dataFrame中

Spark加载数据并将文件名添加为dataframe列

如何在Databricks中迭代以读取数据湖中存储在不同子目录中的数百个文件？

读取csv文件时不返回数据格式结果。

从星火中的多个文件夹加载多个文件

如何将列添加到PySpark数据column中，该数据column中包含另一列的第9分位数

使用PySpark有效地将多个小的csv文件(130,000个，每个列有2列)合并成一个大框架

如何从文件夹中的多个csv文件创建一个数据帧

如果列具有要绕过并读取csv和chars..how的特殊模式，则SparkDataFrame.dtypes将失败

无法访问pyspark中的本地文件。

在Spark DataFrame SQL中获取不带路径的文件名

从csv文件读取增量/插入数据集

csv和PySpark的Unicode问题

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐