合并具有相同列名的Pyspark中的数据帧

文章/答案/技术大牛

发布

1回答

、、、

在使用pyspark join时，后缀有没有什么替代方法？或者在使用spark.sql(query)时数据框具有相同的列，我希望保留它们各自的dataFrame名称作为后缀。下面的代码是我在python中做的。df3')) df = pd.merge(left = df, right = df4, on= 'vin_17', how= 'inner', suffixes= ('',

浏览 23提问于2021-02-09得票数 1

1回答

将多个PySpark DataFrames与MergeSchema合并

、、

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况下再次使用merg

浏览 2提问于2020-06-22得票数 0

1回答

如何合并或连接spark中列号不相等的数据帧

、、、、

我正在做一个使用spark的项目。在某些阶段，我需要在单个数据帧中合并或连接3个数据帧。这些数据帧来自spark sql表，我使用了联合函数，它已经合并了两个表中具有相同编号的列，但我也需要合并不相等的列值。我现在很困惑，有没有办法在pyspark中合并或连

浏览 13提问于2016-09-22得票数 0

2回答

如何将Python列表添加到Spark DataFrame？

、、

我有一个10000*1的Python列表，我想把它添加到一个Spark DataFrame中，这样DataFrame就有10000行了。我该怎么做？

浏览 6提问于2017-03-01得票数 2

1回答

两个数据帧的Pyspark联合

我想做两个pyspark数据帧的联合。它们具有相同的列，但列的顺序不同我试过了 joined_df = A_df.unionAll(B_DF) 但结果是基于列顺序和混合结果的。有没有一种方法可以基于列名而不是列的顺序进行联合。提前感谢

浏览 5提问于2020-08-24得票数 1

回答已采纳

1回答

组合不同列数的Spark数据帧

、、

在this问题中，我问过如何组合具有不同列数的PySpark数据帧。给出的答案要求每个数据帧必须具有相同的列数才能将它们全部合并： from pyspark.sql import SparkSessionfor x in dfs_

浏览 13提问于2021-06-28得票数 1

回答已采纳

2回答

如何使用PySpark将这些多个csv文件(大约130,000个)有效地合并为一个大型数据集？

、、、、

我之前发布了这个问题，并得到了一些使用PySpark的建议。下面的压缩文件()包含一个名为data的文件夹，其中包含大约130,000个csv文件。我想把它们合并到一个单独的数据帧中。如果您打开任何csv文件，您可以看到它们都具有相同的格式，第一列用于日期，第二列用于数据系列。所以现在我改用PySpark，但是我不知道连接所有文件的最有效<e

浏览 14提问于2020-02-17得票数 2

回答已采纳

1回答

如何在pyspark中将重复列名的数据帧写入csv文件

、、、

如何在join操作后将具有相同列名的数据帧写入csv文件。目前，我正在使用以下代码。write.format('com.databricks.spark.csv').save('/home/user/output/',header = 'true')将在“/home/user/output”中写入数据帧&q

浏览 0提问于2018-10-03得票数 6

2回答

根据数据帧转换各个列的数据类型

我有一个包含100个cols的pysaprk数据帧：我有另一个pyspark dataframedf2，具有相同的列计数和列名称，但数据类型不同。df2=[(col1,bigint),(col2,double),(col3,string),..so on] 如何使df2中所有cols的<

浏览 3提问于2018-01-03得票数 0

1回答

PySpark数据帧写入orc不允许使用连字符的列名

、、、、

我是PySpark的新手。我有一个列名中包含连字符的csv文件。我可以成功地将文件读取到数据帧中。然而，当将df写入orc文件时，我得到一个错误，如下所示-当我通过删除连字符来重命名列时，我可以将数据帧写入但是我需要列名有连字符，因为我想把这个orc附加到列名<

浏览 32提问于2021-02-13得票数 0

1回答

检查列是否全部为空

、、

我有一个列名和一个数据帧。我想检查该列中的所有值是否都为空，如果为空，则从数据帧中删除该列。我所做的是检查具有非空值的列的计数，如果count等于0，则删除该列，但在pyspark中这似乎是一个开销很大的操作

浏览 0提问于2019-08-09得票数 0

1回答

如何向pandas dataframe to_csv追加不同的列

、、

我有一个熊猫数据帧读取csv文件(data.csv)。在处理数据之后，我有另一个数据框，它的列数少于data.csv文件中的列数，但仍然具有相同的列名。现在我想将新的数据框附加到data.csv文件中。ID name email 1

浏览 0提问于2017-12-26得票数 0

1回答

对大型数据帧中的多个列使用相同的名称

、

我使用19个单独的CSV文件创建了一个大型数据帧。所有CSV文件都具有相似的数据结构/类型，因为这些文件是来自多次运行的相同实验数据。在将所有CSV文件合并到一个大型数据帧中之后，我希望更改列名。我想对一些列使用相同的名称，例如column 2,5,8，..should有"Counts“作为列名</e

浏览 0提问于2019-10-31得票数 0

1回答

在pyspark中参数化连接条件

、、

我有一个列名列表，每次列名都不同。列名存储在列表中。因此，我需要传递列表中的列名(在下面的示例中，列名是其id和programid id)，以便在源数据帧和目标数据帧之间进行比较。在下面的示例中，我想检查src_id == id和src_programid == programid是否。from pyspark import S

浏览 14提问于2019-04-13得票数 0

1回答

Pyspark数据框架操作的单元测试用例

、、、

我已经用python写了一些带有sql上下文的代码，即pyspark，通过将csv转换为pyspark dataframe来对csv执行一些操作(df操作，如预处理、重命名列名、创建新列并将其附加到相同的我没有在数据帧上编写单元测试用例的想法。有谁能帮我在pyspark的dataframe上写单元测试用例吗？或者给我一些数据帧上的测试用例

浏览 1提问于2016-04-14得票数 3

1回答

给定一个类似csv的字符串，如何加载到Spark dataframe中？

、

我有一个字符串，格式与csv相同，第一行为列名，其余记录为数据。如何使用pyspark将此字符串加载到数据帧中。

浏览 0提问于2021-03-07得票数 0

1回答

合并两个数据帧

我想合并2个数据帧，我已经尝试了下面的代码，但它不起作用，by.companies = "permalink", 一个数据帧具有超过1,000,000行和8列，而其它数据帧具有60,000 +行，6列。Permalink是唯一<

浏览 0提问于2018-05-02得票数 0

1回答

使用配置单元元数据读取HDFS文件- Pyspark

、、、、

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中获取模式/列名称，并作为

浏览 15提问于2019-03-06得票数 0

回答已采纳

1回答

将dataframe元素与list的公共列名连接起来

、

我有一个包含不同数据帧的列表，我需要将具有相同列名的数据帧合并为一个，并将其写入CSV输出或单个数据帧。有9个数据帧的MERGED_LIST elements.The列名如下 array(

浏览 2提问于2016-01-19得票数 2

1回答

如何使用R计算同一数据帧中具有相同列名的列之间的差异

首先，我有两个数据帧，我使用公共列删除列的后缀来组合具有相同列但不同后缀的数据帧。现在，我必须计算R中数据帧中具有相同列名的每两列之间的差异

浏览 2提问于2019-05-02得票数 0

点击加载更多