PySpark数据帧:在自联接之后处理重复的列名

、

我有一个这样的数据框架(灵感来自于设置略有不同的问题)： Row(a=107831, f=3),from pyspark.sql.functions import col .filter(((col('a') == 107831) & (col我必须将df1和df2存储<e

浏览 0提问于2018-09-04得票数 2

回答已采纳

1回答

如何在pyspark中将重复列名的数据帧写入csv文件

、、、

如何在join操作后将具有相同列名的数据帧写入csv文件。目前，我正在使用以下代码。write.format('com.databricks.spark.csv').save('/home/user/output/',header = 'true')将在“/home/user/output”中写入数据帧"dfFinal“.But它在数据</e

浏览 0提问于2018-10-03得票数 6

1回答

for循环中的r- sample()生成相同的排列？

、

当我运行一个简单的for循环来计算一个向量的X排列数时，sample()函数为每次迭代返回相同的置换。下面是我的代码：labels <- read.table(options[2], header=F)vec <- 1:10 holder &l

浏览 2提问于2011-10-26得票数 3

回答已采纳

1回答

左外加入火花放电后下降功能不起作用

、、

我的火花放电版本是2.1.1。我正在尝试连接两个具有两个列( id和优先级)的数据文件(左外部)。我正在创建这样的数据格式：a_df = spark.sql(a) c_df = a_df.join(b_df, (a_df.id==b_df.id), 'left').drop(a_df.priority) 然

浏览 1提问于2019-02-11得票数 2

1回答

Pyspark数据框架操作的单元测试用例

、、、

我已经用python写了一些带有sql上下文的代码，即pyspark，通过将csv转换为pyspark dataframe来对csv执行一些操作(df操作，如预处理、重命名列名、创建新列并将其附加到相同的我没有在数据帧上编写单元测试用例的想法。有谁能帮我在pyspark的dataframe上写单元测试用例吗？或者给我一些数据帧上的</em

浏览 1提问于2016-04-14得票数 3

1回答

在databricks中使用Pyspark(Python)的连接不起作用

、、

使用Pyspark的内部联接不适用于使用分区csv、常规csv和SQL表创建的数据帧。例如:当我尝试在使用分区csv (存储在ADLS中)和普通csv创建的数据帧上应用内部联接时，输出df是用空值创建的，但当我在常规csv上创建的数据帧上联接时，它工作得很好。在</e

浏览 24提问于2019-12-19得票数 0

3回答

如何解决"SparkException:在Future.get中抛出异常“问题？

、、、

我正在处理两个pyspark数据帧，并对它们进行左反联接，以跟踪日常更改，然后发送电子邮件。Table_b, how='left_anti'预期输出是包含一些数据或不包含任何数据的pyspark数据帧。这个比较数据<e

浏览 0提问于2019-06-22得票数 3

1回答

在pyspark中参数化连接条件

、、

我有一个列名列表，每次列名都不同。列名存储在列表中。因此，我需要传递列表中的列名(在下面的示例中，列名是其id和programid id)，以便在源数据帧和目标数据帧之间进行比较。from pyspark import SparkContext, SparkConf, SQLContext from pyspark.sql.functions import col

浏览 14提问于2019-04-13得票数 0

1回答

自外连接中的不同列名

、、、、

在tSQL中编写自连接时，我可以避免重复的列名，如下所示：LEFT OUTER JOIN ContiguatedEvents AS SecondEvent假设我想从自联接中选择所有列那么，我如何区分列名而不在

浏览 2提问于2013-04-26得票数 0

回答已采纳

1回答

从PySpark数组列中删除重复项

、、、

我有一个PySpark Dataframe，它包含一个ArrayType(StringType())列。此列包含需要删除的数组中的重复字符串。假设我的数据文件名为df，我的列名为arraycol。我需要这样的东西：我的<

浏览 1提问于2019-01-14得票数 2

回答已采纳

1回答

如何在连接两个表时删除一个联接键

、、

现在，我有了一个名为ID的公共列，我将在其中加入。select a..*left join table_b as b on a.id=b.id 这将导致一个错误，因为id是重复的(在两个表中都存在，并同时包含在两个表中)。我不想在select语句中单独写下b的每一列。我有很多专栏，这很痛苦。我是否可以在join语句本身中重命名b的ID列，类似于SAS数据</em

浏览 1提问于2015-11-10得票数 2

1回答

pd.to_numeric(df['value']) df["diff"] = df.groupby(['GL','Class','month'])['value'].diff().fillna(df['value']) 我的pandasdf是这样的: index对象类对象 value float64 glid对象 month对象 GL对象 Libelle对象这是一个示例： ? “无法从重复<em

浏览 23提问于2021-01-29得票数 0

回答已采纳

1回答

如何在不将列列表临时存储到变量中的情况下重命名df列？

、、、

我正在提取Snowflake表并将其加载到PySpark DataFrame中，并且我想重命名它的列。现在，正在将加载的数据帧存储到一个变量中，然后访问列列表： spark.read.format("snowflake")我想到的第二种方法是预先定义原始和所需的

浏览 1提问于2021-04-21得票数 0

1回答

如何将参数传递给不接受字符串的函数(Pyspark)

、、、、

我在Spark中有连接函数。此函数需要一个联接条件，如果我们要加入的列没有相同的名称，则需要将它们作为联接表达式传递。我想编写一个函数，它将两个dataframes的列名作为参数，并在这些列上联接。问题是联接表达式不能是字符串。我看过像这个这样的问题，在这里，映射被用来映射变量名，但是这不符合我的需要。我需要删除使列名成为字符串的引号，并将它们传递给join函数。

浏览 16提问于2015-08-05得票数 1

回答已采纳

2回答

如何对联合数据帧进行分组以组合相同的行

、、、、

我刚刚在pyspark中联合了两个数据帧，它不是将日期相同的行组合在一起，而是将它们堆叠在一起，如下所示: df1 = +----------+------------+--------------+20190524| null| 5|| 20190524| null| 5

浏览 18提问于2019-06-05得票数 0

回答已采纳

2回答

合并数据帧中的额外行

、

我试图合并两个数据帧。框架不共享列(除了键)。因此，合并应该只在左边添加右边的列。然而，我也得到了额外的行。我不明白这两行是从哪里来的。但是，我不明白如何在键上进行正常的合并，结果会有两个额外的行。display(left), display(right) 左边正确<e

浏览 2提问于2017-10-02得票数 0

回答已采纳

1回答

pyspark笛卡尔连接:重命名重复列

我有一个pyspark数据帧，并且我想在其自身上执行笛卡尔连接。我在pyspark中使用了下面的函数 # Cross Join m_f_1 = m_f_0.withColumnRenamed('value', 'value_x').crossJoin(m_f_0.withColumnRenamed('value', 'value_y')).drop(m_f_0.area).drop(m_f_0.id) 我面临的</e

浏览 24提问于2019-05-20得票数 1

回答已采纳

2回答

R错误“由于类型不兼容，无法联接...”

、

我编写的代码可以在高吞吐量的生产环境中运行，以处理来自多个用户的各种输入。在这种环境中，我经常需要连接(使用dplyr)两个多列数据帧，这些数据帧具有不匹配类型的连接列，这会产生此错误。“由于类型不兼容，无法联接到...” 生产代码预计将处理输入csvs，这些csvs是0-1000行的150+列，具有12-20个联接列。我使用read.table

浏览 0提问于2018-03-11得票数 14

回答已采纳

1回答

大数据结构

还要解释两个join语句要实现的目标。

浏览 2提问于2021-10-28得票数 0

1回答

DataFrame --如何使用变量进行连接？

、、、、

在python上使用Spark数据帧连接两个数据帧时，我遇到了一些麻烦。我有两个数据帧，为了使它们对于每个数据帧都是唯一的，我必须更改列的名称，所以稍后我可以知道哪一列是哪一列。DataFrame中重复了这一点。然后，我尝试加入他们，使用以下代码： firstColumn = 'f

浏览 3提问于2016-09-20得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在pyspark中将重复列名的数据帧写入csv文件

for循环中的r- sample()生成相同的排列？

左外加入火花放电后下降功能不起作用

Pyspark数据框架操作的单元测试用例

在databricks中使用Pyspark(Python)的连接不起作用

如何解决"SparkException:在Future.get中抛出异常“问题？

在pyspark中参数化连接条件

自外连接中的不同列名

从PySpark数组列中删除重复项

如何在连接两个表时删除一个联接键

Pandas group-by错误重复轴，但没有重复值

如何在不将列列表临时存储到变量中的情况下重命名df列？

如何将参数传递给不接受字符串的函数(Pyspark)

如何对联合数据帧进行分组以组合相同的行

合并数据帧中的额外行

pyspark笛卡尔连接:重命名重复列

R错误“由于类型不兼容，无法联接...”

大数据结构

DataFrame --如何使用变量进行连接？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐