pyspark:如何填充列中的值并替换为另一个带条件的dataframe中的列

文章/答案/技术大牛

发布

1回答

、

为了便于理解，一个原始的(40列)和另一个转换的(60列)，例如我只提到了3列。包含40列的df1_raw2 Montreal Quebec4 EdmontonJohn NewfoundlandID city State 2

浏览 24提问于2020-11-13得票数 0

回答已采纳

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时

浏览 16提问于2020-12-30得票数 2

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame带有时间戳字符串的

浏览 4提问于2021-11-19得票数 0

回答已采纳

2回答

pyspark withColumn，如何改变列名

、、

有没有办法用pyspark 2.1.0创建/填充列，其中列的名称是另一个列的值？colName to targetColName's value cols = dataFrame.columnsTypeError: &#x

浏览 0提问于2018-09-13得票数 1

1回答

根据条件向pyspark* dataframe添加列*

、、、、

我的data.csv文件有三列，如下所示。我已经将这个文件转换为python spark dataframe。A B C| 2 | 0 | 5 |我想在spark dataframe中添加另一列D，值为Yes或No，条件是如果B列中的相应值大于A B C D | 1 | -3

浏览 0提问于2019-02-23得票数 3

回答已采纳

2回答

通过对多列进行分组，用平均值填充缺失值

、

描述：“如何用平均、按条件分组数据和按Pyspark中的模型列来填充价格列中缺失的值?我的python代码如下:cars['price'] = np.ceil(cars['price'].fillna(cars.groupby(['condition', 'model' ])['price错误

浏览 2提问于2021-12-01得票数 2

回答已采纳

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

、、、

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark dataframe (d2)具有相同<e

浏览 3提问于2021-12-11得票数 0

1回答

如何对pyspark* dataframe列应用函数*

、、

我正在尝试将我的pandas代码转换为pyspark dataframe，并尝试在dataframe的一列上应用函数。我在pandas dataframe中做了一些如下的事情。在操作了几个列值之后，将新列添加到pandas数据帧中，如下所示。return USD_amount salesData['Sales (IN

浏览 15提问于2020-01-03得票数 1

回答已采纳

1回答

如何基于动态条件在PySpark中创建新列

、

我需要在PySpark Dataframe中创建一个新列。但是，创建这个新列的条件是动态的。df.withColumn( expr(column_expression )第二个带expr()的代码不是创建新列。请建议如何解决这一问题。

浏览 7提问于2022-06-17得票数 0

回答已采纳

1回答

如何用dataframe子部分中的另一列中的值替换一个列中的值？

、、

我必须对dataframe的"activity“列执行group和pivot操作，并用"quantity”列之和填充由pivot产生的新列。但是，其中一个活动列必须使用“成本”列的总和填充。分组和支点之前的数据帧：| id | quantity |

浏览 1提问于2022-08-01得票数 0

回答已采纳

1回答

迭代Pyspark* dataframe的列，并根据条件填充新列*

、

我有一个需求，那就是在PySpark数据帧中有一堆电子邮件、姓名和其他客户信息。我的所有电子邮件字段都被屏蔽了，只有一个字段除外，我想在我生成的新列中获取该字段的名称。df.withColumn("is_base", F.when(df[name].like("%*%"), None).otherwise(name)) 我知道上面的代码覆盖了我正在创建的新字段，只是得到了数据帧中<

浏览 9提问于2019-11-23得票数 0

2回答

pyspark数据帧中所有列的总计数为零

、、

我需要找出pyspark dataframe中所有列中0的百分比。如何在数据帧中找到每一列的零计数？附言:我尝试过将数据帧转换为pandas数据帧，并使用了value_counts。但是，对于大型数据集来说，推断它的观察值是不可能的。

浏览 0提问于2018-08-20得票数 4

1回答

如何在PySpark中查找具有非空值的列集合

、、、

我有一个带有n个cols的Pyspark Dataframe (Column_1，Column_2 .Column_n)。我必须再添加一个列，其中列的集合以逗号分隔。条件:如果两个或更多的cols具有值，则填充集合列中的逗号分隔值，例如。下面是三个cols的数据。

浏览 33提问于2020-06-23得票数 1

1回答

如何根据另一个数据填充空

、

我有两个列dataframe和一个列包含一些空，例如。3 因此，我想使用df1 s.t来填写df1中的空。我首先从df2创建一个查找字典，然后使用df1上的apply来填充空值。但是我并不确定在pyspark中使用什么函数，我看到的大多数替换null都是基于简单的条件，例如，将所有的空值填充为某个列的一个常量值

浏览 2提问于2018-03-14得票数 1

回答已采纳

1回答

将列有条件地添加到数据帧中

、、、、

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

1回答

如何将DataFrame.withColumn与条件一起使用

、、

我想知道如何在完整的DataFrame上创建一个新列，但其值仅基于DataFrame的一个子集(即，基于条件应用的某些函数)。在本例中，我希望创建一个列，该列将每个ID与Value列中按ID的正值之和相关联。|| 1 | 12 | 17 | +--

浏览 1提问于2019-02-02得票数 0

1回答

PySpark:使用有1000个字段但列数可变的模式创建RDD->DF->Parquet

、、、、

我正在尝试读取一个ElasticSearch索引，该索引有数百万个文档，每个文档都有可变数量的字段。我有一个模式，它有1000个字段，每个字段都有自己的名称和类型。现在，当我创建一个RDD低谷ES-Hadoop连接器，然后通过指定模式转换为DataFrame时，它失败了- 我有几个问题。1.是否可能有一个包含可变字段数的RDD/DF？如果不是，除了为每个列中缺少的字段添

浏览 0提问于2019-03-11得票数 2

1回答

如何检测pyspark中的单调下降

、、、

我正在使用spark DataFrame，我希望检测来自特定列的任何值，其中该值不是单调递减的。对于这些值，我想根据排序条件将它们替换为以前的值。下面是一个概念性的示例，假设我有一个值为[65, 66, 62, 100, 40]的列。值"100“不遵循单调下降趋势，因此应替换为62。

浏览 15提问于2020-02-14得票数 1

回答已采纳

1回答

pyspark中的to_json包含空值，但我需要空值作为空

、、、、

我正在使用pyspark中的to_json将dataframe中的结构列转换为json列，但是在json中忽略了少数结构字段中的空值，我不希望这些空值被忽略。

浏览 6提问于2020-10-14得票数 0

1回答

动态填充中的列名

、、、

我正在开发一个动态脚本，它可以join任何给定的pyspark。问题是文件中的列名会发生变化&连接条件的数目可能会有所不同。我可以在一个循环中处理这个问题，但是我使用一个变量名执行连接，它失败了。(我的目的是根据文件结构和联接条件动态填充a和b或更多列)a="existingFile.Id" unChangedRecor

浏览 2提问于2018-02-24得票数 0

回答已采纳

点击加载更多