用于在PySpark上多次更改一列的链withColumn

、

我使用的是UCI的成人年收入。| Doctorate| 544|| Prof-school| 785|我想将以下类别放在特定的组中community_college = ['Assoc-acdm', 'Assoc-voc', '

浏览 12提问于2018-08-25得票数 1

回答已采纳

1回答

Pyspark使用一条when语句更新两列？

、

因此，我在PySpark中使用df.Withcolumn()来创建列，并使用F.when()来指定何时应该更新该列的条件。df = df.withColumn('ab', F.when(df['text']=="0", 1).otherwise(0)) 基本上，如果符合条件，我会将列更新为“1”。现在，如果相同的条件匹配，我想要更新同一df中的另一列(例如，df['

浏览 3提问于2016-10-19得票数 0

1回答

转换Unix定时PySpark 13位数

、、、、

我一直试图将UNIX日期(图中第一列上的13位数字)更改为可读的日期：display(sd

浏览 7提问于2022-06-16得票数 -1

2回答

如何强制PySpark四舍五入使用银行家四舍五入

、、

我需要使用银行家的四舍五入( 0.5四舍五入到最近的偶数)在PySpark中舍入一列。到目前为止，我尝试过这样的方法： df = df.select("*", _round(col(n

浏览 7提问于2022-07-08得票数 2

回答已采纳

1回答

如何对PySpark DataFrame的每一列中的数据进行混洗？

、、、、

我是一个用PySpark编程的初学者。我在CSV文件中有以下数据，该文件正在被读取到Spark Dataframe中，并且我想从一个小数据集开始生成一个大型数据集。 .option("header", "true")我想对每一列中的数据进行混洗下面的代码是随机实现orderBy列值的</

浏览 16提问于2020-05-11得票数 0

1回答

使用Pyspark处理具有不同JSON模式行的单个数据集

、、、、

我使用的是PySpark，我需要处理附加到单个数据帧中的日志文件。大多数列看起来都是正常的，但其中一列在{}中有JSON字符串。基本上，每一行都是一个单独的事件，对于JSON字符串，我可以应用单独的Schema。但我不知道在这里处理数据的最好方法是什么。示例： ? 这个表稍后将帮助我以所需的方式聚合事件。它成功地在单个列中工作： from pyspark.s

浏览 15提问于2021-09-01得票数 0

2回答

日期时间列中的火花源更改日

、、、、

此代码试图更改日期时间列的日期有什么问题？import pysparkimport pyspark.sql.types as sparktypessqlcontext = pyspark.SQLContext(sc) rdd = sc.parallelize---

浏览 4提问于2017-03-03得票数 2

回答已采纳

1回答

在PySpark* 3.0.3中使用Expr的聚合函数*

、、、、

下面的代码可以很好地应用于PySpark 3.2.1 "total_amount",)df.withColumn( "total_amoun

浏览 9提问于2022-10-03得票数 2

回答已采纳

1回答

如何将列添加到PySpark数据column中，该数据column中包含另一列的第9分位数

、、、、

我有一个非常大的CSV文件，它已经作为一个PySpark数据文件导入：df。dataframe包含许多列，包括列ireturn。我想要计算该列的0.99和0.01百分位数，然后将另一列添加到dataframe df中，作为new_col_99和new_col_01，它们分别包含0.99和0.01百分位数。我编写了下面的代码，它适用于小数据格式，但是当我将它应用到我的大型数据文件时会出现错误。我知道这个错误：在试图连接到ERROR:py4j.java_gat

浏览 0提问于2019-01-15得票数 3

1回答

在Spark2.4上对pyspark.sql.functions.max().over(window)使用.where()会抛出Java异常

、、、

我在上关注了一篇关于返回按另一列分组的列的最大值的帖子，得到了一个意外的Java异常。() | A| B|| a| 5|| a| 7|| b| 3|以下是据称适用于其他用户的解决方案：w = Window.partitionBy('A') df.

浏览 0提问于2019-02-04得票数 6

1回答

PySpark中未使用with列条件替换的空值

、、、、

我已经编写了一段PySpark代码，用于设置这样的条件:如果给定列中存在空值，则将“Yes”附加到另一列，否则将“No”附加到另一列。data = data.withColumn('Coupon_code',when((data.coupon ==""),"No coupon").otherwise("coupon")) 这里的条件是在列'coupon‘上

浏览 22提问于2020-12-08得票数 0

回答已采纳

1回答

pyspark:将一列数组拆分为多列更有效？

、、、

我有一列数组，可以这样创建 df = spark.CreateDataFrame(["[{\"key\":1}, {\"key\":2}"], "tmp") withColumn("tmp", F.from_json(in_col_name, "array<string>")).\the arra

浏览 74提问于2020-09-23得票数 0

回答已采纳

3回答

如何在Spark dataframe中添加带有当前日期的额外列

、、、

我正在尝试使用withColumn方法在我现有的Pyspark Dataframe中添加一列。我想在此column.From中插入当前日期我的源中我没有任何日期列，因此我在我的数据框中添加此当前日期列，并将此数据框保存在我的表中，以便以后用于跟踪目的。我正在使用下面的代码 df2=df.withColumn("Curr_date",datetime.now().strftime('

浏览 78提问于2020-09-09得票数 2

回答已采纳

1回答

对pyspark* dataframe的多个列应用不同的函数*

、、、

我有一个有几列的pyspark dataframe col1 col2 col31. 2.1. 3.2-------------------f3(5.1) 我尽量避免为每一列定义一个udf，所以我的想法是从每一列

浏览 49提问于2020-07-29得票数 0

回答已采纳

1回答

对于不带参数的函数，Pyspark失败，但对于不带参数的lambda则有效。

、、、、

我试图使用不带参数的DataFrame和udf将一列添加到我的星火withColumn中。这似乎只有当我使用lambda封装我的原始函数时才有效。这是一辆MWE：from pyspark.sql.functions import udf spark = SparkSession.builder.getOrCreateTypeError: _create_udf() missing 1

浏览 0提问于2019-04-23得票数 2

回答已采纳

2回答

使用PySpark将string类型列转换为struct并解压列

、

']|+------+--------+-----------------+ ("200", "[('doe', 'customer')]"), ['rowNum', 'infoCol'] fro

浏览 1提问于2020-08-19得票数 1

回答已采纳

4回答

PySpark 1.5如何将时间戳从秒截断到最近的分钟

、、、、

我正在使用PySpark。我在dataframe ('canon_evt')中有一列('dt')，这是一个时间戳。我正在尝试从DateTime值中删除秒数。它最初是以字符串的形式从地板上读出的。然后，我尝试将其转换为时间戳canon_evt= canon_evt.withColum

浏览 0提问于2015-12-11得票数 15

回答已采纳

1回答

pandas_udf错误RuntimeError:来自pandas_udf的结果向量不是所需的长度:预期长度为12，实际长度为35

、、

代码是创建一个基于另一列的数据类型的列。相同的代码适用于正常的较慢的udf (注释掉)。import pyspark.sql.types from pyspark.sql.functions import pan

浏览 109提问于2019-11-28得票数 3

回答已采纳

1回答

逐组遍历上一行查找的数据

、、、、

请帮助我在这方面我是新来的火花。null 0 03 0 126 03 4 0 0下面应该是我的输出4 0 0 121挑战在于，对于每一组类型列，都必须这样做，公式类似于prev(col2)-col1+col3part = Windo

浏览 2提问于2017-09-20得票数 1

回答已采纳

3回答

PySpark DataFrame上分组数据的熊猫式转换

、、、、

如果我们有一个由一列类别和一列值组成的Pandas数据框架，我们可以通过执行以下操作来删除每个类别中的平均值：据我所知，不直接提供这个按组/转换操作(我在Spark1.5.0上使用PySpark )。我认为(但尚

浏览 8提问于2015-12-25得票数 19

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Pyspark使用一条when语句更新两列？

转换Unix定时PySpark 13位数

如何强制PySpark四舍五入使用银行家四舍五入

如何对PySpark DataFrame的每一列中的数据进行混洗？

使用Pyspark处理具有不同JSON模式行的单个数据集

日期时间列中的火花源更改日

在PySpark* 3.0.3中使用Expr的聚合函数*

如何将列添加到PySpark数据column中，该数据column中包含另一列的第9分位数

在Spark2.4上对pyspark.sql.functions.max().over(window)使用.where()会抛出Java异常

PySpark中未使用with列条件替换的空值

pyspark:将一列数组拆分为多列更有效？

如何在Spark dataframe中添加带有当前日期的额外列

对pyspark* dataframe的多个列应用不同的函数*

对于不带参数的函数，Pyspark失败，但对于不带参数的lambda则有效。

使用PySpark将string类型列转换为struct并解压列

PySpark 1.5如何将时间戳从秒截断到最近的分钟

pandas_udf错误RuntimeError:来自pandas_udf的结果向量不是所需的长度:预期长度为12，实际长度为35

逐组遍历上一行查找的数据

PySpark DataFrame上分组数据的熊猫式转换

扫码

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐