pyspark从现有列的值创建多个列

pyspark是一个用于大规模数据处理的开源分布式计算框架，它基于Apache Spark构建而成。它提供了一个高级API，用于在分布式计算环境中进行数据处理和分析。

对于从现有列的值创建多个列，我们可以使用pyspark中的函数和转换操作来实现。下面是一个示例代码，用于从现有列创建多个新列：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, when

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 假设有一个包含name和age两列的DataFrame
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["name", "age"])

# 使用when函数创建新列
df = df.withColumn("is_young", when(col("age") < 30, True).otherwise(False))
df = df.withColumn("is_old", when(col("age") >= 30, True).otherwise(False))

# 显示DataFrame的内容
df.show()

上述代码中，我们首先创建了一个SparkSession对象，然后创建了一个包含name和age两列的DataFrame。接下来，我们使用when函数和col函数来创建两个新列is_young和is_old。当age小于30时，is_young列的值为True，否则为False；当age大于等于30时，is_old列的值为True，否则为False。最后，我们使用show方法显示了DataFrame的内容。

这里没有提到任何特定的腾讯云产品，因为pyspark可以在各种云计算平台上运行，包括腾讯云。对于腾讯云用户，可以根据具体需求选择适合的云计算产品，例如云服务器CVM、云数据库MySQL、云对象存储COS等。你可以通过访问腾讯云官方网站（https://cloud.tencent.com/）了解更多关于腾讯云产品的信息和相关文档。

pyspark从现有列的值创建多个列

、、

我有一个这样的数据帧： +------------------------------------+-----+-----++-----------------id_1|5 |9 ||id_3|4 |3 ||id_2|4 |3 | id点对是唯一的。我想按id分组，并使用来自count列的值从point列创建

浏览 21提问于2021-07-28得票数 1

回答已采纳

1回答

MapType :从现有列创建pyspark列

、、

我需要在现有列的基础上创建一个新的Spark DF MapType列，其中列名称是键，值是值。| 1.5| 2.0| 2.2|+----+-------+-------+-------+|123k|[1.3,6.3,7.6]||as3d|[2.2,4.3

浏览 2提问于2016-12-23得票数 21

回答已采纳

2回答

PySpark在pyspark.sql.functions.col和pyspark.sql.functions.lit中的差异

、

我发现很难理解这两种方法与pyspark.sql.functions之间的区别，因为PySpark官方网站上的文档并不能提供很好的信息。例如，以下代码：print(F.col('col_name'))研究结果如下：

浏览 10提问于2017-09-24得票数 15

1回答

PySpark使用值列表从现有列创建新列

、

我有一个这样的DataFrame：from pyspark import Row | 1| |[0, 1]|foo|| 3| |[0, 1]|foo|我想用"c"列的第一个元素创建列"c&q

浏览 0提问于2019-08-22得票数 0

回答已采纳

1回答

如何从具有可空False的现有列中创建PySpark中的新列

、、、

是否可以使用模式中没有空值但"nullable: True“的现有列在PySpark数据create中创建"nullable: False”的新列。我很难找到答案，但没有什么关系。

浏览 2提问于2022-05-10得票数 -1

1回答

将多个字段创建为Pyspark中的数组？

、

我有多个列的dataframe，如下所示：|----|----------|----| B | C | M |我希望创建2个新列，并在新字段中存储现有列的列表，并在现有</em

浏览 0提问于2020-11-20得票数 0

回答已采纳

2回答

基于pyspark中的现有列值创建新列

、、

我有一个有机场名称的现有列的数据框架，我想用它们的缩写创建另一个列。例如，我有一个具有以下值的现有列：MIAMI INTERNATIONAL AIRPORT, FL USSAN FRANCISCO INTERNATIONAL

浏览 5提问于2020-11-02得票数 0

回答已采纳

1回答

在火花放电中创建计数器

、、、

如何在Pyspark中实现以下R代码l$d2[1]= 0for(i in2:nrow(l)) c= ifelse(l$d2[i]<=3,c,c+1) }如果值大于或等于3，我想迭代一列假设我的专栏中的元素是国旗应为: 1,1,1,2,2,2,3,

浏览 3提问于2016-11-07得票数 2

1回答

组内火花拼花分配指数

、、、

我想知道生成列index以唯一标识每组标签中的记录的最有效方法：| label | value | index |from <e

浏览 1提问于2018-05-28得票数 0

回答已采纳

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

、、、

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark dataframe (d2)具有相同的列- ID和Name。我试图创

浏览 3提问于2021-12-11得票数 0

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame # like c

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

Pyspark-处理异常并在pyspark数据帧中引发RuntimeError

、、、、

我有一个dataframe，我正在尝试基于现有列的值创建一个新列： F.when(dfg['list'].isin(["A",""A","B","C","D",'E','F'])==False,lit('unknown

浏览 14提问于2018-02-01得票数 0

1回答

用复变函数更新列

、、、、

是否可以使用一个复杂的函数更新hiveContext数据列？我有一个包含许多列的dataframe，其中2列称为时间戳和数据。我需要从数据中的JSON字符串中检索时间戳，如果数据中的时间戳满足某些条件，则需要更新时间戳列。我知道该数据格式是不可变的，但是可以以某种方式构建一个新的dataframe，保留旧的dataframe的所有列，但更新时间戳列</e

浏览 7提问于2016-05-10得票数 1

回答已采纳

1回答

得到圆柱的“圆形滞后”

、、、

我想根据现有列的滞后值在pyspark.sql.DataFrame中创建一个新列。但是..。我也希望最后的值成为第一值，第一值成为最后的值。id|value|| 1| 100|| 3| 300|| 5| 500|预期的产出将

浏览 1提问于2018-08-07得票数 2

回答已采纳

1回答

如何用PySpark* DataFrame中的另一列覆盖DataFrame中的现有列？*

、、

浏览 1提问于2021-08-02得票数 1

回答已采纳

2回答

从行中的多个值计算一个值

、

我有一个PySpark Dataframe，我想添加一个从其他列的多个值计算出来的列。l = [('Ankit',25),('Jalfaizy',22),('saurabh',20),

浏览 1提问于2019-11-29得票数 1

回答已采纳

3回答

将多列数据合并为分散在行中的单个列。

、、

我有一个具有多个列的pyspark数据框架如下所示：A 1 6 7D 4 9 4我希望通过将col1、col2、col3的列名和列值组合成两个新的列，例如new_col和new_c

浏览 5提问于2020-02-06得票数 2

回答已采纳

1回答

创建一个spark dataframe列，它包含一个列表作为数据类型

我有一个具有列'list_len‘的现有数据帧'df’，我想创建一个由空字符串组成的列，其长度由'list_len‘的值指示。我试着用pyspark做df.withColumn('new_list', array(['']*col('list_len'))).show()，但它不起作用。任何想法/帮助都是非常感谢的！

浏览 18提问于2020-10-23得票数 0

回答已采纳

2回答

从拼图自动推断模式/有选择地将字符串转换为浮点型

、、、

我有一个包含400+列的parquet文件，当我读取它时，附加到许多列的默认数据类型是字符串(可能是由于其他人指定的模式)。spark.read.parquet, present for spark.read.csvmergeSchema=True #but it doesn't improve the resultsdf_temp.select(*(col(c).cast("float").alias(c)

浏览 0提问于2018-02-02得票数 0

1回答

PySpark:根据列的有序连接创建列

、、

我在创建一个新列时遇到了一个问题，该列是从有序的中将两个现有列连接在一个pyspark上的，即：| Col1 | Col2 | NewCol | +-

浏览 0提问于2018-04-25得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

pyspark从现有列的值创建多个列

相关·内容

pyspark从现有列的值创建多个列

MapType :从现有列创建pyspark列

PySpark在pyspark.sql.functions.col和pyspark.sql.functions.lit中的差异

PySpark使用值列表从现有列创建新列

如何从具有可空False的现有列中创建PySpark中的新列

将多个字段创建为Pyspark中的数组？

基于pyspark中的现有列值创建新列

在火花放电中创建计数器

组内火花拼花分配指数

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

Pyspark-处理异常并在pyspark数据帧中引发RuntimeError

用复变函数更新列

得到圆柱的“圆形滞后”

如何用PySpark* DataFrame中的另一列覆盖DataFrame中的现有列？*

从行中的多个值计算一个值

将多列数据合并为分散在行中的单个列。

创建一个spark dataframe列，它包含一个列表作为数据类型

从拼图自动推断模式/有选择地将字符串转换为浮点型

PySpark:根据列的有序连接创建列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐