文章/答案/技术大牛

发布

使用列的映射在pyspark dataframe的另一列中填充值

在pyspark中，使用列的映射可以在dataframe的另一列中填充值。具体操作可以通过使用withColumn函数和when函数来实现。

首先，我们需要创建一个映射字典，将需要填充的值与对应的列值进行映射。例如，我们有一个dataframe df，其中包含两列col1和col2，我们想要根据col1的值来填充col2的值，可以创建一个映射字典mapping，将col1的值与需要填充的值进行映射。

from pyspark.sql.functions import col, when

# 创建映射字典
mapping = {
    "value1": "填充值1",
    "value2": "填充值2",
    "value3": "填充值3"
}

# 使用列的映射填充另一列
df = df.withColumn("col2", when(col("col1").isin(list(mapping.keys()))), mapping[col("col1")]).otherwise(col("col2"))

在上述代码中，when函数用于判断col1的值是否在映射字典的键中，如果是，则使用映射字典中对应的值来填充col2，否则保持col2的原始值不变。

这样，通过使用列的映射，我们可以在pyspark dataframe的另一列中填充值。这种方法适用于需要根据某一列的值来填充另一列的场景，例如根据某个分类字段来填充缺失值、根据某个条件来填充特定的值等。

推荐的腾讯云相关产品：腾讯云EMR（Elastic MapReduce），是一种大数据处理和分析的云服务，可以方便地进行Spark等分布式计算任务的处理。您可以通过以下链接了解更多关于腾讯云EMR的信息：腾讯云EMR产品介绍。

使用列的映射在pyspark dataframe的另一列中填充值

、、、

，我想通过使用dict从多个列的映射中创建一个新列(因为唯一值的数量很大，单个或case语句将是乏味的)。其思想是首先映射col1的值，如果新列中有剩余的空值，则从col2映射它们，如果有更多的空值，则再次映射，从col3映射它们，最后将剩余的空值替换为字符串文字： col1_map = {'s1' : '然后再到 from itertools import chain

浏览 78提问于2019-12-11得票数 1

回答已采纳

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

、、、

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark dataframe (d2)具有相同的<

浏览 3提问于2021-12-11得票数 0

1回答

从星星之火数据中的列表中提取值，而不转换为熊猫

、、

我非常绿色的火花，所以我把它转换成一个熊猫DataFrame，然后使用地图功能，我提取所需的元素。问题是，数据是巨大的，因此这种方法是不可扩展的。让我花时间的是toPandas()命令。是否有从每一行访问列表中的值的选项？谢谢!

浏览 5提问于2021-12-09得票数 1

回答已采纳

2回答

我有一个dataframe，它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同，每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时，将字典(行)附加到列表中。for item in row.json_object['obj']: # create a dictionary to represent each r

浏览 4提问于2022-10-19得票数 1

回答已采纳

1回答

将列的非空计数类别作为单独的列

、、、、

我必须首先计算列中的值数(也包括副本)。在那之后，我必须指定一个游泳池范围。在C和D列中，我必须返回这个范围值。列<

浏览 4提问于2022-10-04得票数 1

回答已采纳

1回答

如何估计星火DataFrame中每列的大小(以字节为单位)？

、

我有一个非常大的星火DataFrame和许多列，我想作出一个明智的判断是否保持在我的管道中，部分取决于它们有多大。所谓“有多大”，我指的是缓存这个DataFrame时内存中字节的大小，我希望这是对处理这些数据的计算成本的一个不错的估计。有些列是简单类型(例如，双列、整数列)，而另一些列是复杂类型(例如数组和可变长度映射)。我尝试

浏览 0提问于2019-02-25得票数 2

回答已采纳

2回答

pyspark withColumn，如何改变列名

、、

有没有办法用pyspark 2.1.0创建/填充列，其中列的名称是另一个列的值？colName to targetColName's value cols = dataFrame.columnsTypeError: 'Column' ob

浏览 0提问于2018-09-13得票数 1

1回答

如何在PySpark中获取列的最后值

、、

这个问题非常琐碎，但是我在PySpark的世界里是全新的，我面临着很多问题，即使是简单的任务。我已经试过了 df["A"][-1]，但我错了。请注意，如果可能的话，

浏览 1提问于2019-06-21得票数 0

回答已采纳

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame带有时间戳字符串的

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

从火花数据中选择或删除重复列

、、、

给定一个星星之火数据，有一个重复的列名(例如。( A)对于不能修改上游或源的，如何选择、删除或重命名其中的一个列，以便检索列值？df.select('A')向我显示了一个不明确的列错误，filter、drop和withColumnRenamed也是如此。如何选择其中一列？

浏览 0提问于2018-09-06得票数 2

1回答

在PySpark* DataFrames中，为什么setitem没有完全实现？*

、、、

在PySpark中，我们不能使用传统的熊猫或R风格的符号来根据DataFrame中的旧列来制作新的列。例如，假设我试图连接两列：df['newcol'] = F.concat(df['col_1'], df['col_2']) 结果：T

浏览 1提问于2016-07-28得票数 1

回答已采纳

1回答

如何创建一个函数来检查dataframe的PySpark列中的一行是否与另一个dataframe的同一列中的另一行匹配？

、、

如何创建一个函数来检查一个数据文件的PySpark列中的一行是否与另一个Pysark dataframe的同一列中的另一行匹配？我想创建一个新列，如果记录中的该值存在于另一个dataframe中，该列将显示验证。除了要加入的列</e

浏览 5提问于2021-12-11得票数 1

回答已采纳

5回答

DataFrame对象没有属性“col”

在“火花:最终指南”中，它说： df.col("count") 但是，当我在包含列count的dataframe上运行后的代码时，就会得到错误'DataFrame'

浏览 2提问于2018-08-12得票数 9

1回答

如何在集合的pyspark* dataframe中使用布尔逻辑*

、、、

我正在尝试在一个pyspark dataframe中创建一个新列，该列基于另一个列的内容。另一列包含所有整数，我希望新列使用1或0进行编码。import pyspark.sql.functions as F df2 = df2.withColumn('Industrial', F.when(F.col('CODE') in

浏览 10提问于2019-05-30得票数 0

回答已采纳

1回答

基于2个spark数据帧中的匹配zip，创建用于距离计算的纬度和经度对

、、、

我有一个pyspark dataframe A，它有3列：-69 40 trp我有另一个pyspark dataframe B，它具有相同的列，但捕获的值将不同：-68 43 trp我希望根据dataframe B中匹配的邮政编码为A的每个记录创建纬度经度对

浏览 2提问于2017-11-16得票数 0

2回答

使用元组索引通过loc选择填充空数据

、、、

a=pd.DataFrame() 2这不管用吗？a=pd.DataFrame()>后者是我想要做的。我将使用元组指定的索引通过loc选择填充值，从没有值、0行、0列的dataframe中填充值。

浏览 0提问于2018-05-10得票数 1

回答已采纳

1回答

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

、、、、

我有220 GB的数据。我已经将其作为两列读取到spark dataframe中: JournalID和Text。现在，我的数据帧中缺少27行。使用NGram类，我在dataframe中添加了另外两个列Unigram和Bigram，其中包含文本列中的单字和双字。然后，我使用一元和二元语法列上的pyspark<e

浏览 1提问于2018-12-17得票数 0

1回答

python并行化python中的列明智操作

、、、

我有一些字符串值的列的dataframe。col1|col2aaa |bbbaaa |ddd我必须得到每个列中显示的允许值({aaa,ddd})的数量。cond = "`col1` = 'aaa' OR `col1` = 'ddd'"通过

浏览 3提问于2022-01-18得票数 1

回答已采纳

2回答

可以从Scala调用python函数吗？

、、、、

我正在创建一个火花作业，它要求使用用python编写的函数将列添加到dataframe中。其余的处理是使用Scala完成的。我已经找到了如何从pyspark调用Java/Scala函数的示例：我发现用另一种方式发送数据的唯一例子是使用pipe。我是否可以将整个dataframe发送到python函数，让函数操作数据

浏览 3提问于2017-09-15得票数 5

2回答

替换星火DataFrame中的列值

、、

请您帮助我替换dataframes spark中的列值： ["2", "xxx", "company 1"],company 44", "company 2"],

浏览 1提问于2022-03-01得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用列的映射在pyspark dataframe的另一列中填充值

相关·内容

使用列的映射在pyspark dataframe的另一列中填充值

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

从星星之火数据中的列表中提取值，而不转换为熊猫

使用来自另一个dataframe的JSON对象创建新的数据

将列的非空计数类别作为单独的列

如何估计星火DataFrame中每列的大小(以字节为单位)？

pyspark withColumn，如何改变列名

如何在PySpark中获取列的最后值

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

从火花数据中选择或删除重复列

在PySpark* DataFrames中，为什么setitem没有完全实现？*

如何创建一个函数来检查dataframe的PySpark列中的一行是否与另一个dataframe的同一列中的另一行匹配？

DataFrame对象没有属性“col”

如何在集合的pyspark* dataframe中使用布尔逻辑*

基于2个spark数据帧中的匹配zip，创建用于距离计算的纬度和经度对

使用元组索引通过loc选择填充空数据

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

python并行化python中的列明智操作

可以从Scala调用python函数吗？

替换星火DataFrame中的列值

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐