首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >根据字典替换spark dataframe中的列值,类似于np.where

根据字典替换spark dataframe中的列值,类似于np.where
EN

Stack Overflow用户
提问于 2019-06-26 15:33:11
回答 1查看 1.9K关注 0票数 1

我的数据框看起来像-

代码语言:javascript
运行
复制
no          city         amount   
1           Kenora        56%
2           Sudbury       23%
3           Kenora        71%
4           Sudbury       41%
5           Kenora        33%
6           Niagara       22%
7           Hamilton      88%

它由9200万条记录组成。我想让我的数据框看起来像-

代码语言:javascript
运行
复制
no          city         amount      new_city
1           Kenora        56%           X
2           Niagara       23%           X       
3           Kenora        71%           X
4           Sudbury       41%           Sudbury       
5           Ottawa        33%           Ottawa
6           Niagara       22%           X
7           Hamilton      88%           Hamilton

使用python,我可以管理它(使用np.where),但在pyspark中得不到任何结果。有什么帮助吗?

到目前为止我已经做到了-

代码语言:javascript
运行
复制
#create dictionary
city_dict = {'Kenora':'X','Niagara':'X'}

mapping_expr  = create_map([lit(x) for x in chain(*city_dict .items())])

#lookup and replace 
df= df.withColumn('new_city', mapping_expr[df['city']])

#But it gives me wrong results.

df.groupBy('new_city').count().show()

new_city    count
   X          2
  null        3

为什么给我空值?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-06-26 22:04:00

问题是,对于city_dict中不包含的任何城市,mapping_expr都会返回null。一种快速的解决方法是,如果city返回null值,则使用coalesce返回mapping_expr

代码语言:javascript
运行
复制
from pyspark.sql.functions import coalesce

#lookup and replace 
df1= df.withColumn('new_city', coalesce(mapping_expr[df['city']], df['city']))
df1.show()
#+---+--------+------+--------+
#| no|    city|amount|new_city|
#+---+--------+------+--------+
#|  1|  Kenora|   56%|       X|
#|  2| Sudbury|   23%| Sudbury|
#|  3|  Kenora|   71%|       X|
#|  4| Sudbury|   41%| Sudbury|
#|  5|  Kenora|   33%|       X|
#|  6| Niagara|   22%|       X|
#|  7|Hamilton|   88%|Hamilton|
#+---+--------+------+--------+

df1.groupBy('new_city').count().show()
#+--------+-----+
#|new_city|count|
#+--------+-----+
#|       X|    4|
#|Hamilton|    1|
#| Sudbury|    2|
#+--------+-----+

但是,如果其中一个替换值为null,则上述方法将失败。

在这种情况下,一种更简单的替代方法可能是使用pyspark.sql.DataFrame.replace()

首先,使用withColumn创建new_city,作为city列中的值的副本。

代码语言:javascript
运行
复制
df.withColumn("new_city", df["city"])\
    .replace(to_replace=city_dict.keys(), value=city_dict.values(), subset="new_city")\
    .groupBy('new_city').count().show()
#+--------+-----+
#|new_city|count|
#+--------+-----+
#|       X|    4|
#|Hamilton|    1|
#| Sudbury|    2|
#+--------+-----+
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56767536

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档