文章/答案/技术大牛

发布

社区首页 >问答首页 >在pyspark数据帧中用数字替换字符串

问在pyspark数据帧中用数字替换字符串
EN

Stack Overflow用户

提问于 2019-07-25 14:20:10

回答 1查看 171关注 0票数 0

我刚接触pyspark，我想在pyspark dataframe列中动态地用数字替换名称，因为我的dataframe中有超过500,000个名称。如何继续？

----------
| Name   |
----------
| nameone|
----------
| nametwo|
----------

应该变成

--------
| Name |
--------
|   1  |
--------
|   2  |
--------

pyspark

pyspark-sql

回答 1

Stack Overflow用户

发布于 2019-07-25 21:33:04

你有两个我能想到的选择。如果您只有唯一的名称，您可以简单地应用monotonically_increasing_id函数。这将为每一行创建唯一但不连续的id。

import pyspark.sql.functions as F
from pyspark.ml.feature import StringIndexer

l = [
('nameone', ),
('nametwo', ),
('nameone', )
]

columns = ['Name']

df=spark.createDataFrame(l, columns)
#use Name instead of uniqueId to overwrite the column
df = df.withColumn('uniqueId', F.monotonically_increasing_id())
df.show()

输出：

+-------+----------+ 
|   Name|  uniqueId| 
+-------+----------+ 
|nameone|         0| 
|nametwo|8589934592| 
|nameone|8589934593| 
+-------+----------+

如果要将相同的id分配给具有相同Name值的行，则必须使用StringIndexer

indexer = StringIndexer(inputCol="Name", outputCol="StringINdex")
df = indexer.fit(df).transform(df)
df.show()

输出：

+-------+----------+-----------+ 
|   Name|  uniqueId|StringINdex| 
+-------+----------+-----------+ 
|nameone|         0|        0.0| 
|nametwo|8589934592|        1.0| 
|nameone|8589934593|        0.0| 
+-------+----------+-----------+

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57195497

复制

相似问题

问在pyspark数据帧中用数字替换字符串
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在pyspark数据帧中用数字替换字符串EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在pyspark数据帧中用数字替换字符串
EN