文章/答案/技术大牛

发布

社区首页 >问答首页 >火花中的分裂变量

问火花中的分裂变量
EN

Stack Overflow用户

提问于 2022-11-17 13:09:29

回答 1查看 23关注 0票数 1

我试图在一个名为timestamp_value的新列中拆分在utc中找到的utc值。我试着使用Python，但是我做不到。谢谢你的回答！

我的数据文件就是这样的

+--------+----------------------------+
|machine |timestamp_value             |
+--------+----------------------------+
|1       |2022-01-06T07:47:37.319+0000|
|2       |2022-01-06T07:47:37.319+0000|
|3       |2022-01-06T07:47:37.319+0000|
+--------+----------------------------+

它应该是这样的

+--------+----------------------------+-----+
|machine |timestamp_value             |utc  |
+--------+----------------------------------+
|1       |2022-01-06T07:47:37.319     |+0000|
|2       |2022-01-06T07:47:37.319     |+0000|
|3       |2022-01-06T07:47:37.319     |+0000|
+--------+----------------------------------+

data-wrangling

python

regex

apache-spark

pyspark

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-11-17 13:16:46

您可以分别使用regexp_extract和regexp_replace来完成这一任务。

import pyspark.sql.functions as F

(df
 .withColumn('utc', F.regexp_extract('timestamp_value', '.*(\+.*)', 1))
 .withColumn('timestamp_value', F.regexp_replace('timestamp_value', '\+(.*)', ''))
).show(truncate=False)

+-------+-----------------------+-----+
|machine|timestamp_value        |utc  |
+-------+-----------------------+-----+
|1      |2022-01-06T07:47:37.319|+0000|
|2      |2022-01-06T07:47:37.319|+0000|
|3      |2022-01-06T07:47:37.319|+0000|
+-------+-----------------------+-----+

要更好地理解正则表达式的含义，请看一下这个工具。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/74476037

复制

相似问题

问火花中的分裂变量
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问火花中的分裂变量EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问火花中的分裂变量
EN