首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >火花中的分裂变量

火花中的分裂变量
EN

Stack Overflow用户
提问于 2022-11-17 13:09:29
回答 1查看 23关注 0票数 1

我试图在一个名为timestamp_value的新列中拆分在utc中找到的utc值。我试着使用Python,但是我做不到。谢谢你的回答!

我的数据文件就是这样的

代码语言:javascript
运行
复制
+--------+----------------------------+
|machine |timestamp_value             |
+--------+----------------------------+
|1       |2022-01-06T07:47:37.319+0000|
|2       |2022-01-06T07:47:37.319+0000|
|3       |2022-01-06T07:47:37.319+0000|
+--------+----------------------------+

它应该是这样的

代码语言:javascript
运行
复制
+--------+----------------------------+-----+
|machine |timestamp_value             |utc  |
+--------+----------------------------------+
|1       |2022-01-06T07:47:37.319     |+0000|
|2       |2022-01-06T07:47:37.319     |+0000|
|3       |2022-01-06T07:47:37.319     |+0000|
+--------+----------------------------------+
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-11-17 13:16:46

您可以分别使用regexp_extractregexp_replace来完成这一任务。

代码语言:javascript
运行
复制
import pyspark.sql.functions as F

(df
 .withColumn('utc', F.regexp_extract('timestamp_value', '.*(\+.*)', 1))
 .withColumn('timestamp_value', F.regexp_replace('timestamp_value', '\+(.*)', ''))
).show(truncate=False)

+-------+-----------------------+-----+
|machine|timestamp_value        |utc  |
+-------+-----------------------+-----+
|1      |2022-01-06T07:47:37.319|+0000|
|2      |2022-01-06T07:47:37.319|+0000|
|3      |2022-01-06T07:47:37.319|+0000|
+-------+-----------------------+-----+

要更好地理解正则表达式的含义,请看一下这个工具

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/74476037

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档