在pyspark中选择2个时间戳列中的较大值_在Pyspark中插入Null时间戳值_PySpark在时间戳上使用最小函数选择错误的值 - 腾讯云开发者社区

apache-spark、pyspark

我目前正在使用的代码： import pyspark.sql.functions as F df.UPDAT_DT).otherwise(df.CREAT_DT).alias('DT') UPDAT_DT和CREAT_DT是时间戳列有没有其他更好的方法来做到这一

浏览 24提问于2019-09-25得票数 1

回答已采纳

1回答

如何将所有的日期格式转换为日期列的时间戳？

apache-spark、datetime、pyspark、apache-spark-sql

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所有的代码都需要当前

浏览 16提问于2020-12-30得票数 2

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

apache-spark、pyspark、apache-spark-sql

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame # like c

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

用复变函数更新列

json、apache-spark、dataframe、hive、pyspark

是否可以使用一个复杂的函数更新hiveContext数据列？我有一个包含许多列的dataframe，其中2列称为时间戳和数据。我需要从数据中的JSON字符串中检索时间戳，如果数据中的时间戳满足某些条件，则需要更新时间戳列。我知道该数据格式是不可变的

浏览 7提问于2016-05-10得票数 1

回答已采纳

2回答

在Spark dataframe中创建不带毫秒部分的时间戳列

python、apache-spark、pyspark、apache-spark-sql

我正尝试在Pyspark的数据框中创建一个名为load_time_stamp的新列，它应该只包含截止到几秒的日期和时间，而不应该包含毫秒。我已经写了下面的代码来做同样的事情，但是在这个过程中，一个新的列是用null值创建的，而不是我期望的时间戳值。from pyspa

浏览 0提问于2021-02-22得票数 1

1回答

Pyspark:在动态配置单元查询中获取current_timestamp

pyspark、hivecontext

我准备火花与python程序，插入数据从2个表的基础上联接。目标表的最后一列有一个时间戳字段，该字段的值为create timestamp。例如，HiveContext(sc).sql("SELECT“+ from_unixtime(unix_timestamp()) +”")此语句在pyspark中出错，并显示"NameError: name'from_unixtime‘is not defi

浏览 0提问于2016-06-29得票数 0

1回答

PySpark DataFrame:标记某些列值发生更改的行

python、pyspark、apache-spark-sql、pyspark-sql

我有一个包含'people‘和'timestamp’列的PySpark DataFrame (加上其他与问题无关的列)。解释是用户在那个时候做了一些事情。我想对“人物”的所有行进行分组，其中“时间戳”的差异不超过“阈值”值(例如5分钟)。感谢你的想法！

浏览 35提问于2018-08-30得票数 0

回答已采纳

1回答

胶和星火中时间戳类型之间的转换不兼容？

apache-spark、pyspark、apache-spark-sql、aws-glue

我希望使用 select 从我的数据中运行一个简单的时间戳字段选择。然而，所有时间戳字段显示为1970-01-19 10:45:37.009 .因此，看起来我在Glue中的时间戳和Spark中的时间戳之间存在一些不兼容的转换。我正在使用pyspark运行，并

浏览 2提问于2020-07-06得票数 0

1回答

根据PySpark中的时区将协调时时间戳转换为本地时间

apache-spark、pyspark、apache-spark-sql

我有一个PySpark DataFrame df，它有一些列，如下所示。hour列采用UTC时间，我想创建一个基于time_zone列的具有本地时间的新列。我如何在PySpark中做到这一点？

浏览 2提问于2019-12-03得票数 5

回答已采纳

1回答

PySpark -创建带有时间戳列数据类型的Dataframe

python-3.x、pyspark、azure-databricks

我想在上的笔记本中使用PySpark创建一个简单的数据格式。dataframe只有3列： stringStartTimeStanp - 'HH:MM:SS:MI'*EndTimeStanp -数据类型，例如“时间戳”或可以在表单‘HH:MM:SS:MI’*EndTimeStanp中持有时间戳(无日期部分)的数据类型--类似于“时间戳”之类<em

浏览 2提问于2021-06-22得票数 4

回答已采纳

1回答

如何创建带有时间戳的星火数据？

python、apache-spark、pyspark、apache-spark-sql、timestamp

如何使用python一步创建带有时间戳数据类型的Spark数据？这是我分两步做的。使用火花3.1.2from pyspark.sql.types import * schema_sdf = StructType

浏览 0提问于2022-06-29得票数 0

回答已采纳

1回答

PySpark:将时间戳添加到日期列并将整个列重新格式化为时间戳数据类型

python、date、pyspark、timestamp、reformat

在PySpark中，下面有下面的示例数据框架。该列当前是一个日期数据类型。scheduled_date_plus_one12/7/2018scheduled_date_plus_one2018-12-07T02:00:00Z 如何实现

浏览 5提问于2018-12-14得票数 1

2回答

在MYSQL上作为源EndPoint的CDC微秒精度

mysql、database、amazon-web-services、amazon-s3、aws-dms

我想从源代码中跟踪更新，所以在配置期间，我启用了TimestampColumnName属性(col : event_timestamp)。在下面列出的结果中，我得到了记录/事件的时间戳，但是没有的微秒精度。我研究了源端点和目标的特性，但没有得到预期的结果。下面是示例输出：。输出格式：对于我在S3中的文件是拼板。

浏览 3提问于2020-01-08得票数 3

回答已采纳

1回答

基于窗口和滑动区间索引的Pyspark数据聚合

apache-spark、pyspark、spark-structured-streaming

我目前遇到了一个问题，我想在我的csv上使用窗口和滑动间隔，并对每个窗口执行数据聚合以获得最常见的类别。但是，我没有时间戳，我想在索引列上执行窗口滑动。有谁能告诉我如何在索引上使用窗口+滑动间隔的正确方向吗？schema = StructType().add("index", "string").add( "Category", &q

浏览 1提问于2021-07-10得票数 0

1回答

Pyspark pyspark.sql.functions行为怪异

apache-spark、pyspark、aggregate、pyspark-sql

当我们有超过3个节点来分发数据时，pyspark.sql.functions下的"last“函数在spark上返回不一致的结果。from pyspark.sql.types import DoubleType numeric = sqlContext.createDataFramecolor").agg(F.last("v1&

浏览 1提问于2017-02-02得票数 1

1回答

如何使用其他数据create (PySpark)创建数据文件？

python、dataframe、pyspark

我使用的是PySpark v1.6.1，我想使用另一种方法创建一个数据文件：现在正在使用.map(func)使用该函数创建一个RDD (该函数从原始类型中的一行进行转换

浏览 0提问于2017-12-27得票数 3

回答已采纳

1回答

在hdfs中存储的orc文件上创建外部表后，select 返回时间戳的空值*

hadoop、hive、pyspark、orc、external-tables

我正在hdfs中存储的orc文件之上创建一个外部表。我在数据文件中有一个带有时间戳的process_timestamp列。但是，在查询表timestamp列时，将返回空值，而不是实际的时间戳 from datetime import date from pyspark.sql.functions import lit, to_date文件中，pr

浏览 20提问于2019-09-10得票数 0

1回答

PySpark:如何根据列的数据类型替换空值？

python、pyspark

我有一张表格，里面有257列。我试图找出如何根据数据类型更改表中的空值。我正试图在PySpark中做到这一点。而dataframe的名字叫做df。因此，例如，如果列包含日期，则为时间戳数据类型，且该列中的空值必须为1900-01-01如果是字符串类型，则应该是n/a 谢谢

浏览 5提问于2022-04-15得票数 0

回答已采纳

2回答

散列md5: Pyspark和submit在时间戳列上不提供相同的输出

apache-spark、pyspark、hash

在PySpark中，我使用md5函数散列一些数据格式。df_hive = spark.sql("select * from db.table1 where day=1")dfha =

浏览 2提问于2021-04-26得票数 1

回答已采纳

3回答

pyspark将dataframe列从时间戳转换为"YYYY-MM-DD“格式的字符串

apache-spark、pyspark

在pyspark中，有没有办法将时间戳数据类型的dataframe列转换为格式为'YYYY-MM-DD‘格式的字符串？

浏览 3提问于2018-02-22得票数 14

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云