Spark Dataframe，获取两个日期之间的持续时间(以小时为单位)，并将它们划分为每天

Spark Dataframe是Apache Spark中的一个核心概念，用于处理大规模数据集。它提供了一种结构化的数据处理方式，类似于传统的关系型数据库中的表。在Spark Dataframe中，数据被组织成一系列的行和列，每列都有一个名称和一个数据类型。

对于获取两个日期之间的持续时间，并将其划分为每天的需求，可以使用Spark Dataframe中的日期函数和聚合操作来实现。

首先，需要创建一个包含日期的列的Dataframe。可以使用Spark的内置函数to_date将字符串类型的日期转换为日期类型，并将其存储在Dataframe中。

from pyspark.sql.functions import to_date

# 创建一个包含日期的Dataframe
df = spark.createDataFrame([(1, '2022-01-01'), (2, '2022-01-03'), (3, '2022-01-05')], ['id', 'date'])

# 将字符串日期转换为日期类型
df = df.withColumn('date', to_date(df['date']))

df.show()

接下来，可以使用日期函数和聚合操作来计算两个日期之间的持续时间，并将其划分为每天。可以使用datediff函数计算两个日期之间的天数差异，然后将其转换为小时单位。

from pyspark.sql.functions import datediff, col

# 计算日期间的天数差异
df = df.withColumn('duration_days', datediff(df['date'], col('date').cast('timestamp')))

# 将天数转换为小时
df = df.withColumn('duration_hours', df['duration_days'] * 24)

df.show()

最后，可以按照日期进行分组，并对持续时间进行聚合操作，以得到每天的持续时间。

from pyspark.sql.functions import sum

# 按日期分组，并计算每天的持续时间之和
result = df.groupBy('date').agg(sum('duration_hours').alias('total_duration_hours'))

result.show()

在使用Spark Dataframe进行日期计算时，可以结合使用日期函数、聚合操作和列操作，灵活地进行数据处理和转换。对于更复杂的需求，可以使用Spark Dataframe提供的丰富的函数库和操作符来实现。

对于与Spark Dataframe相关的产品和文档，推荐使用腾讯云的Apache Spark服务。腾讯云的Apache Spark产品提供了完整的Spark集群和数据处理服务，可满足大规模数据处理的需求。关于腾讯云Apache Spark的更多信息，请访问以下链接：

腾讯云Apache Spark产品介绍：https://cloud.tencent.com/product/spark

Spark Dataframe，获取两个日期之间的持续时间(以小时为单位)，并将它们划分为每天

、、

我有一个相对较大的数据集，其中包含作业提交到队列的记录。这些记录中的一部分包含作业运行时的开始和结束时间，以及它们消耗了多少资源(如这里的nnode)。我所能做的就是为每个作业的每一天创建一个新行。我想要做的也是获得这项工作每天使用这些资源的小时数。，但我需要做的是获取每个作业的天数。如果是一个，答案是一个简单

浏览 16提问于2019-03-12得票数 0

回答已采纳

1回答

Google电子表格中两个日期时间的增量

、

如图所示：我有这两个细胞的日期时间，我需要做的增量，以获得日- HH:mm:ss。我怎么能这么做？如果我尝试使用日期时间_差夫，我就会出错。有小费吗？📷

浏览 0提问于2021-04-02得票数 -1

1回答

在Google中找到最长的持续时间

、、

我正在试图找到最长的时间值(hh:mm:ss)，我在第一列中寻找它，从第5行开始。我已经尝试过使用大函数，但它输出的是十进制，而不是时间。=LARGE(I5:I, 1) 我可以使用什么函数来找到列中最大的时间值并输出它？

浏览 0提问于2021-04-20得票数 1

回答已采纳

4回答

Java中是否存在一天长度的全局变量？

、

我不想在代码中编写24 * 60 * 60 * 1000，而是使用更具可读性的静态DAY变量。我知道我可以通过编写然而，在我看来，这似乎是一个基本的功能。它在某个地方的标准图书馆里吗？

浏览 19提问于2016-05-09得票数 2

回答已采纳

13回答

Javascript将毫秒表示为天:小时:没有秒的mins

、

我正在计算两个日期之间的差异，其中有许多不同的例子可用。返回的时间以毫秒为单位，所以我需要将它转换为更有用的东西。大多数例子是天:小时:分钟:秒或小时:分钟，但是我需要days:hours:minutes，所以秒应该被舍入分钟。我目前使用的方法很接近，但显示3天为2.23.60，当它应该显示3.00.00时，所以有些地方不太正确。因为我刚刚从网络

浏览 4提问于2011-12-16得票数 30

回答已采纳

1回答

在小时内得到两个时间戳变量之间的差异的代码

、、、、

我试图使用我在数据库中的持续时间来自动获得代码中两种不同格式的时间戳(LeaveFrom和Leaveto)之间的区别。我有两个Post变量，它们的间隔使第一个以sql格式显示日期，另一个在sql format.It中显示时间，因此它们在我的数据库中都显示为Leaveto和LeaveFrom的时间戳。我希望持续时间变量与其他变量一

浏览 6提问于2015-08-27得票数 0

回答已采纳

2回答

两次在分钟内的差异是负面的

、

我有一个方法，它接受两个字符串参数。这两个字符串是24小时格式的时间值。“泰晤士报”是使用UI中的TimePicker选择的。该方法的目标是获取StartTime和EndTime之间的持续时间(以分钟为单位)。ParseException ex) // exception handling here

浏览 10提问于2017-03-18得票数 1

回答已采纳

1回答

使用SQL将小时划分为多个月

、

如果事件在多年内运行，则值应该同样地分布在多年和多个月之间。在没有结束日期的情况下，我将使用GETUTCDATE()进行计算。有些事件跨越几个月或几年。我希望能够将总持续时间分别细分为以小时为单位的单个月份的持续时间(或按月计算的个人持续时间)，并将其填充到表中。考虑到我有一个活动的开始和结束日期</e

浏览 4提问于2022-05-06得票数 0

回答已采纳

2回答

计算服务的正常运行时间/停机时间

我有一个自定义的解决方案，每1小时检查一次网站是否在线。每天有24个条目(每小时)。每小时都有一个可用性百分比(100%，95%，0% ).等等)。我的问题是：如何使用这些值计算两个日期之间的时间( DateTime )和停机时间，并在几秒钟内得到结果？在两个<em

浏览 4提问于2015-05-04得票数 3

回答已采纳

8回答

如何使用Java中的日期执行算术操作？

可能重复：实际上，我想用Java减去两个日期。我试了很多次，但没能成功。所以请大家帮帮我。

浏览 10提问于2011-06-30得票数 5

回答已采纳

3回答

查看已经过了多少天

、

我想要检查从publish_start的日子到现在已经过去了多少天，当他们超过30天时，就会显示一条消息。 var a = new Date("<?

浏览 0提问于2012-06-25得票数 2

回答已采纳

1回答

在Xcode10上使用Date Picker对象获取时间输入

、、

我是iOS开发的新手，主要通过在线教程学习，因为它们是最容易理解的，但是我找不到任何东西来帮助我在Xcode10中使用对象库中的Date Picker来获取用户输入:时间。我正在创建一个应用程序，要求用户输入到达和离开的时间，并让代码从这些输入中计算持续时间(以小时和分钟为单位)。如果有人能告诉我如何从我的代码中具体了解这一点，那就太好了，因为我对编码非常陌生，而且我很难从线程讨论

浏览 18提问于2019-10-01得票数 0

5回答

如何从timeStamp的长值中获取日期？

我尝试比较两个timeStamp长值的日期和时间，如下所示。

浏览 0提问于2011-08-12得票数 2

回答已采纳

1回答

获取两个日期对象之间的持续时间(以小时和分钟为单位)- JavaScript

、、、

虽然，我在这里看到了多个类似的问题，但是没有一个问题能帮助我找出我的计算有什么问题。我知道我可以使用库(比如Moment.JS )来简化我的解决方案，但是我只想要原生JavaScript解决方案。我试图计算两个日期对象之间的持续时间(以小时和分钟为单位)，但我的持续时间为负(不正确)。 Expected positive value but g

浏览 0提问于2018-10-18得票数 2

回答已采纳

1回答

如何使用python使用JSON特性读取csv文件

、、

(以分钟为单位)，从0001小时到0100小时。Hour02:一天中第二个小时内的持续时间(以分钟为单位)，从0101小时到0200小时。诸如此类。。Hour23:一天24小时内的持续时间(以分钟为单位)，从2301小时到2400小

浏览 3提问于2021-08-29得票数 0

3回答

DateTime十六进制格式解密器

、、

我正在做一个小小的拼图。我有一些时间戳，我知道它们是时间戳，但不知道它们是如何编码的。奇怪的是，随着时间的推移，日期似乎变得更小了。如果我转换为十进制，并从小日期减去大日期，我得到一个值，该值以秒为单位转换为两个日期之间的天数，每天的误差为5小时<

浏览 22提问于2013-10-11得票数 11

3回答

如何在SQL中计算两个特定日期之间的最长周期？

、、、、

我的任务有问题，看起来像是我有一个表仓库，其中包含一家公司的库存项目列表。此表包含列ItemID、ItemTypeID、InTime和OutTime，其中InTime (OutTime)指定各个项目进入(左侧)仓库的时间点。我必须计算公司没有任何物品进出仓库的最长时间。我试着这样解决它：我的理解正确吗？因为我认为它不是;)

浏览 0提问于2020-09-09得票数 0

2回答

时间:周期、间隔和持续时间有什么区别？

、

在 2中，三种时间跨度之间的区别是什么： 2. Which one performs better?

浏览 6提问于2010-04-16得票数 200

回答已采纳

2回答

在科特林两次约会之间，我怎样才能确认24小时过去了？

、、、

我需要检查两个日期之间24小时是否已经过去了。如果24小时过去了，我将更新我的房间数据库中的数据，如果没有，我不会。我怎么能这么做。我想保留一个具有共享偏好的日期，并将该日期与当前日期进行比较，但我不知道如何做到这一点。

浏览 11提问于2022-12-04得票数 0

回答已采纳

6回答

时间和日历

、、

如何添加/减去两个时间对象。我有两个时间对象(到达和离开)，格式为“yyyy/mm/dd HH:mm:ss”。我需要打印出发时间和到达时间的差值。SimpleDateFormat("yyyy/MMM/dd HH:mm:ss");} 我可以在工厂中获取时间

浏览 0提问于2011-11-11得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark Dataframe，获取两个日期之间的持续时间(以小时为单位)，并将它们划分为每天

相关·内容

Spark Dataframe，获取两个日期之间的持续时间(以小时为单位)，并将它们划分为每天

Google电子表格中两个日期时间的增量

在Google中找到最长的持续时间

Java中是否存在一天长度的全局变量？

Javascript将毫秒表示为天:小时:没有秒的mins

在小时内得到两个时间戳变量之间的差异的代码

两次在分钟内的差异是负面的

使用SQL将小时划分为多个月

计算服务的正常运行时间/停机时间

如何使用Java中的日期执行算术操作？

查看已经过了多少天

在Xcode10上使用Date Picker对象获取时间输入

如何从timeStamp的长值中获取日期？

获取两个日期对象之间的持续时间(以小时和分钟为单位)- JavaScript

如何使用python使用JSON特性读取csv文件

DateTime十六进制格式解密器

如何在SQL中计算两个特定日期之间的最长周期？

时间:周期、间隔和持续时间有什么区别？

在科特林两次约会之间，我怎样才能确认24小时过去了？

时间和日历

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐