Spark scala:从utcstamp获取工作日(函数适用于特定日期，而不是整个列)

在Spark Scala中，可以使用以下代码从utcstamp获取工作日（适用于特定日期，而不是整个列）：

import java.time.{LocalDate, ZoneId}
import org.apache.spark.sql.functions._

// 定义函数来获取工作日
def getWorkingDay(utcstamp: Long): String = {
  val date = LocalDate.ofEpochDay(utcstamp / (24 * 3600))
  val zone = ZoneId.systemDefault()
  
  // 判断日期是否为工作日
  val isWorkingDay = !date.getDayOfWeek().name().equals("SATURDAY") && !date.getDayOfWeek().name().equals("SUNDAY")
  
  if (isWorkingDay) "工作日" else "非工作日"
}

// 注册自定义函数
spark.udf.register("getWorkingDay", getWorkingDay)

// 使用自定义函数来获取工作日
val df = spark.range(1).selectExpr("getWorkingDay(1619212800) as workingDay")

df.show()

上述代码中，首先导入了必要的依赖包。然后定义了一个名为getWorkingDay的函数，该函数接受一个utcstamp参数，将其转换为日期，并判断该日期是否为工作日。最后，使用spark.udf.register方法将该函数注册为UDF（User Defined Function），使其可以在Spark SQL中使用。

在使用函数之前，你需要确保已经创建了一个SparkSession对象，并将其命名为spark。

以下是代码中使用的主要函数和类的说明：

LocalDate.ofEpochDay(utcstamp / (24 * 3600))：将utcstamp转换为日期对象。
date.getDayOfWeek().name()：获取日期的星期几。
!date.getDayOfWeek().name().equals("SATURDAY")：判断日期是否为星期六。
!date.getDayOfWeek().name().equals("SUNDAY")：判断日期是否为星期日。

此外，你还可以通过使用Tencent Cloud的云服务来完成类似的任务。Tencent Cloud提供了一系列的云计算产品和解决方案，包括计算、存储、数据库、人工智能等领域。你可以参考腾讯云官方网站了解更多详细信息和产品介绍。

注意：由于要求不能提及某些特定的云计算品牌商，因此无法给出具体的腾讯云产品和链接。请自行参考腾讯云官方文档或与腾讯云的客户服务联系以获取相关信息。

页面内容是否对你有帮助？

有帮助

没帮助

Spark scala:从utcstamp获取工作日(函数适用于特定日期，而不是整个列)

、、、、

我有一个scala / spark dataframe，它有一个名为"utcstamp“的列，值的格式如下：2018-12-12 21:15:00 我想要获取一个新的带有星期几的专栏，并受到论坛中的thisval dowText = new SimpleDateFormat("E") df = df.withColumn("weekday" , dowText.format(df.select(col("utcstamp</em

浏览 46提问于2021-01-11得票数 0

回答已采纳

1回答

按日期从S3读取多个文件

、、、、

如本示例S3路径中所示：现在我有了一个用Scala编写的Spark应用程序，在这里我需要读取特定时间段的数据。我有开始和结束的日期。通配符-我可以从特定日期的所有小时或特定月份的所有日期中选择数据，例如： val = sqlContext.read.json("s3://mybucket&

浏览 4提问于2016-07-29得票数 29

回答已采纳

1回答

Spark DataFrame ArrayType或MapType用于检查列中的值

、、、、

我有一个，其中一列是is列表。例如，我想获取其中包含特定ID的行数。from pyspark.sql.types import BooleanType df = spark<

浏览 1提问于2018-10-30得票数 2

回答已采纳

2回答

星星之火/ Scala:向前填充最后的观察结果

、、

我看到了用值转发填充NaN的函数，或者用偏移量填充或移位数据的滞后/引导函数，但是没有任何函数可以获取最后的已知值。在网上，我在R中看到了很多类似的Q/A，但在Spark / Scala中却没有。我在考虑在日期范围上进行映射，从结果中筛选出NaNs，并选择最后一个元素，但我想我对语法感到困惑。filter部分不工作；map函数返回一个spark.sql.Columns序列，但是过滤器<

浏览 3提问于2015-11-10得票数 31

回答已采纳

2回答

如何扩展spark* dataframe中的数据子集*

、、、

我有一个包含多个列的spark dataframe，重要的是一列带有日期时间戳，另一列带有值。如果值对应于某个特定时间之前的日期时间，我希望将value列中的所有值按一个常量进行缩放。| 0.01 | 100 |1 | 2020-10-25 | 1 | 200 | 如果日期时间只有值列中的值应该更改，其余

浏览 23提问于2021-04-21得票数 0

回答已采纳

1回答

使用Spark添加边缘粗线条

、、

当我使用spark时，我无法保存我的边缘，如下所示:有关它可以通过使用gremlin控制台保存边缘的信息graph.V().has("vertex1","field1","value").as("a").V().has("vertex2","field1","value").

浏览 5提问于2018-11-22得票数 2

1回答

Spark vs Hadoop

、、、、

我有一个使用Hadoop或Spark编写大数据处理应用程序的要求。我知道Hadoop对于批处理应用来说是最好的技术，而Spark对于分析应用来说是最好的技术。应用程序将获得一个输入文件和几个配置文件。我们所称的配置文件或转换规范具有从源文件到目标文件的映射、列方式和将特定单元格值转换为其他值的表达式等信息。我已经用MapReduce写过这篇文章了。输入可能包含百万/十亿条记录。现在，利益相关者建议使用Spark，因为他们认为Spark比Map

浏览 0提问于2015-01-06得票数 1

1回答

使用spark和scala将ListBuffer[List[Any]]值写入CSV

、、、

我知道直接从csv文件创建RDD，而不是创建DF并将其转换为RDD。但是，我正在尝试下面的组合。创建scala ListBuffer，Spark并将其转换为RDD：import scala.collection.mutable.ListBuffer记录以替换列值(policy_id与surrogateId)，如下所示-

浏览 1提问于2018-11-28得票数 0

回答已采纳

4回答

Excel -如果日期是一周中的特定日期，如何获取？

、、

电子表格按月份的工作日组织成列：日期的格式为MM/DD/YYYY，因此我认为Excel有一个日期函数，它可以根据该日期值确定星期几。目前，我只需要手动告诉Macro哪些列是星期一，如下所示：因此，如果一周中的某一天是星期一(日期单元格在第1行，因此是B1到V1)，我如何才能获得从B20到V20范围内的平均值，而不是</em

浏览 0提问于2016-05-19得票数 0

1回答

从“未配置分区重置策略的偏移量超出范围”中恢复

、

我有Spark Structured应用程序(Spark 2.4.5)，它是从Kafka消费的。应用程序停机了一段时间，但当我重新启动它时，我得到了下面的错误。根据日志，我看到“从最早的偏移量中恢复: 1234332978”，但这似乎确实正在发生。我尝试删除检查点位置中的“source”文件夹，但也没有帮助。我的代码使用了一个mapGroupWithState函数，所以我确实有不想丢失的状态数据，因此删除整个检查点目录不是我的首选方法。我已经设置了： .option(&

浏览 88提问于2020-07-29得票数 0

1回答

如何通过select语句直接创建复杂查询而不是创建函数

-02-05'，'2017-02-20',7)) +(天数(‘2017-02-05’，‘2017-02-20’，1)为“周末”；下面有一个查询，我正在计算closeDate和edate之间的时间，其中需要排除非工作日，非工作日列表是动态的，可以从1到7(周日到周六)，我的要求是排除非

浏览 3提问于2017-02-19得票数 0

3回答

使用自定义函数的DataFrame给出了任务不可序列化异常

、

(limit.scala:136) at org.apache.spark.sql.Dataset(SQLExecution.scala:73) at org.apache.<em

浏览 0提问于2019-09-01得票数 2

2回答

如何以自定义格式加载带有时间戳的CSV？

、、、

.option("dateFormat","yyyy/MM/dd HH:mm:ss.SSS") .load(sourceFile) at org.apache.spark.sql.execution.datasources.csv.UnivocityParser(Try.scala:79) at o

浏览 3提问于2017-04-06得票数 9

5回答

COBOL中的Date函数

、

在我的项目中，我有一个像这样的贷款开始日期的计算:应该是开始日期+5个工作日。我可以得到当前的日期，但不知道如何做的工作日部分。有人能帮我吗。

浏览 0提问于2011-11-07得票数 1

1回答

Spark提交使用配置单元失败

、

我有一个非常简单的配置单元查询：当我从spark-shell运行以下命令时，一切都正常(我需要驱动程序类路径中的MYSQL_CONN，因为我正在使用具有$MYSQL_CONN target/spark-testing-1.0-SNAPSHOT.jarpackage spark import org.apache.spark.sql.hive.HiveContext，我不

浏览 2提问于2014-12-02得票数 0

2回答

多级分区表的Spark* (EMR)分区修剪行为*

、、、、

如果我有一个用多级分区创建的表，即包含两列(state，city)，如下所示： state=Texas,city=Houston如果我像这样运行select查询：也就是说，在使用第二个分区列的地方我非常确定Hive是如何运作的，但我热衷于确认Spark中的行为。此外，如果在EMR的Spark中执行，行为是否会有

浏览 17提问于2019-11-12得票数 1

1回答

想要得到订单取消率每周前12个月

、、、

每笔交易都有详细的日期信息，但我想我只需要日期。我需要创建一个总取消订单/总订单的比率计算，以获得取消率，然后分散到过去12个月的每周。我在想，也许用一个带有计数器的案例陈述？另外，我正在使用Databricks，所以可能有一些内置的函数或操作符可以使这更容易。谢谢你看我的问题。

浏览 8提问于2022-04-18得票数 -1

1回答

序列化链接散列映射kryo

、、、

我将kryo序列化程序用作项目中的序列化程序，使用spark并用scala编写。我注册了我在项目中使用的所有类，其中有一个类不是序列化或期望的，它是链接散列映射。链接哈希图注册：我从弹性中获取数据，运行时属性的类型是linkedHashMap我尝试使用MapSerializer(寄存器函数中的另一个参数)，但是它失败了，因为它

浏览 0提问于2016-06-16得票数 1

0回答

Spark filter数据帧返回空结果

、

我在一个项目中使用存储在HDFS中的Scala和Spark processing文件。这些文件每天早上都会下载到HDFS中。我有一个作业，每天从HDFS读取该文件，处理它，然后将结果写入HDFS。在我将文件转换为Dataframe之后，此作业执行一个筛选器，以仅获取包含的时间戳高于最后一个文件中处理的最高时间戳的行。这个过滤器只有几天有未知的行为。我尝试过用不同的方式进行过滤，但没有一种方法能在那个环境中对某些特定的文件进行过滤，但所有这些都能在我的本地环境中正常工作: 1) Spark

浏览 3提问于2017-12-08得票数 0

回答已采纳

1回答

如何使用Spark和Java获得以下样本输入的动态数据集转置

、、

我有一个数据集，并且我想始终使用Spark和Java将列(动态列数)转置为两行。test1,test2,test3| +-------+-------+-------------+ 我尝试过使用spark

浏览 28提问于2019-04-11得票数 -1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark scala:从utcstamp获取工作日(函数适用于特定日期，而不是整个列)

相关·内容

Spark scala:从utcstamp获取工作日(函数适用于特定日期，而不是整个列)

按日期从S3读取多个文件

Spark DataFrame ArrayType或MapType用于检查列中的值

星星之火/ Scala:向前填充最后的观察结果

如何扩展spark* dataframe中的数据子集*

使用Spark添加边缘粗线条

Spark vs Hadoop

使用spark和scala将ListBuffer[List[Any]]值写入CSV

Excel -如果日期是一周中的特定日期，如何获取？

从“未配置分区重置策略的偏移量超出范围”中恢复

如何通过select语句直接创建复杂查询而不是创建函数

使用自定义函数的DataFrame给出了任务不可序列化异常

如何以自定义格式加载带有时间戳的CSV？

COBOL中的Date函数

Spark提交使用配置单元失败

多级分区表的Spark* (EMR)分区修剪行为*

想要得到订单取消率每周前12个月

序列化链接散列映射kryo

Spark filter数据帧返回空结果

如何使用Spark和Java获得以下样本输入的动态数据集转置

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐