如果行与另一个DataFrame中的ID匹配并且时间戳低于其他帧的时间戳，如何过滤Scala Spark DataFrame

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

2回答

、、

我想根据消息事件的编辑时间过滤掉DataFrame中的条目。我有一个包含message events的DataFrame，以及另一个表示它们何时/是否被编辑的DataFrame。如果消息表中的行在已编辑的表中具有匹配的索引，并且消息表中</

浏览 26提问于2020-06-27得票数 0

回答已采纳

1回答

我需要根据我的列本身的值更新Hbase中的时间戳，而不是默认的时间戳

、、、

默认情况下，Hbase的每一行都有时间戳值。我们如何通过spark scala代码在HBase中更新我自己的时间戳值，同时保存(插入)来自spark Dataframe的记录？b, timestamp=1288380738440, value=value2 row3 column=cf:c, timestamp=1288380747365, v

浏览 3提问于2017-05-05得票数 0

3回答

如何将星火数据中任意数量的列从时间戳转换为Longs？

、、、

我正在用Scala编写这篇文章，并且使用Spark1.6，并且没有选择切换到一个更新的版本。我正在尝试合并两个数据文件，一个是从Hadoop集群上的Avro文件中提取的，另一个是从Teradata中提取的。我可以很好地阅读它们，并且保证它们的列名顺序相同，但是当我试图将它们合并时我遇到了一个错误，因为Avro将时间戳

浏览 3提问于2017-08-18得票数 0

回答已采纳

2回答

Python中的SQL查询-在SQL查询中插入来自Python的值

、、

我在python中有一个根据时间戳过滤的SQL查询，但是时间戳会根据数据帧中的值进行更改。query = """(SELECT [ID],[Timestamp],[Value] FROM [table] Where [Timestamp] >= '2021-10-13') alias"""big_df = spark</em

浏览 13提问于2021-10-19得票数 0

2回答

多只熊猫的时间订购DataFrames？

、、

给定具有标识符和时间戳列的DataFrame： X 2019-01-07T01:23:45.678以及具有类似属性的单独DataFrame： X 2019-01-01T05:23:45.678Y 2019-01-08T06:44:54.

浏览 7提问于2019-10-15得票数 1

回答已采纳

1回答

时间戳StructField中的空值

、

如何处理时间戳列中的空值？在最后一列中，空值与时间戳混合。val dataFrame = spark.createDataFrame(rdd, StructType(fields)) 导致: java.lang.RuntimeException: scala.runtime.BoxedUnit不是时间戳模式的有效

浏览 0提问于2018-06-21得票数 0

回答已采纳

3回答

为什么在使用架构查询时所有字段都为空？

、、、

我使用在case类和编码器的帮助下指定模式的结构化流来获取流数据。val sampleLogSchema = Encoders.product[SampleLogEntry].schema .readStream当我将此模式中的每个字段更改为10.29.2.6||unk

浏览 3提问于2019-11-23得票数 3

回答已采纳

1回答

我们是否可以对多个数据框进行排序，比较列中每个元素的值

、、、

我有两个包含一些数据的csv文件，我想根据一个公共列来组合和排序数据:这里是data1.csv和data2.csv文件： data3.csv是输出文件，您需要在其中对数据进行组合和排序，如下所示：我如何才能做到这一点？

浏览 0提问于2020-05-23得票数 0

2回答

Spark Structured Streaming如何确定事件是否迟到？

我通读了spark structured streaming文档，我想知道spark structured是如何确定事件已经迟到的？它是否将事件时间与处理时间进行比较？1)这个处理时间是从哪里来的？由于它的流，它是否假设有人可能正在使用具有处理时间戳的

浏览 0提问于2018-02-26得票数 4

1回答

线程“主”java.lang.IllegalArgumentException中的异常:需求失败

、、

在这里，我试图将时间戳动态地添加到数据帧中， {“行动”：“事件”、"id":1173、"lat":0.0、"lon":0.0、"rollid":55、"event":"type“、"ccd":0、"fone":"ione”、"version":"10.1“、"item":"shack&

浏览 1提问于2017-01-17得票数 0

2回答

用不同的TTL向Cassandra写火花

、、、、

在Java中，我有一个“bucket_timestamp”列的dataframe，它表示该行所属的存储桶的时间。我想把数据写到卡桑德拉数据库。数据必须用TTL写入数据库。TTL应该依赖于桶时间戳--其中每一行的TTL应该被计算为ROW_TTL = CONST_TTL - (CurrentTime - bucket_timestamp)，其中CONST_TTL是我配置的常量--对于每一个可能

浏览 1提问于2018-07-02得票数 1

回答已采纳

1回答

基于时间戳的Cassandra更新或插入

、、、

我正在尝试写一个查询，这样如果匹配一行，则仅在所提供的时间戳晚于lastTimestamp列值的情况下更新值。这里的困难之处(如果我错了，请纠正我)是，我不能使用Cassandra内置的“使用时间戳”功能，因为在创建新行时，请求提供的

浏览 1提问于2017-09-07得票数 2

1回答

尝试根据python中的匹配时间戳匹配行

、、、、

因此，当时间戳不是相同的格式时，我试图了解如何基于匹配时间戳来匹配两列的值。我认为这与将两列都放入同一个日期-时间对象有关，但其中一列在多列中有时间戳组件，因此我在这里有点困惑。我在蟒蛇工作。A在一列中有时间戳，而dataframe B有三列的时间和日期。我想要做的是按<em

浏览 3提问于2022-01-12得票数 0

回答已采纳

1回答

在寻找前进的同时合并两个数据文件

、、、

我有两个Pandas DataFrames，需要合并才能获得一组员工的完整历史记录。这两个框架都包含employee ID和用于数据有效时的时间戳。但是，一个表中的时间戳有时会有点“迟”，这意味着第二个dataframe具有时间戳的时间戳是在第一个dataframe中的<e

浏览 1提问于2021-09-21得票数 1

2回答

如何检查某个值是否为Scala中的unix时间戳？

、、

在DataFrame df中，我有一个包含时间戳值的列datetime。问题是，在某些行中，这些是unix时间戳，而在其他行中，这些是yyyyMMddHHmm格式。如何验证每个给定值都是unix时间戳，如果不是要将其转换为时间戳？df.withColumn("tim

浏览 4提问于2018-10-17得票数 1

1回答

熊猫在给定值列表的数据帧列中找到最近值的索引。

、、、、

因此，我试图找到一种向量化的方法来做到这一点，比如，我有一个数据框架DF1，其中包含一个时间戳列，并按顺序增加了很多时间戳。我还有一个具有目标时间的列表，我希望使用它在DF1中查找该行的行或索引，其中包含与目标时间最近的时间戳。我有一个使用迭代行的解决方案，但我想知道是否有一种不用迭代的方法，

浏览 0提问于2020-11-19得票数 1

回答已采纳

1回答

在Spark DataFrame中添加一个新列，该列包含一个列的所有值的总和-Scala/Spark

、、、

中添加一列，该列包含同一dataframe中一列的所有值的总和。例如:在图片中有列- UserID，MovieID，Rating，UserID时间戳。现在我想添加一个名为Sum的列，它将包含Rating列的所有值的总和。2| 880606923|+------+-------+------+-------------+ 仅显示前5行我

浏览 25提问于2019-01-23得票数 0

回答已采纳

0回答

Spark filter数据帧返回空结果

、

我在一个项目中使用存储在HDFS中的Scala和Spark processing文件。这些文件每天早上都会下载到HDFS中。我有一个作业，每天从HDFS读取该文件，处理它，然后将结果写入HDFS。在我将文件转换为Dataframe之后，此作业执行一个筛选器，以仅获取包含的时间戳高于最后一个文件中处理的最高时间戳的行。这个

浏览 3提问于2017-12-08得票数 0

回答已采纳

1回答

scala.MatchError在Spark2.0.2 DataFrame联合期间

、、

我试图使用联合函数合并2个DataFrames，一个与旧数据合并，另一个与新数据合并。在我尝试将一个新字段动态添加到旧的DataFrame之前，这通常是可行的，因为我的模式正在发展。、时间戳新模式字段名: id、station_id、station_name、station_timezone、station_genre、publisher_id、publisher_name、gr

浏览 2提问于2017-01-18得票数 1

1回答

如何根据时间戳将dataframe与json数据同步或合并

、、、、

有很多关于如何合并两个pandas数据帧的例子，但我的问题是我有两种数据。data1是一个csv数据，我用pandas读取它并将其转换为dataframe，另一个data2是json格式的。在每一列中，都有与该特性相对应的所有值，并且这些值都在这个json中。我的目标是基于时间戳合并这两个数据集。这非常困难，因为在json<e

浏览 9提问于2019-11-11得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云