PySpark：(广播)在最近的日期时间/unix连接两个数据集

、、、、

我正在使用PySpark，几乎要放弃我的问题了。我有两个数据集:一个非常大的(集合A)和一个相当小的(集合B)。info a | 2015-01-01 12:00:00 info b | 2015-01-01 12:00:00 A有很多行，每行都有不同的时间戳B每隔几分钟就有一个时间戳。这里的主要问题是，在两个</

浏览 10提问于2020-10-08得票数 1

回答已采纳

2回答

Pyspark:通过ID和最近日期向后加入2个数据帧

、、、

在pyspark (和一般的python )中执行两个数据帧的滚动连接时，我遇到了很多问题。我希望将两个pyspark数据帧通过它们的ID和最近日期反向连接在一起(这意味着第二个数据帧中的日期不能晚于第一个数据帧中的日期) Table_1：

浏览 1提问于2020-08-08得票数 2

2回答

奇怪的日期号问题

、、、

我正在处理一个数据集，其中有一个日期字段，其日期如下所示： 42437.5460402431 其中数量较大的是最近的。我们中的一个人认为它与unix时代和交替时间表示有关。我们现在面临的问题是将这些日期读成标准的MM-DD-YYYY格式。有人对如何将这些替代日期表单转换为

浏览 2提问于2016-03-10得票数 0

回答已采纳

1回答

使用某些列和列表从spark dataframe中获取特定行

、、、

我有很大的spark数据帧'df'，(超过十亿行)由 meta_info | date | comment 我还有一个变量'lst'，它存储了我感兴趣的所有in。怎样才能只保留id包含在lst中的行？ df.where("meta_info".isin(lst)).show() 这就是我所尝试的，但它显示'string‘没有isin

浏览 21提问于2021-07-15得票数 0

1回答

星火中笛卡尔加入与BroadcastNestedLoop连接的区别

、

它们都以跨积的方式扫描表中的每一条记录。他们说，在BroadcastNestedLoop中，向所有工作节点广播较小的表。在笛卡尔加入的情况下，这种洗牌是如何发生的？

浏览 4提问于2022-02-05得票数 1

回答已采纳

2回答

火星雨: isin与join

、、

通过给定的值列表过滤pyspark中的数据的一般最佳实践是什么？具体地说：其他背景：

浏览 0提问于2017-08-21得票数 28

回答已采纳

2回答

如何在spark中将时间戳列拆分为日期和时间

我想把时间戳值分成日期和时间。20/2016 3:20:34 PM需要拆分为2016年1月20日和下午3:20:30split_col = pyspark.sql.functions.split

浏览 0提问于2017-03-20得票数 5

1回答

使用Pyspark* sql将unix时间转换为datetime的结果不正确*

、、

我将unix time转换为可读的日期/时间字符串。我发现，转换结果有时似乎是不正确的，特别是在2017年12月31日。time_df = spark.createDataFrame(pd.DataFrame({'unix_time': [ut1]}))如果我将24小时的时

浏览 2提问于2018-02-22得票数 2

回答已采纳

1回答

如何在where子句中引用来自另一个CTE的日期范围而不连接到它？

、、、、

我正在尝试为Hive编写一个查询，它使用系统日期来确定昨天的日期和30天前的日期。这将为我提供滚动30天，而不需要在每次运行查询时手动将日期范围提供给查询。我尝试了各种方法，但每次都会得到一个"ParseE

浏览 0提问于2019-07-18得票数 2

1回答

火花放电中的多重转换/动作与懒惰评估

、、

我正在PySpark上进行一个项目，该项目需要处理大型数据集(大小约为2GB的多个.csv文件)。C = A.join(B, A.key_1 == B.key_2, "full")C.count() PySpark是否在每次调用C.count()时都会重新执行对A和B*+* A+B的完全

浏览 3提问于2022-11-14得票数 0

1回答

为什么斯派克对这两个查询的解释不同？

、、

因此，为了达到相同的目标，我有这两个问题。使用Spark。layer_scan_index WHERE name = 'Example1');看上去斯派克处理这些问题的

浏览 1提问于2017-06-08得票数 3

回答已采纳

1回答

多个字符串列上的隐蔽日期- PySpark* / Databricks*

、、、

我对Databricks非常陌生，Spark/PySpark/Python。我已经在Stack中找到了一个可行的候选人，它已经完成了一个变量<em

浏览 0提问于2021-06-04得票数 0

回答已采纳

1回答

我正在尝试清理这些员工志愿者数据。没有办法跟踪员工是否已经注册为志愿者，以便他可以注册为新的志愿者，并将获得新的VOLUNTEER_ID。我有一个数据馈送到我可以将每个VOLUNTEER_ID绑定到其EMP_ID的位置。志愿者数据需要清理，以便我们可以弄清楚员工是如何从一个volunteer_level迁移到另一个volunteer_level的，以及在什么时候。业务逻辑是，当有重叠的日期时，我们在

浏览 0提问于2015-04-28得票数 0

3回答

连接两个表，然后按日期排序，但将两个表组合在一起

、、

我有两张桌子： - userID- date - userID- date因此，这里的目标是连接两个表，其中userID匹配我想要的任何内容-然后返回按日期排序的所有内容(最近一次在顶部)。但是，由于每个表中都有一个日期字段，所以我不确定MySQL将如何处理.会自动按两个日期进行排

浏览 4提问于2011-03-12得票数 2

回答已采纳

2回答

MongoDB和Spark:无法将字符串转换为TimestampType

、

我使用官方的MongoDB Spark Connector从MongoDB集合中读取Spark中的数据，代码如下： INFO DAGScheduler: Job 1 failed: countTraversableLike.scala:234) at scala.

浏览 12提问于2018-11-28得票数 1

3回答

利用PySpark在数据模型上应用sklearn训练模型

、、、

我用Python训练了一个随机森林算法，并希望用PySpark在一个大数据集上应用它。我首先加载了经过训练的sklearn模型(使用joblib)，将包含这些特性的数据加载到Spark数据框架中，然后添加了一个带有预测的列，该列具有用户定义的函数，如下所示：new_dataframe = dataframe.withColumn('predict

浏览 6提问于2017-05-31得票数 8

回答已采纳

1回答

用最近的时间戳合并2个csv文件

、

我有两个CSV格式的数据集。两者都包含一个Unix时间戳。一个包含与业务相关的数据，另一个包含天气数据。我想做的是通过最近的时间戳导入与业务相关的数据中的天气数据。由于没有一个时间戳完全匹配，我想让每一家公司都有最近的天气记录的<

浏览 1提问于2014-05-09得票数 1

回答已采纳

1回答

Pyspark将字符串转换为包含两种不同格式的日期时间戳列

、、

我正在处理芝加哥数据集，日期列采用字符串格式，由日期组成，但具有两种不同的格式： Row(Date='01/10/2008 12:00'), Row(Date='02/25/2008 08:20:53PM') 我找到了下面的代码，并尝试了这两个(我不确定是正确的)，但由于它包含两种格式，都在下面的代码收到错误的格式是找不到。data_clean = data_clean.w

浏览 14提问于2021-04-18得票数 0

回答已采纳

2回答

在星火中，广播哈希连接和广播嵌套循环连接有什么区别？

在星火中，广播哈希连接和广播嵌套循环连接有什么区别？在哪种情况下火花会选择哪个和哪个更快？

浏览 1提问于2020-01-01得票数 4

4回答

如何解析电火花中的twitter日期时间字符串？

、、、

我的数据在pyspark ('pyspark.sql.dataframe.DataFrame')中。其中一列以Twitter字符串格式存储日期时间。我为python找到了几个解决方案，但是没有具体的解决方案。我试着遵循解决方案，但没有奏效 date_df = df.select('created_at', f

浏览 0提问于2019-05-03得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Pyspark:通过ID和最近日期向后加入2个数据帧

奇怪的日期号问题

使用某些列和列表从spark dataframe中获取特定行

星火中笛卡尔加入与BroadcastNestedLoop连接的区别

火星雨: isin与join

如何在spark中将时间戳列拆分为日期和时间

使用Pyspark* sql将unix时间转换为datetime的结果不正确*

如何在where子句中引用来自另一个CTE的日期范围而不连接到它？

火花放电中的多重转换/动作与懒惰评估

为什么斯派克对这两个查询的解释不同？

多个字符串列上的隐蔽日期- PySpark* / Databricks*

PIG脚本如何

连接两个表，然后按日期排序，但将两个表组合在一起

MongoDB和Spark:无法将字符串转换为TimestampType

利用PySpark在数据模型上应用sklearn训练模型

用最近的时间戳合并2个csv文件

Pyspark将字符串转换为包含两种不同格式的日期时间戳列

在星火中，广播哈希连接和广播嵌套循环连接有什么区别？

如何解析电火花中的twitter日期时间字符串？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐