如何在Pyspark中获取最近的N个日期

文章/答案/技术大牛

发布

1回答

python、apache-spark、pyspark、apache-spark-sql

有没有一种方法可以获得Pyspark中每组数据最近30天的记录？在本例中，获取分组(Grouping，Bucket)中最近日期的2条记录。所以像这样的桌子 | Grouping | Bucket | Date || 1 | 1 | 9-| 9-16-2020 | | 2 | 1 | 9-20

浏览 32提问于2020-10-01得票数 3

回答已采纳

1回答

在PySpark中添加具有滚动最新优先级的列

python、pyspark

我有一个包含客户、日期和交易类型列表的pyspark dataframe。“最近的X类型”的列，如下所示： +----------+-----+------+-------------++---|+----------+-----+------+-------------+ 因此，对于X类型，它只获取

浏览 35提问于2019-06-11得票数 0

回答已采纳

2回答

获取添加到文件夹中的最后一项的URL

python、google-drive-api

所以我有一个脚本，它把一个文件上传到一个特定的文件夹。我想得到那个文件夹中最近上传的项目的URL吗？我将如何以一种简单的方式来完成这一任务。例如，假设我有一个名为"Photos“的文件夹，我希望检索上传到该文件夹的最新项目，并将其显示在某个地方。我怎么才能得到那个网址？您可以假设"Photos“是一个共享文件夹。

浏览 3提问于2016-04-03得票数 0

回答已采纳

1回答

在3.6之前不支持python 2和3

python、apache-spark、pyspark

我的代码编译成功，并通过了所有测试用例，但由于推荐错误而陷入困境：我现在该怎么做？

浏览 4提问于2021-12-25得票数 -1

1回答

使用pyspark从s3读取流数据

numpy、amazon-web-services、amazon-s3、apache-spark、pyspark

我想利用python的极其简单的文本解析和函数式编程能力，并利用丰富的科学计算库，如numpy和scipy，因此我想使用pyspark来完成一项任务。我一开始要执行的任务是从一个存储桶中读取数据，其中有文本文件作为流的一部分被写入。有人可以粘贴一个代码片段，说明如何使用pyspark从s3路径中读取流数据吗？直到最近我还以为只能使用scala和java才能做到这一

浏览 1提问于2015-04-11得票数 2

1回答

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

apache-spark、pyspark、apache-spark-sql、spark-structured-streaming

如何在DataFrame中为流PySpark设置架构。from pyspark.sql import SparkSessionfrom pyspark.sql.functionsformat('socket')\ .option('port',

浏览 3提问于2016-12-29得票数 3

回答已采纳

1回答

ValueError:时间数据“00.00.00”火花

python、datetime、pyspark、apache-spark-sql、azure-databricks

我正在从"mm.dd.yy“格式的中获取日期值。我想把它转换成"mm.dd.yyyy“格式。from pyspark.sql.functions import udf def change_date：‘SparkException:由于阶段失败而中止的</em

浏览 2提问于2020-04-16得票数 1

回答已采纳

2回答

AssertionError: col应该是列

python、apache-spark、pyspark、apache-spark-sql

如何在PySpark中创建一个新列并用今天的日期填充该列？这就是我试过的：now = datetime.datetime.now()我知道这个错误

浏览 4提问于2017-12-20得票数 30

回答已采纳

1回答

PySpark MLLib:将数字转换为范畴

python、dataframe、apache-spark、pyspark

我从一个数据回购中获得了一个数据文件，它有一些基于日期的特性，例如The types of all these are Integer

浏览 1提问于2020-04-02得票数 0

1回答

获取Pandas中具有最大值的行

python、pandas

有一个这样的df：我想要一个只包含最大日期行的数据帧。该如何执行呢？谢谢!

浏览 13提问于2017-02-15得票数 3

回答已采纳

2回答

Pyspark:通过ID和最近日期向后加入2个数据帧

python、sql、join、pyspark

在pyspark (和一般的python )中执行两个数据帧的滚动连接时，我遇到了很多问题。我希望将两个pyspark数据帧通过它们的ID和最近日期反向连接在一起(这意味着第二个数据帧中的日期不能晚于第一个数据帧中的日期) Table_2：期望的

浏览 1提问于2020-08-08得票数 2

6回答

在java中查找最近30天、60天和90天

java、date

如何在java中从给定日期获取最近30 / 60 / 90天的记录？我和receivedDate有一些记录。我想获取从收到日期起最近30天、60天或90天的记录。如何解决？

浏览 558提问于2009-06-11得票数 29

回答已采纳

2回答

从Glue Catalog和Glue Py Spark脚本中的动态路径同步CSV文件

amazon-web-services、amazon-s3、pyspark、aws-glue

我每天都将CSV文件存储在亚马逊网络服务s3中。下面是我的S3文件路径结构：在此结构中，将每天生成s3文件路径的日期部分。要使用它，我如何在数据目录中添加S3路径？我只想同步最近使用的文件夹CSV文件。另外，对于Job part，我如何在Glue Pyspa

浏览 1提问于2019-09-19得票数 0

1回答

我们使用一个requirements.txt文件来存储我们的依赖项，这些依赖项将与pip或conda一起安装。我添加了pyspark >= 2.2.0，它将运行pip install pyspark。我们利用蟒蛇。安装没有任何错误，我可以在本地Anaconda site-packages目录中找到pyspark目录。当我运行我的python脚本时，脚本中包含一些火花代码。为什么我的pyspark安装目录中没有

浏览 3提问于2017-12-12得票数 0

2回答

Spark zeppelin:如何在%pyspark解释器中获取%sql结果？

apache-spark、pyspark、apache-spark-sql、apache-zeppelin

我知道我可以用 %pysparkselect C.name, count(C.name) from orderitems as A left join clientpagemodules as C onunix_timestamp(NOW()) - 3600*24*30) *1000

浏览 30提问于2019-02-15得票数 0

1回答

获取执行者任务在pyspark中的任务id

python、apache-spark、pyspark

我在pyspark中有一个rdd.foreachPartition(some_function)操作。some_function函数将executor中当前任务的数据写入所有executor通用位置的文件(如hdfs或s3 bucket)。现在，如果我在所有的执行器中使用相同的文件名，那么这个文件就会被替换，只剩下最后一个写入的文件。因此，我正在寻找一个唯一的标识符来表示每个任务，从而表示每个文件名

浏览 0提问于2018-05-05得票数 2

1回答

在pyspark中添加主题内有序交互日的列

pyspark、pyspark-dataframes

我有一个很大的pyspark数据框，其中包含多年的用户交互数据。这里有很多列，但这个问题的三个有用的列是userid、interaction_date和interaction_timestamp。假定表中给定用户有多个条目。我需要编写一个函数来添加一个列，该列将指示表中给定客户的最近观察到的交互之前的天数。例如，对于输入表

浏览 21提问于2019-10-09得票数 0

回答已采纳

1回答

如何从PySpark中的date列获取一周的第一个日期？

pyspark

我的PySpark数据帧中有一个普通的时间戳列。我想从新列中的给定日期开始获取一周的开始日期。

浏览 13提问于2019-02-05得票数 0

1回答

将每个二元语法从列表格式移动到Pandas或Pyspark数据帧中的新行

python、pandas、apache-spark、text、pyspark

我有pandas和pyspark数据帧，每天每行都有二元组的列表。我想打破列表，并将每个二元组合移动到一行，计数按降序排列。如下所示是我拥有的数据帧。我已经按event_dt进行了排序。在“merged”列中，显示了二元语法的列表。例如，“漂亮的相遇”和“相遇后付费”是两个二元语法。双连词的列表每天都在继续... ? 现在，我想要将每个biagram移动到同一日期的新行。例如，“nice meet”将在一行中</em

浏览 40提问于2020-10-23得票数 0

回答已采纳

1回答

如何在Pyspark中检查列的日期格式

regex、dataframe、apache-spark、date、pyspark

我对pyspark是个新手，我正面临着regex的问题。因此，我有一个日期列，我想检查列中的行是否为日期格式 ..。我知道如何在普通的python中做到这一点，但不知道pyspark，有人能帮助我吗？我的代码： df = 0 12/12/2020 a2

浏览 54提问于2021-02-28得票数 0

回答已采纳

点击加载更多