PySpark数据帧:按日期删除行

文章/答案/技术大牛

发布

1回答

、、、

我想将我的spark数据帧减少到某个日期之后的日期，例如2020-03-01。通过sql加载数据将为数据列提供一个字符串，因此我在尝试通过数据比较删除行之前对其进行了更改。

浏览 11提问于2020-09-14得票数 0

1回答

将每个二元语法从列表格式移动到Pandas或Pyspark数据帧中的新行

、、、、

我有pandas和pyspark数据帧，每天每行都有二元组的列表。我想打破列表，并将每个二元组合移动到一行，计数按降序排列。如下所示是我拥有的数据帧。我已经按event_dt进行了排序。现在，我想要将每个biagram移动到同一日期的新行。例如，“nice meet”将在一行中，而“meet postpaid”将在另一行中，而event_dt列则显示相同的日期。

浏览 40提问于2020-10-23得票数 0

回答已采纳

1回答

Pyspark pyspark.sql.functions行为怪异

、、、

当我们有超过3个节点来分发数据时，pyspark.sql.functions下的"last“函数在spark上返回不一致的结果。from pyspark.sql.types import DoubleType numeric = sqlContext.createDataFrame

浏览 1提问于2017-02-02得票数 1

1回答

从多个S3存储桶导入pyspark dataframe，其中有一列指示条目来自哪个存储桶

、、

我有一个按日期分区的S3存储桶列表。第一个存储桶标题为2019-12-1，第二个存储桶标题为2019-12-2，依此类推。这些存储桶中的每一个都存储我正在读取到pyspark dataframe中的拼图文件。从每个存储桶生成的pyspark dataframe具有完全相同的模式。我想要做的是迭代这些存储桶，并将所有这些拼图文件存储到一个单独的pyspark dataframe中，该数据框有一个date列，表示dataframe中的每个条目实际来自哪个存储桶。因为单独导入每个存储桶时生成的

浏览 13提问于2019-12-16得票数 0

回答已采纳

2回答

如何从以2K开头的pyspark数据帧中删除记录

、、

我使用的是pyspark 3.0.1。我想从我的pyspark数据帧df的列group中删除记录以2K开头的行。我的样本数据如下所示John 23 1L12Pat 35 1P28Name Age

浏览 1提问于2021-03-04得票数 0

1回答

不包括当前记录的过去N个记录的平均值

给了我的星火数据("2019-01-01",100),("2019-01-03",102), ("2019-01-04",103)

浏览 2提问于2019-06-13得票数 1

回答已采纳

2回答

为什么groupBy()比pyspark中的distinct()快得多？

当我用groupBy()替换spark数据帧上的distinct()时，我在我的pyspark代码中看到了很大的性能改进。但是我不能理解背后的原因。整个意图是从数据帧中删除行级重复项。我尝试在谷歌上搜索groupBy()和distinct()在pyspark中的实现，但没有找到。有没有人能给我解释一下或者给我指出正确的方向？

浏览 0提问于2018-09-11得票数 6

1回答

使用另外两列中的信息并列放置两个PySpark df列

、、、

我的PySpark数据帧中有四列： 'drivers','cars','topSpeeds','dates' 假设每个司机在不同的日期用不同的汽车达到了不同的最高速度，不同的汽车在不同的日期用不同的司机达到了不同的最高速度我可以将每辆车的司机在所有日期的最高速度的平均值如下： df.groupBy("drivers").mean() 我认为这在没有指定按topSpeed

浏览 9提问于2019-02-20得票数 0

回答已采纳

2回答

仅基于azure databricks中的前1000行显示示例

、、

dfResult = spark.readStream.format("delta").load(PATH)尝试从我已经将所有数据放入其中的增量表中读取流数据，并通过执行以下操作来可视化它们：SELECT Time, score但是，图形或表格上只显示前1000行。有没有办法查看最后1000行或显示整个数据而不是前1000行</em

浏览 14提问于2020-02-21得票数 0

5回答

火花复制数据栏- Python/PySpark中的最佳实践？

、、

这是用于使用Spark2.3.2的Python/PySpark。我正在寻找最佳实践方法，将一个数据框架的列复制到另一个数据框架，使用PySpark对一个非常大的10+十亿行数据集(按年/月/日平均划分)。每一行都有120列要转换/复制。输出数据帧将被写入另一组文件中，日期分区。

浏览 1提问于2018-12-19得票数 5

1回答

在DataFrame的特定行上运行函数

、

我有一个函数，它将dataframe作为其输入之一，该数据帧按日期进行索引。我如何才能只在数据帧的一个子集上运行函数(比如，从2005-2010)？我认为我不能简单地从数据帧中删除其余的行，因为函数的一部分会跟踪滚动平均值，因此前几行将取决于我没有考虑的日期。

浏览 9提问于2020-05-22得票数 1

1回答

如何在pyspark中对dataframe行排序

我有一个包含两列的数据帧，其中包含数字，我需要按行而不是按列对数据帧进行排序。到处都给出了如何按列对dataframe进行排序，但我找不到如何在pyspark中对dataframe的所有行进行排序。

浏览 0提问于2017-11-14得票数 1

2回答

在x行之前避免重复

、、、

我有一个数据库，里面有一些日期和标识符。我想做的是避免在接下来的3个月内看到相同的标识符，某种程度上消除重复，但不是整个系列，只是一小部分。我的数据示例如下所示：2019-02-28 29422019-08-31 33822019-06

浏览 1提问于2020-01-18得票数 0

2回答

pyspark:删除所有行中具有相同值的列

相关问题：然而，上述问题的答案仅适用于熊猫。有没有针对pyspark数据帧的解决方案？

浏览 1提问于2018-12-17得票数 4

2回答

Pyspark:通过ID和最近日期向后加入2个数据帧

、、、

在pyspark (和一般的python )中执行两个数据帧的滚动连接时，我遇到了很多问题。我希望将两个pyspark数据帧通过它们的ID和最近日期反向连接在一起(这意味着第二个数据帧中的日期不能晚于第一个数据帧中的日期) Table_2：期望的结果：

浏览 1提问于2020-08-08得票数 2

1回答

如何在pyspark中动态删除小数并在数字前放置零？

、、、

我有一个pyspark数据帧，我想删除.之后的所有内容，我想删除.。此外，我想在数字前面放零，这样每个数字的长度就是4。按原样：|749.5 | |90.0 | |670.0

浏览 13提问于2021-02-19得票数 1

回答已采纳

1回答

在pyspark中减少数据帧最有效的方法是什么？

、、

我有以下数据帧，第一行的两行如下所示：['12', 'usa', '22', '12:04:14']我想按“法国”前100个站的降序显示平均温度。在pyspark中最好(最有效)的方法是什么？

浏览 2提问于2016-12-17得票数 10

回答已采纳

10回答

基于另一个变量保持顺序的collect_list

、、

浏览 8提问于2017-10-05得票数 82

回答已采纳

1回答

Pyspark -用pysaprk中的第一个单词替换2个或更多连续单词

、、

我有一个超过10000行的pyspark数据帧。我想用第一次出现的单词替换连续的单词。我希望这是在pyspark中完成的。这是包含单词列表的pyspark表。每个单词列表都与每个日期相关。.] | 和更多的行。我想要的结果如下所示，在每一行中输入单词，字符串。

浏览 14提问于2020-10-31得票数 0

0回答

Pyskark Dataframe:将行中的唯一元素转换为列

、、、、

我有一个Pyspark Dataframe，格式如下：| date | query || 2011-08-12 | Query 3 |+------------+---------+import p

浏览 2提问于2017-06-07得票数 1

回答已采纳

点击加载更多