枚举排序的PySpark数据帧中的序列

它是表单的排序数据帧| id | timestamp | head_indices || 2 | 45 | 0 |在此数据中，每个id都有一些连续的行，其中每个序列的</

浏览 10提问于2020-02-26得票数 0

1回答

如何根据id将多行合并为一个单元格，然后进行计数？

、、、

如何使用PySpark将多行合并为基于id的单个单元格？我有一个包含ids和产品的数据框架。首先，我想将具有相同id的产品合并到一个列表中，然后我想计算每个唯一列表出现的次数。,mobile4,music输出：HOME-mobile,2cd-music-video,1ORDER BY 1

浏览 7提问于2017-12-13得票数 0

回答已采纳

1回答

如何合并来自枚举器的数据是Scala

、、、

我使用Play框架中的枚举器/迭代器，我有几个枚举器，每个枚举器都提供排序后的值序列。我想编写Iteratee/Enumeratee，它合并来自这些枚举器的值，以提供所有值的排序序列。我知道我可以压缩枚举数中的值，在内存中重新构造它们的数据</em

浏览 0提问于2014-09-30得票数 2

1回答

为什么RDD to JSON会删除数据的实际排序？

、、、

我正在尝试从我的pyspark数据帧创建一个JSON。我在我的数据帧中看到数据是正确排序的，但是当使用toJSON时，排序不会反映在JSON对象中。你能帮帮我吗？我的Dataframe是这样的： ? 这就是我使用toJSON时会发生的事情 ?

浏览 8提问于2019-02-13得票数 0

回答已采纳

1回答

如何在pyspark中对dataframe行排序

我有一个包含两列的数据帧，其中包含数字，我需要按行而不是按列对数据帧进行排序。到处都给出了如何按列对dataframe进行排序，但我找不到如何在pyspark中对dataframe的所有行进行排序。

浏览 0提问于2017-11-14得票数 1

1回答

如何获取row_number is pyspark数据帧

、、、

为了排名，我需要让row_number是一个pyspark数据帧。我看到在pyspark的窗口函数中有row_number函数，但这是使用HiveContext所必需的。我尝试用HiveContext替换sqlContext self.sc = pyspark.SparkContext() #self.sqlContext = pyspark.sql.SQL

浏览 0提问于2016-10-30得票数 2

1回答

如何在Pyspark* Dataframe中训练和测试拆分的时间序列数据*

、、、

我想对排序后的Pyspark数据帧进行基于时间的训练测试拆分。假设前300行将在训练集中，下200行将在测试拆分中。我可以用以下命令选择前300行： train = df.show(300) 但是如何从Pyspark dataframe中选择最后200行呢？

浏览 14提问于2019-03-13得票数 1

5回答

用于pyspark数据帧比较的pytest断言

、、、

我有2个pyspark数据帧，如附件所示。expected_df和actual_df在我的单元测试中，我试图检查两者是否相等。我的代码是actual = map(lambda row: row.asDict(), actaual_df.collect()) 因为两个dfs是相同的</e

浏览 4提问于2018-10-03得票数 5

2回答

提取特定单元格的值并将其填充到pyspark* dataframe中的NA值*

、、、

我正在将python代码转换为pyspark，在这里我尝试使用fillna na，并使用来自相同dataframe的另一列但在索引0上的值填充na值。下面是我的python代码，它可以正常工作： df['Parent'].fillna(df.at[0, 'Sequence'], inplace=True) 之前的数据帧结构： df:EEE DDD 0720

浏览 12提问于2020-12-15得票数 0

1回答

Pyspark pyspark.sql.functions行为怪异

、、、

当我们有超过3个节点来分发数据时，pyspark.sql.functions下的"last“函数在spark上返回不一致的结果。from pyspark.sql.types import DoubleType numeric = sqlContext.createDataFramecolor").agg(F.last("v1&

浏览 1提问于2017-02-02得票数 1

0回答

行号的配置单元查询

、、、

我在pyspark上工作，需要编写一个从hive表中读取数据并返回包含所有列和行号的pyspark数据帧的查询。这是我尝试过的：这个查询在hive中运行得很好，但是当我从pyspark注意:我不希望以任何特定的顺序对行进行排序</em

浏览 2提问于2017-12-06得票数 0

1回答

如何在dataframe spark中使用groupby进行计数排序

、

我想按降序对此计数列进行排序，但我一直收到'NoneType‘对象is not callable error。我怎样才能给它添加一个排序函数，这样我就不会得到错误了？from pyspark.sql.functions import hour hour = checkin.groupBy(hour("date").alias("hour")).count().show

浏览 71提问于2021-07-14得票数 0

回答已采纳

1回答

GroupBy之后的PySpark* Join*

、、、、

我有两个数据帧，我想要做的是按组/分区连接它们。我如何在PySpark中实现它？第二个df包含没有间隔的时间序列。我想要达到的结果是 

浏览 4提问于2020-03-30得票数 2

1回答

正在将pyspark数据帧写入文本文件

、

我有一个从sql server中的一个表创建的pyspark数据框架，我对它做了一些转换，现在我要将它转换为动态数据框架，以便能够将其保存为s3存储桶中的文本文件。当我将数据帧写入文本文件时，我将向该文件添加另一个头文件。这是我的动态数据框，将保存为文件： 2021-03-21 | MT.0000| 234.543

浏览 0提问于2021-04-23得票数 0

1回答

Pyspark 'for‘循环没有使用.filter()正确过滤pyspark-sql数据帧。

、、、、

我正在尝试创建一个for循环，首先:过滤一个pyspark sql数据帧，然后将过滤后的数据帧转换为pandas，对其应用一个函数，并将结果添加到一个名为results的列表中。我的列表包含一个字符串序列(这将是dataframe中的某种id )；我希望for循环在每次迭代中从列表中获取一个字符串，并过滤dataframe中id

浏览 21提问于2020-12-16得票数 1

回答已采纳

2回答

按系列对熊猫数据框架进行排序

熊猫数据帧可以根据其列的值进行排序，但我想按照不想添加到数据框架中的系列的值对数据帧进行排序--尽管它具有相同的索引。我通过将该系列添加到数据框架(作为一个列)、排序和再次删除该列来排序数据帧。在示例代码中，nprojnpercent是我的数据</

浏览 2提问于2016-04-16得票数 2

回答已采纳

1回答

Pandas版本0.22.0 - drop_duplicates()获得意外的关键字参数'keep‘

、、、

我正在尝试使用子集(drop_duplicates=‘’，keep=False)在我的数据帧中删除重复项。显然，它在我的Jupyter Notebook中工作正常，但当我试图通过终端以.py文件的形式执行时，我得到了以下错误： Traceback (most recent call last): File"/home/source/fork/PySpark_Analytics/Notebo

浏览 110提问于2019-06-20得票数 1

2回答

将PySpark数据帧转换为PySpark.pandas数据帧

、、

在链接中，用户可以在Spark3.2中的PySpark之上与熊猫合作。是否需要很长时间才能将PySpark数据帧转换为PySpark熊猫数据框架？我知道将PySpark数据帧转换为熊猫数据框架需要很长时间。

浏览 9提问于2022-03-02得票数 1

回答已采纳

2回答

如何在Spark列中编写函数，使列中的每个字段递增值？

、

这与唯一id无关，因此我并不打算使用增加唯一编号api，而是尝试通过自定义查询来解决它考虑给定值，例如30，现在current dataframe df需要添加一个名为hop_number的新列，以便该列中的每个字段从顶部到底部将从我知道在RDD中我们可以使用map来处理这项工作，但是如何以最小的成本在dataframe中做同样的事情呢？

浏览 17提问于2020-07-01得票数 0

回答已采纳

2回答

PySpark列向绑定

在PySpark中有什么特定的方法可以像我们在r中那样绑定两个数据帧吗？我需要在PySpark中同时绑定数据帧和作为一个数据帧。

浏览 1提问于2017-08-30得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何根据id将多行合并为一个单元格，然后进行计数？

如何合并来自枚举器的数据是Scala

为什么RDD to JSON会删除数据的实际排序？

如何在pyspark中对dataframe行排序

如何获取row_number is pyspark数据帧

如何在Pyspark* Dataframe中训练和测试拆分的时间序列数据*

用于pyspark数据帧比较的pytest断言

提取特定单元格的值并将其填充到pyspark* dataframe中的NA值*

Pyspark pyspark.sql.functions行为怪异

行号的配置单元查询

如何在dataframe spark中使用groupby进行计数排序

GroupBy之后的PySpark* Join*

正在将pyspark数据帧写入文本文件

Pyspark 'for‘循环没有使用.filter()正确过滤pyspark-sql数据帧。

按系列对熊猫数据框架进行排序

Pandas版本0.22.0 - drop_duplicates()获得意外的关键字参数'keep‘

将PySpark数据帧转换为PySpark.pandas数据帧

如何在Spark列中编写函数，使列中的每个字段递增值？

PySpark列向绑定

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐