pyspark dataframe同时按多列排序

文章/答案/技术大牛

发布

1回答

、、

我有包含一些数据的json文件，我将这个json转换为pyspark dataframe(我选择了一些列，而不是所有列)，这是我的代码： import os only showing top 10 rows Q1:现在我需要同时为两列('retweet_count‘

浏览 125提问于2019-03-12得票数 2

回答已采纳

1回答

如何在pyspark中对dataframe行排序

我有一个包含两列的数据帧，其中包含数字，我需要按行而不是按列对数据帧进行排序。到处都给出了如何按列对dataframe进行排序，但我找不到如何在pyspark中对dataframe的所有行进行排序。

浏览 0提问于2017-11-14得票数 1

2回答

如何在不修改数据帧的情况下同时按列和多个索引的一部分对熊猫数据进行排序

、

MultiIndex.from_tuples([('bar', 'y'), ('bar', 'z'), ('baz', 'y'), ('baz', 'z'), ('foo', 'y'), ('foo', 'z')]) 如何同时按<

浏览 0提问于2013-12-16得票数 2

回答已采纳

2回答

重新分组pandas多索引列

、、、

我遇到了一个问题，向多索引列DataFrame添加新列会导致新列附加到DataFrame的末尾。------------------------------------有没有办法对我的多索引进行重新分组/排序？注意-我不想按名称对子组进行重新排序，因为New Sub需要放在末尾，并且可能无法<em

浏览 9提问于2017-07-11得票数 3

回答已采纳

1回答

同时按列索引和行索引对Pandas DataFrame进行排序

、

我有一个DataFrame，df，我想同时按列和行排序。, '3.0'], 'c3': ['aa', 'cc', 'dd', 'ee']} df = pd.DataFrame</em

浏览 26提问于2020-12-15得票数 1

回答已采纳

1回答

在PySpark中重新排列列

、、

我有一个有很多列的DataFrame。现在我要调整列的顺序。如何使用PySpark实现这一目标？我想先对它们进行排序，然后再按特定的顺序调整。col_i, col_bcol_c, col_j, col_a, col_g :: col_b, col_d, col_e, col_f, col_h, col

浏览 0提问于2021-02-06得票数 1

回答已采纳

1回答

是否可以使用nattable group by功能进行排序？

、、

所以我正在考虑一个项目的Nattable，它看起来很棒，但我的一个要求是在多个列上有一个良好的可配置排序，并清楚地显示正在发生的事情，看过组示例后，这是一个很好的功能：你可以把列拖到条形图中，然后按这些值对数据进行分组，这就是我想要的排序方式，即我不想要树的扩展，也不想添加新的行，我只想按我拖动列的顺序对表进行排序。我想知道这在nattable中是否可行，因为与这个分组栏相比，多个列的排序示例比较平淡无奇，所以它能做到吗？

浏览 22提问于2020-05-14得票数 0

2回答

在Rcpp中按列对数据帧进行排序

、

有没有什么简单的方法可以在RCpp中按两列(或多列或一列)对DataFrame进行排序？网上有许多可用的排序算法，或者我可以使用带有DataFrame包装器的std::sort，但是我想知道在RCpp或RCppArmadillo中是否已经有可用的东西？我需要将这种排序/排序作为另一个函数的一部分 DataFrame myFunc(DataFrame my

浏览 2提问于2014-05-31得票数 9

1回答

对多个列进行jquery datatable排序，其中包括一个隐藏列，该列始终按说明排序

、、

我有一个多列的jQuery数据表，其中包括一个隐藏列(“更新时间”)，要求是:当用户点击“类型”等列时，结果将按“类型”+“更新时间”排序，并且，无论“类型”是按"asc“还是"desc”排序，“更新时间”的排序方向必须始终是"desc“。我对按多列排序没有任何问题，如下所示： "columnDefs&q

浏览 0提问于2015-07-17得票数 1

1回答

OrderBy列列表

、、、、

在编写csv之前，我尝试在中使用OrderBy函数，但如果我有一个列列表，则不确定是否使用OrderBy函数。

浏览 1提问于2018-06-10得票数 14

回答已采纳

2回答

有计数()和排序可能的火花分组数据？

、

我有一个数据，位置和性别作为字符串值，我想看看前20个位置与男性和女性计数分裂，按降序。这是我到目前为止拥有的代码，但它没有在desc中排序。我怎么能这么做？

浏览 8提问于2020-10-08得票数 1

回答已采纳

3回答

火花增量加载覆盖旧记录

、、、

我需要使用Spark (PySpark)对表进行增量加载第一天-----------2 | defid | value ---

浏览 0提问于2018-12-03得票数 4

回答已采纳

2回答

如何在DataFrame中对数值和字符串值进行排序？

、

我有以下熊猫DataFrame的混合数据类型:字符串和整数值。我希望使用多列( Price和Name )按降序排序此Price的值。字符串值(即Name)应该按字母顺序排序，或者实际上完全可以忽略，因为最重要的是数值。问题是目标列的列表可以同时包含字符串和整数列，例如target_columns = ["Price","Name"] d = {'1': ['25&#

浏览 1提问于2019-12-03得票数 3

2回答

如何在Julia中按多列排序数据帧

我想按多列对数据帧进行排序。这是我制作的一个简单的数据框架。如何根据不同的排序类型对每一列进行排序？using DataFrames levels = ("Med", "Hi", "Low"),

浏览 6提问于2019-11-18得票数 3

回答已采纳

1回答

在对数据进行分组之前，是否可以安全地进行排序？

、、

给定一个具有“ProductId”、“date”和“Price”列的pyspark df，按“date”进行排序并假定func.first('Price')总是检索与最小日期对应的价格有多安全？

浏览 2提问于2018-02-23得票数 1

1回答

向类添加功能的最佳方法- PySpark

、、、、

有一段时间，我在寻找如何将多个列一次重命名为一个PySpark DF，并遇到了如下情况：def rename_sdf(df, mapper={}, **kwargs_mapper): # return something 我对最后一段感兴趣，其中通过赋值语句将方法添加到pyspark.<e

浏览 6提问于2020-07-09得票数 1

1回答

Spark sql查询，查找同一表的两列之间的多对多映射，按最大重叠度排序

、、、

我想编写一个Spark sql查询或pyspark代码来提取同一个表的两个列之间的多对多映射，这些映射按最大重叠度排序。例如：A YB ZC W 这意味着在上述两列之间存在M:M关系。有没有一种方法可以提取所有的M:M组合，按照最大重叠度排序，也就是说，彼此共享很多的值应该在最前面？顺序将按计数排序，即

浏览 4提问于2021-06-09得票数 0

1回答

在尊重索引结构的同时对多个索引进行排序

、

如何在尊重层次组织的同时对多索引数据进行排序？例如，给定以下df，假设我们根据C对其进行排序(例如，按降序排序)：A Btwo 0.329831 1.067820 1注意，我所说的“尊重其索引结构”的意思是在不改变更高级别索引的顺序的情况下对dataframe换句话说，我想对第二级进行排序，

浏览 4提问于2014-10-14得票数 5

回答已采纳

2回答

Pyspark - hive dataframe按两列排序打破了dataframe

、、、、

我在对hdfs配置单元上下文中的数据帧进行排序时遇到问题。尝试对结构类似的数据帧进行排序： +---+--------------+---------------++---+------address_il| value h+---+--------------+---------------+ 我正在尝试以id排序的方式对这个数据帧进行排序

浏览 29提问于2021-11-23得票数 1

1回答

dask中的高效排序diff

、、、

我如何在Dask中以一种“高效”的方式做以下事情：我的dask dataframe有列' date‘(日期时间)、' mac’(类别)和'ID‘(int)，这些列已经按日期排序，我想获得一个新列，其中包含针对给定在pandas中，我会这样做:设置一个多索引的'ID'，'MAC‘，然后用一个df['Date'].diff(1)构建一个新的列'Timedelta’。

浏览 4提问于2017-02-27得票数 3

回答已采纳

点击加载更多