如何在窗口内首次排序后保留Spark dataframe中的默认顺序

、、、、

我有一个包含user_id、C1、f1、f2、f3列的spark数据帧。我想按user id进行分区/分组，在组内我想保持与C1相关的顺序，我已经成功地做到了这一点，但在对C1进行排序之后，我想让其余的事情保持默认顺序。例如。',row_number().over(w)) 但是，在窗口顺序为C1 (针对每个用户)提供了正确的顺序，但C1顺序没

浏览 19提问于2020-10-29得票数 0

回答已采纳

1回答

在火花中保存已订购的数据

、、

我正在尝试将已订购的数据存储到HDFS中。我的代码如下所示：我在两个不同的集群上运行相同的代码当使用Spark1.5.0在集群上运行时，在磁盘上保存之后，它不会保留排序。在将数据保存到磁盘上时，是否有任何特定的群集设置来保留</

浏览 1提问于2016-12-28得票数 6

1回答

在纱线中运行时，Pyspark错误计数

、

我正在使用以下sparkContext设置执行jupyter笔记本：spark = SparkSession.builder \.config("spark.executor.memory", "1g") \.config("spark.executor.instances", &

浏览 2提问于2020-06-30得票数 0

1回答

在Plotly Express漏斗中，如何对y轴类别进行重新排序？

、、、

我有一个包含所有数据的DataFrame，并且我有以下阶段顺序 order = {0:'NEW',1:'FOLLOW_UP',2:'Demo',3:'QUOTE',4:'CLOSING'} fig =px.funnel(df, x='count', y='name', color='source',category_orders=order) 我的DataF

浏览 105提问于2020-12-20得票数 0

回答已采纳

1回答

pyspark中的不一致结果

、、、、

重复运行以下代码会产生不一致的结果。到目前为止，我只看到了两个输出。在切换到其他结果之前，结果会重复任意随机次数，然后在再次切换回之前，这些结果也会重复任意随机次数。spark = pyspark.sql.SparkSession.builder.getOrCreate() impo

浏览 1提问于2018-03-02得票数 1

2回答

哪些操作保持RDD顺序？

、

如果由处理，RDD有一个有意义的顺序(与存储模型强加的一些随机顺序相反)，如本所解释的那样。这是保证的(在a.sortBy()之后)吗？

浏览 4提问于2015-03-26得票数 59

回答已采纳

1回答

火花:用于卡尔曼滤波的窗口和联合新议程

、、、、

在霍尔顿·卡拉乌和雷切尔·沃伦的“”中，有这样的说法(第259页)：窗口操作允许您在最后的K批数据中计算数据，这对于移动平均值或卡尔曼滤波之类的操作非常方便。作为提醒，Kalman是一种顺序处理，用于根据先前的数据过滤一组数据。在查看了UDAFs的行为之后，它似乎没有被调整，因为没有排序的概念( merge方法将结果与无顺序合并)。因此，如果联非新议程不适应卡尔曼和窗口，如何计

浏览 0提问于2018-12-18得票数 1

3回答

对星火数据帧/蜂巢结果集进行排序

、、

我正在尝试从一个Hive表中检索列列表，并将结果存储在一个中。var my_column_list = hiveContext.sql(s""" SHOW COLUMNS IN $my_hive_table""")我如何按字母顺序对结果进行排序？更新：

浏览 8提问于2016-11-08得票数 4

回答已采纳

1回答

Spark -读取单个CSV文件，处理结果并将结果写入单个CSV文件，同时保持原始行顺序

、

我想从Spark读取一个CSV文件(小于50MB)，并执行一些连接和过滤操作。CSV文件中的行按某些条件排序(在本例中为Score)。我希望将结果保存在单个CSV文件中，其中保留了原始行的顺序。输入CSV文件： Id, Score3, 997, 95 在执行一些联接和筛选操作后： val data = spark.read.option("header&quo

浏览 77提问于2020-10-05得票数 0

回答已采纳

2回答

如何使Spark上的笔记本运行得更快、性能更好

、、、、

val df1= spark.read.format("delta").table("...100K_rows...")t0 = System.currentTimeMillis System.currentTimeMillis - t0 spark.udf.register我试过的是：增加数据库火花集群节点大小: spark.conf.set("spark</e

浏览 12提问于2022-04-01得票数 -1

回答已采纳

2回答

Spark中联接操作后模式顺序的更改(JAVA)

、、、

我使用的是Spark和Java，当我在两个dataframe之间进行连接时，模式的顺序是不同的。我需要保留顺序，因为我想在后面的HBase表中插入数据。在Scala中有一个使用seq列表的解决方案，我想知道如何使用Java来实现它？

浏览 1提问于2017-01-24得票数 3

回答已采纳

1回答

默认情况下，Json字段在转换为激发DataFrame时会得到排序。

、、、

当我从json文件创建一个dataframe时，json文件中的字段默认在dataframe中排序。如何避免这种排序？当我从这个文件创建数据帧时，如下所示：DF创建为 jDF: org.apache.spark.sql.DataFrame在D

浏览 3提问于2016-06-20得票数 1

1回答

在app maker中，如何清除列排序？

当app maker创建一个表时，它可以使列可排序，这很好，但是在用户单击列之后，如何清除排序设置以使表恢复到页面首次加载时的默认设置或以下脚本中的特定排序顺序？我目前使用的是Refresh按钮，它只是重新加载数据源，但是列排序仍然存在。有什么建议吗？我尝试重新加载或导航回页面本身，但也没有效果。这是增强的刷新onClick脚本，其中包括排序<

浏览 20提问于2019-10-25得票数 0

回答已采纳

1回答

与编辑器对Python的Power查询不同的表

、、

我有一个包含30多列的表，任务如下：当我这样做的时候，它占据了哪一行？第一个？最后一个？是随机的吗？我如何将其转换为Python Pandas，以确保具有相同的数据？感谢您的答复

浏览 2提问于2021-11-24得票数 0

7回答

如何更改火花数据中的列位置？

、、、

我想知道是否可以更改列在dataframe中的位置，实际上是否可以更改架构？准确地说，如果我有一个像[field1, field2, field3]那样的数据文件，并且我想得到[field1, field3, field2]。如何移动一个或多个列，即:如何

浏览 4提问于2016-06-29得票数 47

回答已采纳

1回答

对大熊猫中的一列进行排序就是返回相同的未排序信息。

、、

现在，我想将这些百分比的更改值从最低到最高排序，并将排序后的数据放入新的列中。列正在生成，但值没有排序，只是复制。26.850000 1.743088 1.743088我对编码很陌生，所以我假设这是很简单的事情，但是我在googling中找不到任何有用的东西。

浏览 2提问于2017-08-05得票数 1

回答已采纳

1回答

星火中数据仓库的换行顺序重新划分

、、、、

浏览 3提问于2019-11-22得票数 2

回答已采纳

1回答

如何保持ListView控件及其映射到的对象保持同步？

、、

我有几个窗口，其中包含映射到相同对象数组的列表视图控件。在我分类之前一切都很好。据我所知，这会更改项的索引(尽管试图强制iItem等于对象成员"id")。问题是，如果在更改默认排序后删除列表视图项，它将删除位于相同位置的其他控件中的项，并中断对象之间的链接。例如，假设我拥有的默认4项最初按A、B、C、D的顺序排列(在窗口1和窗口2中</

浏览 4提问于2014-02-27得票数 2

回答已采纳

1回答

递归地为任意数目的数据重新排序数据列

、、、、

我希望重新排序可变数量的PySpark数据文件的列(它们有相同的列，但顺序不同)。命令顺序的dataframe是不相关的，只要所有的dataframe最终具有相同的顺序。下面的函数适用于2个数据流，我的问题是:对于任意数量的数据(2、3等)，这是如何概括的？return df_1.select(df_2.sch

浏览 1提问于2020-12-15得票数 0

回答已采纳

2回答

星火知道DataFrame的分区键吗？

、、

我想知道星火是否知道分割键的地板文件，并使用这些信息，以避免洗牌。运行Spark2.0.1运行本地SparkSession。之后，在另一个脚本中，我读取了这个SomeFile.parquet拼板文件，并对其进行了一些操作。问题： <

浏览 0提问于2018-01-26得票数 21

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在火花中保存已订购的数据

在纱线中运行时，Pyspark错误计数

在Plotly Express漏斗中，如何对y轴类别进行重新排序？

pyspark中的不一致结果

哪些操作保持RDD顺序？

火花:用于卡尔曼滤波的窗口和联合新议程

对星火数据帧/蜂巢结果集进行排序

Spark -读取单个CSV文件，处理结果并将结果写入单个CSV文件，同时保持原始行顺序

如何使Spark上的笔记本运行得更快、性能更好

Spark中联接操作后模式顺序的更改(JAVA)

默认情况下，Json字段在转换为激发DataFrame时会得到排序。

在app maker中，如何清除列排序？

与编辑器对Python的Power查询不同的表

如何更改火花数据中的列位置？

对大熊猫中的一列进行排序就是返回相同的未排序信息。

星火中数据仓库的换行顺序重新划分

如何保持ListView控件及其映射到的对象保持同步？

递归地为任意数目的数据重新排序数据列

星火知道DataFrame的分区键吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐