Spark DataFrame: orderBy之后的groupBy会维持这个顺序吗？

文章/答案/技术大牛

发布

6回答

、、、、

我有一个Spark 2.0数据帧example，结构如下： id, hour, countid1, 1, 55id1, 23, 44id2, 1它包含24个条目，每个id对应一个条目(一天中的每个小时一个条目)，并使用orderBy函数按id、小时排序。我的问题是，如果我执行example.orderBy($"id",$"hour").groupBy("id").agg(g

浏览 304提问于2016-09-15得票数 30

回答已采纳

1回答

SPARK : groupBy在orderBy之后是否维持这个顺序？

、、、

在本例中，groupBy在orderBy之后是否维护该顺序？id date name1 2020-09-01 name2这是代码： .orderBy(col("date")) .agg( ).show() 我期望的</

浏览 3提问于2020-11-20得票数 1

回答已采纳

2回答

基于Java DataFrame的重复行删除

、、、、

我有一个DataFrame，它包含以下细节。UK |new ||2 |Rose|Germany|new |我想创建一个DataFrame，如果数据是基于"id“复制的，它将选择新版本而不是旧版本，如下所示|1 |Jack|UK |new ||3 |Sam |France |old

浏览 2提问于2018-02-05得票数 1

回答已采纳

1回答

在火花中合并+ orderBy是可交换的吗？

、、、

我想运行以下代码：但是，它的执行显然会阻碍完成所有排序工作的单个任务。我知道可以运行以下命令：但是，我不确定Spark是否会在分区崩溃后维持顺序。是吗？如果是这样的话，第二个代码将是首选的，因为排序将被执行，结果随后

浏览 2提问于2020-12-15得票数 0

5回答

PySpark中的Panda的value_counts()的等价物是什么？

、、、

我有以下python/pandas命令：我在这里获取DataFrameGroupBy对象中所有列的值计数。

浏览 1提问于2018-06-27得票数 32

1回答

在火花中保存已订购的数据

、、

我的代码如下所示：我在两个不同的集群上运行相同的代码，一个集群使用Spark1.5.0，另一个使用- 1.6.0。当使用Spark1.5.0在集群上运行时，在磁盘上保存之后，它不会保留排序。在将数据保存到磁盘上时，是否有任何特定的群集设置来保留排序？或者

浏览 1提问于2016-12-28得票数 6

1回答

Spark/Scala的groupBy函数与DataFrame的任何工作差异

、、、

我有点好奇地想知道RDD和DataFrame的groupBy函数。有没有什么性能上的差异或者别的什么？请提个建议。

浏览 0提问于2018-04-23得票数 0

3回答

Apache星火窗口函数，FIRST_VALUE不工作。

、、、

我有一个窗口函数火花API的问题：我有一个数据集：| ID| VALUEE| OTHER|但我不明白为什么第一个不起作用import org.apache.spark.sqlschema); dataset.show(

浏览 1提问于2018-05-15得票数 0

回答已采纳

2回答

如何使用Dataset API (如SQL的“按1分组”或“按2排序”)使用序数？

、、

我能够在Spark‘文字’查询中使用序数(在GROUP BY和ORDER BY之后的这些整数)：但是对于DataFrames/DataSet，我必须始终使用列名： df.select($"ProfileName").groupBy($"ProfileName").count().ord

浏览 3提问于2017-07-19得票数 2

回答已采纳

1回答

Spark Dataframe中的聚合数组类型

的Id和性别，然后汇总订单。我正在使用org.apache.spark.sql.functions包，代码如下所示：但是，由于列顺序的类型是数组，所以我得到了这个异常，因为它需要一个基本类型： User class threw exception: org.apache.spark.sql.AnalysisException

浏览 0提问于2016-06-30得票数 3

回答已采纳

2回答

我怎么能一次计算数据中的两个不同的发生？

、、

假设我有一个数据，看起来是这样的：| Col1 | Col2 || Value 1 | A || Value 4 | C || Value 6 | B |我需要计算A出现的次数和B出现的次数。目前我只是在做： val aCount = dataframe.where("Col2 =

浏览 1提问于2019-09-24得票数 1

回答已采纳

1回答

按表达式对数据进行平添排序

、、、

我目前正在阅读Spark the definitive guide，并且有一个通过使用expr来实现DataFrame的示例，但是它不起作用： Row("US", "Germany", 5), Row("US", "UK", 10) parallelizedRows = spark</em

浏览 4提问于2020-07-27得票数 0

回答已采纳

1回答

火花词法运算顺序

、

我们都知道，在SQL中，通常在编写代码时我们有一个定义的词法操作顺序：FROM ...WHERE ...HAVING ...我知道这完全是关于特定对象的属性，所以如果我可以以不同的方式问这个问题--对于来自SQL的人来说，在编写Spark应用程序时，有什么有用的方法来思考词法操作的顺序呢？来说明我的困惑。下面是我的测试中<em

浏览 0提问于2019-06-18得票数 4

回答已采纳

1回答

如何对PySpark DataFrame的每一列中的数据进行混洗？

、、、、

我是一个用PySpark编程的初学者。我在CSV文件中有以下数据，该文件正在被读取到Spark Dataframe中，并且我想从一个小数据集开始生成一个大型数据集。df = (spark.readfrom

浏览 16提问于2020-05-11得票数 0

1回答

按聚合(求和)双进行分组在spark中产生不一致的结果

、、、、

我在Scala和Spark2.0中看到了一些不一致的行为，它们聚集双倍，然后根据聚合值进行分组。这只发生在集群模式下，我相信这与双数相加产生一个稍微不同的数字的顺序有关。(1, "a", 37577661.013538947)).toDF("a", "b", "c") df: org.apache.spark.sql.DataFrame = [a: int, b: string("

浏览 3提问于2017-03-07得票数 0

回答已采纳

1回答

Apache的.Net UDF必须从笔记本中调用

、、、

= spark.Read().Text("input.txt"); DataFrame words = dataFrame.Select(Functions.Explode(Functions.Col("words")) .GroupBy("word")

浏览 2提问于2022-10-18得票数 0

回答已采纳

1回答

TypeError dropDuplicates()接受1到2个位置参数，但给出了3个

、、

我已经在Spark 2中播放过流媒体数据。我在Spark网站上发现我可以在watermark中使用dropDuplicates。这是我的带水印的代码，不带dropDuplicates方法： .withWatermark("sourceTimeStamp", "10 minutes") \ window(parsed_op

浏览 50提问于2019-07-21得票数 0

回答已采纳

2回答

在群后添加新列并在列上滚动

我试图在groupby和滚动平均之后向熊猫数据添加一个新列，但是新生成的列在reset_index()之后更改了顺序。23 B 15 C 37 A 69 B 3在群并滚动之后9 4.333333D 10 NaN现在

浏览 0提问于2019-01-18得票数 4

回答已采纳

2回答

apache spark* agg( )函数*

、

对于示例数据帧scholor，对于上面的，都是下面的，给出相同的输出。那么agg()有什么用呢？scala> scholor.groupBy("age").sum("base").show /*with out agg */ scala> scholor.groupBy("age").

浏览 1提问于2017-04-08得票数 4

回答已采纳

2回答

从Spark* GroupedData对象中选择随机项目*

、、、

我刚开始在Python中使用Spark，并且一直无法解决这个问题:在pyspark.sql.dataframe.DataFrame上运行groupBy之后df.groupBy('teamId') 如何从每个结果组(按teamId分组)中选择N随机样本而不进行替换？我基本上是尝试从每个团队中随机选择N用户，也许一开始使用groupBy是错误<em

浏览 0提问于2015-11-17得票数 21

回答已采纳

点击加载更多