使用带有max的Spark sql groupby时没有获得其他列？

、

我有一个每年电影收视率的数据集。当我执行spark.sql("select max(imdb_score), title_year from movie_metadata group by title_year”)时，我得到了正确的结果当我使用movie_title作为最后一个或第一个执行spark.sql("select last(movie_title), max(imdb_score), t

浏览 21提问于2019-06-12得票数 0

回答已采纳

11回答

在Spark dataframe列中获取最大值的最佳方法

、、、

我正在尝试找出在Spark dataframe列中获得最大值的最佳方法。使用PySpark，以下是我能想到的四种方法：float(df.describe("A").filter("summary = 'max'").selectMAX(A) as maxval FROM df_table").first().asDict()[&

浏览 1311提问于2015-10-20得票数 103

回答已采纳

3回答

在Scala中查找数据帧中数组列的重复值

、、

我有一个包含数组列的数据帧，如下所示： val df = Seq( Array("bcd", "bc", "bcd", "null"), Array("ijk", "abc", "bcd", "ijk")).toDF("co

浏览 43提问于2020-04-02得票数 0

回答已采纳

4回答

在Java Spark Dataframe API (1.4.1)中未定义的max()和sum()方法

、、

将DataFrame.groupBy()的示例代码放入我的代码中，但它显示max()和sum()的方法未定义。df.groupBy("department").agg(max("age"), sum("expense")); 如果我想使用max()和sum()方法，我应该导入哪个Java包？这个示例代码的语法正确吗？

浏览 1提问于2015-09-08得票数 8

5回答

星火scala dataframe查找max

、、

我使用以下方法查找最大列值。val d = sqlContext.sql("select max(date), id from myTable group By id") 如何在不注册临时表的情况下对DataFrame执行相同的查询

浏览 2提问于2016-05-20得票数 4

回答已采纳

1回答

使用scala在spark-sql中按其他列检索最大日期分组

、、

我想按字符串的第一列进行分组，并检索最大的日期值。为此，我从文本文件中创建了Person对象的RDD，并将其转换为dataframe 'peopleDF‘。已将数据帧注册为临时视图。我使用spark提供的sql方法运行以下sql语句。val maxDateDF = spark.sql("SELECT name, max(birthDate) maxDate F

浏览 22提问于2021-03-10得票数 0

回答已采纳

3回答

pyspark列不可迭代

、

当我尝试groupBy并获取最大值时，有了这个数据帧I正在获取列是不可迭代的：+---+-----++---+-----+ 65 linesWithSparkDF.show(10)---> 67 linesWithSparkGDF = linesWithSparkDF.groupBy(col("id")).agg(max(col(&q

浏览 4提问于2016-04-29得票数 23

回答已采纳

1回答

如何计算非双型星火统计量？

、、、

spark 包括用于计算min、max和类型"double“值的平均统计信息的工具，但是在尝试处理float类型的列值时，如何处理spark/java/cassandra场景？编辑了以显示分辨率：import static org.apache.spark.sql.func

浏览 0提问于2016-02-08得票数 1

3回答

如何使用spark sql过滤特定聚合的行？

、、、、

通常，一个组中的所有行都被传递给一个聚合函数。我想使用一个条件来筛选行，以便只将组中的一些行传递给聚合函数。使用可以进行这样的操作。我想用Spark SQL DataFrame (Spark 2.0.0)做同样的事情。. // some data frame max("B").where(&qu

浏览 1提问于2016-09-27得票数 12

2回答

星星之火2.0 groupBy列，然后在datetype列上获得最大值(日期)

、、

我正在Java中使用Spark2.0。ID，只获取带有“最后”日期(最近的日期)的行。列"date“的类型是date。ID").max("date");

浏览 7提问于2016-09-26得票数 2

回答已采纳

1回答

Spark (JAVA) -具有多个聚合的dataframe groupBy？

、

我正在尝试用JAVA在Spark上写一个groupBy。在SQL中，这将如下所示FROM table但是什么是Spark/JAVA假设变量SQL是一个数据帧，以查看与table查询的关系。").max()).as("maxdate")).groupby("id

浏览 15提问于2016-07-15得票数 8

回答已采纳

1回答

不使用内部联接的Sql查询

、、

Dataset<Row> inputDS = readInput.groupby("thingId","controller","module","variableName").agg(max(struct(time)列的thingId,controller,module and variableName 最终的目标是根据MAX( thingId )列获取每个variableNa

浏览 0提问于2019-04-04得票数 2

回答已采纳

5回答

星星之火数据帧的同一列上的多个聚合操作

、、

我有三个字符串类型数组，包含以下信息：操作数组:包含我要执行的聚合操作。我正在尝试使用火花数据帧来实现这一点。Spark数据帧提供了一个agg()，您可以在其中传递一个Map 作为输入，但是我希望对数据的同一列执行不同的聚合操作。对于如何做到这一点，有什么建议吗？

浏览 8提问于2016-01-22得票数 40

回答已采纳

1回答

选择最佳记录

、、、

目录中有不同的文件，如下所示id FName Lname Adrress sex levelId 只有名字和姓常量在这里和大小写应该被忽略，其他地址6666 t12 Prakash J

浏览 1提问于2020-12-02得票数 0

回答已采纳

2回答

根据列中的最大值将行合并为映射类型

、

下面是示例输入：输入模式：输出应采用以下格式所需的逻辑是按id列分组，并将name和value列合并为Map类型，其中name列表示键，value列表示Map类型中的值要为Map中的每个键选择的值是时间戳列中值最高的值。我实现了一些需要按id分组并提取时间戳列最大值的部分。我在为每个id选择一个值(从对应的最大时间戳中)并与其他名称(使

浏览 3提问于2021-08-26得票数 1

回答已采纳

2回答

不带组/聚合的Spark有子句

、、

我想知道spark子句在没有GroupBY或任何聚合函数的spark中是如何工作的？select 1 as a having a=1 "&

浏览 0提问于2019-07-01得票数 0

回答已采纳

1回答

pyspark - select和agg之间的差异

、、、

以下两项之间的区别是什么-和另外，这两个有什么不同-和 df.groupBy("Company").min('salary').show()

浏览 3提问于2020-09-30得票数 0

1回答

如何在SparkContext中处理dash的SQL请求

、

我在spark上下文中使用此SQL请求：我得到了一个例外： 

浏览 6提问于2017-01-03得票数 1

10回答

如何在使用星火DataFrame群时获得其他列？

、、、

当我像这样使用DataFrame groupby时：我只会得到列"age“和"count(id)”的DataFrame，但是在df中，还有许多类似于"name“的列。总之，我想得到和MySQL一样的结果，按年龄从df组中选择名称、年龄、计数(I

浏览 11提问于2015-12-22得票数 52

回答已采纳

2回答

如何展开数据集(使用枢轴)？

、、

这个想法是使用枢轴来“打开”(用熊猫的话来说)这个数据集，并且为每个IndicatorCode都有一列。[row.IndicatorCode2 for row in data2.select("IndicatorCode2").distinct().collect()] .pivot("IndicatorCode2", columns)\

浏览 7提问于2016-02-16得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Spark dataframe列中获取最大值的最佳方法

在Scala中查找数据帧中数组列的重复值

在Java Spark Dataframe API (1.4.1)中未定义的max()和sum()方法

星火scala dataframe查找max

使用scala在spark-sql中按其他列检索最大日期分组

pyspark列不可迭代

如何计算非双型星火统计量？

如何使用spark sql过滤特定聚合的行？

星星之火2.0 groupBy列，然后在datetype列上获得最大值(日期)

Spark (JAVA) -具有多个聚合的dataframe groupBy？

不使用内部联接的Sql查询

星星之火数据帧的同一列上的多个聚合操作

选择最佳记录

根据列中的最大值将行合并为映射类型

不带组/聚合的Spark有子句

pyspark - select和agg之间的差异

如何在SparkContext中处理dash的SQL请求

如何在使用星火DataFrame群时获得其他列？

如何展开数据集(使用枢轴)？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐