如何在Spark/Scala中避免在聚合中使用像'sum(<column>)‘这样的列名？

在Spark/Scala中，可以避免在聚合中使用像'sum(<column>)'这样的列名，可以通过使用别名来解决。别名可以为聚合列提供更具描述性的名称，使代码更易读和维护。

以下是在Spark/Scala中避免使用'sum(<column>)'这样的列名的步骤：

导入必要的Spark库和函数：

import org.apache.spark.sql.functions._

使用别名给聚合列命名：

val df = spark.read.format("csv").load("data.csv") // 假设有一个数据框df
val aggregatedDF = df.groupBy("group_column").agg(sum("numeric_column").alias("total_sum"))

在上述代码中，使用alias函数为sum("numeric_column")指定了别名total_sum，这样聚合结果的列名就变成了total_sum，而不是默认的sum(numeric_column)。

使用别名后，可以通过别名来引用聚合列：

aggregatedDF.select("group_column", "total_sum").show()

在上述代码中，使用select函数选择了group_column和total_sum两列，并使用show函数展示结果。

通过使用别名，可以提高代码的可读性和可维护性，避免使用像'sum(<column>)'这样的列名。

如何在Spark/Scala中避免在聚合中使用像'sum(<column>)‘这样的列名？

、

聚合 df.groupBy($"whatever").sum("A","B","C") 生成一个列名为sum(A)、sum(B)和sum(C)的DataFrame。通常，名称A、B和C已经是最终聚合的正确名称。有没有办法避免这样做： df.groupBy($"whatever").sum</e

浏览 11提问于2020-12-07得票数 0

回答已采纳

1回答

Spark DataFrame:多列上的多个聚合函数

、、

我有一个聚合函数列表，别名和其他JSON配置，如 "aggregation": [{ "sum": "}}val col1:Column = sum(<dataframeName>(<columnName1>)).alia

浏览 0提问于2018-10-17得票数 0

回答已采纳

2回答

Spark-scala聚合列表中的多个列

、、

我有一个数据帧，其中有几个数值列是不固定的(它们在每次执行过程中都会发生变化)。假设我有一个带有数字列名称的Seq对象。我想对这些列中的每一列应用一个聚合函数。($"ID").agg( sum_ops:_* )scala> var avgTktsPerPeriodo = df.groupBy("ID").agg(sum_ops:_*),exprs:

浏览 2提问于2018-09-04得票数 0

2回答

apache spark* agg( )函数*

、

对于示例数据帧scholor，对于上面的，都是下面的，给出相同的输出。那么agg()有什么用呢？scala> scholor.groupBy("age").sum("base").show /*with out agg */ scala> scholor.groupBy("age").agg(s

浏览 1提问于2017-04-08得票数 4

回答已采纳

1回答

Apache Spark多个聚合

、、

例如，我在Scala中使用Apache spark对数据帧中的多个列运行聚合selectcolumn2, sum(1) as count from df group by column2 实际的聚合比sum

浏览 1提问于2015-10-30得票数 0

1回答

如何利用星火java api在cassandra表中进行avg、max和等编程

、、、、

我在cassandra db中有大量的数据，我想使用spark api进行聚合，比如avg，max，和作为列名的sum。我试过像下面这样 .select("name", "age", "ann_salaray", "dept","bucket", "resourceid&

浏览 4提问于2018-02-20得票数 0

回答已采纳

2回答

为什么$不能处理String类型的值(并且只直接处理字符串文本)？

、、

我有以下对象，它模仿枚举： val JobSeekerID = "JobSeekerID" val Date = "Date"}userJobBehaviourDF.groupBy($(ColumnNames.JobSeekerID))userJobBehaviou

浏览 2提问于2018-01-11得票数 2

回答已采纳

1回答

如何在JSON中对数组进行聚合？

、、

我有一个关于如何在嵌套的JSON数组上进行聚合的问题。Spark“将给定订单的所有行的数量之和”？在本例中，1+3=4 我想写在下面，但没有像内置函数支持的等价物，它会出现(除非我错过了它，这可能是可能的！)(Scala)？如果是这样/任何例子，这会是什么样子？再深入到筑巢处，把总项目加起来。

浏览 2提问于2017-05-03得票数 1

回答已采纳

2回答

如果使用列名，则火花条件和函数返回null。

、、

我解释说，可以使用字符串列名。但是，当使用column name或column object时，我会看到不同的结果。函数sum，方法是使用类型字符串的列名或类型列的列名。基于此，在第一个聚合示例中，when函数内部的条件应该返回列developer名称作为字符串，函数sum应该使用</

浏览 1提问于2021-03-24得票数 0

回答已采纳

1回答

Scala中的Spark分组贴图UDF

、、

我正在尝试编写一些代码，使我能够在数据帧的一组行上计算一些操作。在PySpark中，这可以通过定义类型为GROUPED_MAP的Pandas UDF来实现。然而，在Scala中，我只找到了一种创建自定义聚合器(UDAF)或传统UDF的方法。我的临时解决方案是生成一个关键字列表，该列表将对我的组进行编码，这将允许我过滤数据帧并对数据帧的每个子集执行操作。然而，这种方法并不是最优<e

浏览 2提问于2020-04-08得票数 2

1回答

pyspark agg告诉我列名称中有错误的字符，但名称似乎是正确的

、

我使用的是spark 2.3.2，我想聚合2列，但是.agg()函数告诉我列名有问题，但我没有看到这个问题。df = spark.read.parquet('.df2 = df.groupBy(AD_ID).agg({'pagerank':'sum','pagerankRAW':'sum'}

浏览 48提问于2019-07-19得票数 0

回答已采纳

1回答

spark自定义聚合器>=2.0 (scala)

、、

._1).agg(myAvg).collect() import org.apache.spark.sql.expressions.Aggregator at org.apache.

浏览 5提问于2017-07-24得票数 1

回答已采纳

2回答

一次聚合一个dataframe的所有列

、、、

我希望在一个列上分组一个dataframe，然后在所有列上应用一个聚合函数。它的R等价值是summarise_all。在R.我不想手动在

浏览 1提问于2019-05-22得票数 4

回答已采纳

1回答

德尔菲:如何在TClientDataset中仅仅聚合远程记录？

、

我需要用TClientdataset.做一些聚合在SQL中，可以使用这样的脚本来完成这些聚合： Select Sum(column1) from table1 where Date_Column < Date_Value因为在一个非常长的进程和一个非常慢的网络中，我需要更快的速度，所以我想使用内存中<em

浏览 3提问于2011-07-06得票数 6

回答已采纳

2回答

如何将星火列的别名作为字符串？

、

如果我在val中声明一列，如下所示：val col: org.apache.spark.sql.Column = count("*").as("col_name")co

浏览 2提问于2020-07-08得票数 0

回答已采纳

1回答

Spark:在流查询中使用事件时间滑动窗口时出现问题

、

我正在做Spark 2.2中的实时数据流。根据我的问题陈述，我想在120秒的滑动窗口内查询数据。持续时间。我每隔1秒触发一次streamingquery。因此，理想情况下，查询应该只运行一次之前的120秒。数据(更新/更新数据)。但当我运行查询时，它运行的是120秒之前的整个数据。(旧)数据。这意味着窗口在已经处理的数据上滑动。这背后的原因可能是什么？如何才能将窗口仅应用于新数据(未处理

浏览 3提问于2017-05-23得票数 0

1回答

使用列名数组聚合Spark数据框，并保留这些名称

、、、

我希望使用列名数组作为输入来聚合Spark数据帧，同时保留列的原始名称。这是可行的，但不能保留名称。受到找到的答案的启发，我尝试了一下，但没有成功：error: no `: _*'

浏览 4提问于2016-09-08得票数 4

回答已采纳

1回答

星火ML转换器-使用rangeBetween在窗口上聚合

、、、、

我想要创建自定义Spark转换器，它使用构造over window在滚动窗口中应用聚合功能。我希望能够在Spark管道中使用这个变压器。我想要像这个答案中给出的那样，用withColumn很容易地完成一些事情。在本例中，我对窗口内的行进行求和。是否有可能将这样</e

浏览 2提问于2017-11-03得票数 0

回答已采纳

2回答

对Spark数据帧的列求和并创建另一个数据帧

、、、

我有一个数据框架，如下所示-我正在尝试创建另一个数据帧，它有两列-列名和每列中的值的总和，如下所示-到目前为止，我已经尝试过了(在Spark 2.2.0中)，但是抛出了一个堆栈跟踪- df.groupBy("id") .agg(sum(c) as "s").

浏览 0提问于2019-03-28得票数 1

2回答

spark中的聚合函数-找不到sql

、、

我是Spark的新手，我正在尝试使用一些聚合功能，比如sum或avg。我在spark-shell中的查询运行得很好：当我尝试从scala项目中运行它时，它不工作，抛出一个错误消息我

浏览 0提问于2015-07-24得票数 14

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在Spark/Scala中避免在聚合中使用像'sum(<column>)‘这样的列名？

相关·内容

如何在Spark/Scala中避免在聚合中使用像'sum(<column>)‘这样的列名？

Spark DataFrame:多列上的多个聚合函数

Spark-scala聚合列表中的多个列

apache spark* agg( )函数*

Apache Spark多个聚合

如何利用星火java api在cassandra表中进行avg、max和等编程

为什么$不能处理String类型的值(并且只直接处理字符串文本)？

如何在JSON中对数组进行聚合？

如果使用列名，则火花条件和函数返回null。

Scala中的Spark分组贴图UDF

pyspark agg告诉我列名称中有错误的字符，但名称似乎是正确的

spark自定义聚合器>=2.0 (scala)

一次聚合一个dataframe的所有列

德尔菲:如何在TClientDataset中仅仅聚合远程记录？

如何将星火列的别名作为字符串？

Spark:在流查询中使用事件时间滑动窗口时出现问题

使用列名数组聚合Spark数据框，并保留这些名称

星火ML转换器-使用rangeBetween在窗口上聚合

对Spark数据帧的列求和并创建另一个数据帧

spark中的聚合函数-找不到sql

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐