使用列名数组聚合Spark数据框，并保留这些名称

、、、

我希望使用列名数组作为输入来聚合Spark数据帧，同时保留列的原始名称。这是可行的，但不能保留名称。annotation allowed heredf.groupBy($"id").agg(sum(colNames(2)).alias(colNames(2))) 如何在整个<em

浏览 4提问于2016-09-08得票数 4

回答已采纳

1回答

get和mget在聚合中的不同行为(R)

、

我有一个列名的字符数组(名为keynn的chr [1:5])，我想对其执行聚合。数组的所有元素都是数据框的有效列名(mydata)，但它是一个字符串，而不是变量(用“YEAR”代替mydata$YEAR)。我尝试使用get()返回名称中的列，它对第一个元素有效，如下所示：aggregate(mydata, by=list(get(keynn, .GlobalEnv)), FUN=length) 我尝试<

浏览 4提问于2013-03-08得票数 1

回答已采纳

1回答

如何对具有多列的pandas数据帧进行分组和聚合

、

我正在处理一个168列的熊猫数据帧。前三列包含国家名称、纬度和经度。其余的列包含数字数据。每一行代表一个国家，但对于某些国家，有多行。我需要通过求和来聚合这些行。我可以用以下代码聚合前三列： df = df.groupby('Country', as_index=False).agg({'Lat':'first','Long':'first'}) 但是，如果不显式地编写所有列名</

浏览 11提问于2020-06-20得票数 0

1回答

如何在星火数据集中创建TypedColumn并对其进行操作？

、、

我试图使用mapGroups执行聚合，该聚合将返回一个SparseMatrix作为列之一，并对这些列进行求和。为了提供列名，我为映射的行创建了一个case class模式。矩阵列类型为org.apache.spark.mllib.linalg.Matrix。如果在执行聚合( toDF )之前不运行select(sum("mycolumn")，则会得到一个类型不匹配错误(required: org.apache.spark<

浏览 6提问于2016-07-21得票数 0

回答已采纳

5回答

星星之火数据帧的同一列上的多个聚合操作

、、

我有三个字符串类型数组，包含以下信息：操作数组:包含我要执行的聚合操作。我正在尝试使用火花数据帧来实现这一点。Spark数据帧提供了一个agg()，您可以在其中传递一个Map 作为输入，但是我希望对数据的同一列执行不同的

浏览 8提问于2016-01-22得票数 40

回答已采纳

1回答

使用case类和列名别名使用反射的Spark* Dataframe模式定义*

、、、、

我的Spark脚本遇到了一个小问题。基本上，我有原始数据，在分组和计数之后进行聚合，等等，我希望将输出保存为特定的JSON格式。编辑：当我从源dataframe中选择列名有别名的Array[org.apache.spark.sql.Column]数据时，在试图将行映射到case类时使用列名(实际上是索引case class Result(Name:String) val r = dm2.map(ro

浏览 1提问于2016-12-20得票数 3

1回答

在星火数据中遍历列并计算最小最大值。

、、、、

我想在我的星火程序中遍历dataframe列，并计算min和max值。我对Spark和scala很陌生，一旦我在dataframe中获取它，我就无法遍历这些列。我尝试过运行以下代码，但它需要将列号传递给它，问题是如何从dataframe中获取它并动态传递它，并将结果存储在一个集合中。val parquetRDD = spark.read.parquet("filename.parquet") parquetRDD.collect.foreach ({ i => parquetR

浏览 3提问于2017-07-18得票数 0

回答已采纳

2回答

R从数据框中的变量名中删除后缀

、、、、

我正在尝试删除R中数据框的变量名的后缀，以聚合这些列。我已经将一个excel表格导入到R中的一个数据框中，但是列名是这样导入的 var1...9 var2...10 var1...11 var2...12 var3.name...136 3 9 20 7 13 我需要的是去掉最后一部分(从...)要按名称聚合列var1

浏览 98提问于2020-04-14得票数 0

回答已采纳

3回答

如何在spark/scala中将excel数据读入数据

、、、

我有一个要求，在这里，我需要在spark/scala中读取excel文件(具有.xlsx扩展名)。我需要用从excel读取的数据创建一个数据，并在上面应用/写sql查询来做一些分析。我使用com.crealytics.spark.excel库解析excel内容，代码如下所示 val employeesDF.option("addColorColumns", "F

浏览 2提问于2017-11-22得票数 2

回答已采纳

2回答

从平面文件创建嵌套数组

{ "price": 4.00 ] ]如何从Dataflow数据流中的平面数据中创建双嵌套数组--数组内部和数组。没有关于如何在嵌套数组中将平面聚合为“嵌套”JSON。我能够在派生列中获得一个Struct来创建Array，但是我很难在第一个Array下创建另一个数组。

浏览 5提问于2022-11-23得票数 0

2回答

用于从sql查询字符串生成列列表的c#。

、

我有一个简单的例程，它接受SELECT语句并使用DataTable。但是，如果SELECT语句稍微复杂一点，..。我的例程将会失败，因为Surname不是一个列名。当您将子查询和聚合列考虑在内时，可能会出现更

浏览 0提问于2013-10-17得票数 0

2回答

来自csv的Pandas数据帧。具有相同名称的列

、、、

6 8 9 5 1 3 5 8 6 8 我想按列分组汇总这些值，但当我尝试从此csv获取数据框时，这些列的名称更改为： ColumnA ColumnA.1 ColumnA.2 ColumnB ColumnC ColumnB.1 ColumnM有没有办法从这个csv创建一个保留列名称的数据<e

浏览 7提问于2020-03-23得票数 0

回答已采纳

1回答

PHP:在调整SELECT以防止SQL注入后，While循环不起作用

、、、、

我有几个INSERT查询，其中更改的效果很好，但是在下面的选择中继续得到一个错误，因为update和with循环不适用于我所做的更改(它不像旧代码那样使用语句很好)。

浏览 3提问于2015-06-22得票数 1

回答已采纳

1回答

为什么Devart Entity Developer要删除属性名称中的下划线？

、

我正在使用devart entity developer，并尝试使用Fluent映射生成一个模型数据库优先方法。我想保留我的表列名称，就像在类和模型存储中一样。我的列名在示例之间有下划线: PROP_NAME。但是这些类是在配置文件和模型类中使用属性名称PROPNAME创建的。这里我漏掉了什么？

浏览 1提问于2017-05-09得票数 0

3回答

具有重复列名的堆栈

、

我想对数据框使用堆栈，并保留原始数据框中的重复列名。a1<-data.frame(1:10,11:20,21:30)a2<-stack(a1) 上面为a2中'a‘的重复列名添加了'a.1’。或者，我尝试使用循环替换所有的'a1.1‘。我在有许多重复<e

浏览 3提问于2013-01-23得票数 2

回答已采纳

2回答

Spark-scala聚合列表中的多个列

、、

我有一个数据帧，其中有几个数值列是不固定的(它们在每次执行过程中都会发生变化)。假设我有一个带有数字列名称的Seq对象。我想对这些列中的每一列应用一个聚合函数。,exprs: org.apache.spark.sql.Column*)org.apache.spark.sql.DataFrame <and> (exprs: java.util.Map[String,String])org.apache.spark.sql.DataFrame <and

浏览 2提问于2018-09-04得票数 0

1回答

如何在pyspark中将重复列名的数据帧写入csv文件

、、、

如何在join操作后将具有相同列名的数据帧写入csv文件。目前，我正在使用以下代码。dfFinal.coalesce(1).write.format('com.databricks.spark.csv').save('/home/user/output/',header = 'true')将在“/home/user/output”中写入数据帧"dfFinal“.But

浏览 0提问于2018-10-03得票数 6

2回答

Python:如何以某种方式重命名多个数据框中的一组列

、

我有几个数据框，每个数据框都有多个列，它们的名称都是以相同的方式定义的。，并使每个单词的第一个字母大写。对于列名中的数字，我们可以这样保留它们。Person Name Birth Dt 1Abby 1994-09-09 Elsa 1956-08-15 我不想在pandas中使用rename函数，因为我必须指定每个列的名称，这可能太多余了，因

浏览 32提问于2020-03-24得票数 0

回答已采纳

1回答

使用s3-dist-cp进行星火应用程序消费的JSON聚合

、、、

运行在AWS上的spark应用程序从存储在S3中的JSON数组加载数据。然后通过火花引擎处理由此创建的Dataframe。

浏览 13提问于2020-04-07得票数 0

2回答

按栏位置分列的熊猫数据群

、、

我有一个功能，可以根据熊猫的数据进行分组。问题是我的dataframe可以有可变的列数。我想聚合:最后一列之和到第一列。最后一列的名称不同，但第一列的名称是固定的。有什么比将最后一列名更改为公共值更好的方法来实现这一点吗？

浏览 1提问于2018-02-08得票数 7

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

get和mget在聚合中的不同行为(R)

如何对具有多列的pandas数据帧进行分组和聚合

如何在星火数据集中创建TypedColumn并对其进行操作？

星星之火数据帧的同一列上的多个聚合操作

使用case类和列名别名使用反射的Spark* Dataframe模式定义*

在星火数据中遍历列并计算最小最大值。

R从数据框中的变量名中删除后缀

如何在spark/scala中将excel数据读入数据

从平面文件创建嵌套数组

用于从sql查询字符串生成列列表的c#。

来自csv的Pandas数据帧。具有相同名称的列

PHP:在调整SELECT以防止SQL注入后，While循环不起作用

为什么Devart Entity Developer要删除属性名称中的下划线？

具有重复列名的堆栈

Spark-scala聚合列表中的多个列

如何在pyspark中将重复列名的数据帧写入csv文件

Python:如何以某种方式重命名多个数据框中的一组列

使用s3-dist-cp进行星火应用程序消费的JSON聚合

按栏位置分列的熊猫数据群

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐