如何使用collect作为key，col作为value，以map的形式收集spark数据帧

我正在寻找一种整洁的方法来找到每一列的最大值，并收集在地图中作为{col name:max value of col}。下面是我在一个玩具示例中所取得的进展。在我的完整数据中有数百列，所以手动转换每一列是不可行的。scala> import spark.implicits._ scala> impor

浏览 49提问于2020-06-12得票数 0

回答已采纳

3回答

在Apache Spark中的groupBy之后聚合Map中的所有列值

、、

RDD已经做到了，但它并不是真正的可读性，所以当涉及到代码可读性时，这种方法会更好。取这个初始的和结果的DF，包括开始的DF和我希望在执行.groupBy()之后获得的结果。toDF() 到目前为止，我尝试的是执行以下.groupBy... val resultDf = df Name .agg( functions.mapException in thread "main" org.apache

浏览 97提问于2019-09-04得票数 1

1回答

Scala RDD groupbykey不使用groupbykey函数

、、

我试图在不使用groupbykey的情况下获得一个RDD[(String，IterableString)]。这些是我的元组：(Group 2, Sam)(Group 3, Pam)(Group 1, List(John, Mary)), (Group 2, List(Sam)), (Group 3, List(Pam)) 不使用groupby或groupbykey函数。

浏览 4提问于2022-10-17得票数 0

2回答

将dataframe:几个列按顺序转换为单一列

、、、

我正在使用Spark2.1.1和dataframe。以下是我的输入数据：| key|parameter|reference| subkey||key2| 70| 30|subkey1|我需要将数据帧转换为下一个似乎，我需要

浏览 3提问于2017-08-03得票数 2

回答已采纳

2回答

获取列的总和到一个"val“(变量)

、、、

我在数据框中执行聚合以计算百分比。我需要将每列的总和存储在一个单独的变量中，我可以在除法中使用它来计算百分比这段代码给出了和，但它将被存储为dataframe类型为：如何将其存

浏览 37提问于2019-05-25得票数 -1

回答已采纳

1回答

如何在pyspark中将RDD的元素组合和收集到一个列表中

、、、

我正在使用Apache Spark for python，并创建了一个以名称、纬度、经度作为列名的spark dataframe。我知道只收集我能做的纬度 [1.3,1.6,1.7,1.4,1.1但是，我需要将纬度和经度值一起收集到以下形式

浏览 4提问于2017-07-04得票数 3

回答已采纳

2回答

基于spark中的列值拆分数据集

、、、

我正在尝试根据制造商列的内容将数据集拆分为不同的数据集。它非常慢 DF.show(); 代码、输入和输出数据集如下所示; import org

浏览 0提问于2017-03-07得票数 9

3回答

如何在groupBy之后聚合映射列？

、、

我需要联合两个数据帧，并通过键组合列。- key: string我想按"id“分组，并将"cMap”聚合在一起以进行重复数据删除。y.foreach( tuple => val key = tuple._1 val value = tuple._2ma

浏览 0提问于2017-05-29得票数 2

回答已采纳

2回答

如何在SparkSQL DataFrame中从MapType列中获取键和值

、、、、

我有一个拼图文件中的数据，其中有2个字段：object_id: String和alpha: Map<>。|-- ALPHA: map (nullable = true) | |-- value: struct (valueContainsNull =true) 我正在使用Spark2.0，并尝试创建一个新的数据框，其中的列需要是obje

浏览 2提问于2016-11-15得票数 18

回答已采纳

2回答

在spark* scala中从数据帧创建地图*

、、

我在一个数据帧中有一个如下所示的json字符串 ----------------------------------:{345,zzz}}],2017} {300,[{uuuu:{200,ttt}}],2017} 热心的帮助

浏览 1提问于2017-09-06得票数 2

1回答

如何对结构元素进行分组，并将其转换回具有相同架构的结构

、、、

Spark 2.4.5在我的数据帧中，我有一个结构数组，该数组时不时地保存字段的快照。root | |-- element: struct (containsNull = true) |----------------------------------------------------------------------

浏览 2提问于2020-04-01得票数 1

2回答

从Spark数据帧构造Java哈希图

、、、

我在我的项目中使用了带有Java 8的spark-sql-2.4.1v。我需要从给定的数据帧构造一个循环哈希图，如下所示： List ll = Arrays.asList( ("aaa", 12), ("a", 14) Dataset<Row> codeValudeD

浏览 11提问于2020-07-17得票数 0

回答已采纳

1回答

在不使用RDD的数据帧列值提取中定义隐式/显式编码的最佳实践

、、

我正在尝试在没有RDD map api的情况下获取集合中的列数据(采用纯数据帧的方式) object CommonObject{ .val releaseDate = tableDF.where(tableDF("item") <=> "releaseDate").select("value").map</

浏览 9提问于2019-12-23得票数 0

回答已采纳

2回答

星星之火-按数组位置分组字符串

、

使用scala上的Spark1.6，我如何按键按位置对代码列中的每个字符进行分组？第一个字符串在一起第二个字符在一起等等..。", "code") +---+----++---+----+|123|X000||124|0000[C, 1, 1, 1, ]||124|[0, 0, 0, 0, ]| |124|[C,

浏览 0提问于2018-03-19得票数 1

回答已采纳

2回答

如何从cogroup迭代到print key和它的值(每组)？

、

我正在学习spark，并有以下代码：val grouped =CompactBuffer(),CompactBuffer(1))),如何以如下方式迭代值以获得输出： key<

浏览 0提问于2017-05-20得票数 0

3回答

根据从其他数据映像中选择的信息创建新数据帧

、、、、

tags: map (nullable = true) | |-- value: string (valueContainsNull = true)res，从tags列中选择特定的数据。我需要key=place和key=population的values。新的数据帧应具有以下架构： val schema = StructType(

浏览 38提问于2021-10-15得票数 1

回答已采纳

4回答

用scala在星火中转置无聚集的DataFrame

、、、

我在网上找了一些不同的解决方案，但是数都找不到我想要的东西。请帮帮我。+-----------+-------++-----------+-------+|col2| val2 ||col4 |

浏览 0提问于2018-03-20得票数 18

回答已采纳

2回答

从散列映射中创建一个数据文件，其中键作为列名，值作为星火中的行

、、、

我有一个数据，我有一个列，它是这样的数据地图-root | |-- key: string| |-- value: string (valueContainsNull = true)1. key1 -

浏览 4提问于2017-03-30得票数 2

回答已采纳

1回答

使用pyspark从dataframe创建json结构

、、、

我有一个数据帧，它是左连接的产物。现在我想创建json结构。Col1 col2 col3 col41112 name1 abcd def所需的json结构为： {col<

浏览 32提问于2019-05-22得票数 -1

3回答

从火花数据访问特定行

、、

我是个新手，喜欢用天蓝色的星火/数据库来访问特定的行，例如数据文件中的第10行。spark.read .option("header", "true") .load("/mnt/training/enb/commonfiles(

浏览 0提问于2019-10-24得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Apache Spark中的groupBy之后聚合Map中的所有列值

Scala RDD groupbykey不使用groupbykey函数

将dataframe:几个列按顺序转换为单一列

获取列的总和到一个"val“(变量)

如何在pyspark中将RDD的元素组合和收集到一个列表中

基于spark中的列值拆分数据集

如何在groupBy之后聚合映射列？

如何在SparkSQL DataFrame中从MapType列中获取键和值

在spark* scala中从数据帧创建地图*

如何对结构元素进行分组，并将其转换回具有相同架构的结构

从Spark数据帧构造Java哈希图

在不使用RDD的数据帧列值提取中定义隐式/显式编码的最佳实践

星星之火-按数组位置分组字符串

如何从cogroup迭代到print key和它的值(每组)？

根据从其他数据映像中选择的信息创建新数据帧

用scala在星火中转置无聚集的DataFrame

从散列映射中创建一个数据文件，其中键作为列名，值作为星火中的行

使用pyspark从dataframe创建json结构

从火花数据访问特定行

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐