从collect_set中创建唯一的列值方式

、

当在聚合函数中使用collect_set时，我会得到pyspark值的[]，但我想要的是None，通常是像[None]中的数组值。有没有办法替代它？对于非None值，它看起来已经可以了。

浏览 16提问于2019-09-12得票数 0

1回答

Spark :对数组值使用collect_set？

、、

我有一个聚合的DataFrame，其中有一个使用collect_set创建的列。现在我需要在这个DataFrame上再次聚合，并再次将collect_set应用于该列的值。问题是，我需要将collect_Set应用到集合的值上--而且我看到的唯一方法就是爆炸聚合的DataFrame。有更好的办法吗？Canada

浏览 1提问于2019-02-10得票数 9

回答已采纳

2回答

在群访问和收集期间，跨列数据的火花维护顺序

、、

Name Code Value1 Person2 B 15df.groupBy("ID").agg(collect_set("Code").alias("Code"), collect_set("Value").alias("Value"

浏览 3提问于2020-06-10得票数 1

回答已采纳

1回答

Hive:如何消除重复的子字符串

、、

int, s string); (1, "a1&b2"), (2, "c1&d2"), (2, "c1"); S列包含由&分隔的值所需的输出应按第1列分组，并连接s列，但只有一个唯一的子字串值(用&分隔)： i

浏览 100提问于2020-04-05得票数 1

回答已采纳

2回答

具有聚合唯一值的py烈dataframe群

、、、

我查找了任何类似于熊猫df.groupby(upc)['store'].unique()的火花放电的参考资料，其中df是熊猫中的任何数据。 ])df = spark.createDataFrame(data=data2,schema=schema) 我认识unique_count，但我需要unique_values的帮助

浏览 5提问于2021-12-13得票数 0

回答已采纳

1回答

使用Spark SQL collect_set避免列表中的列表

、

我正在尝试找到一个有效的解决方案来解决Spark SQL中的一个恼人的行为。我正在对大量文件进行预处理，以便加载到Druid中，这涉及到以下操作：val df = dfIn.select("A","B","C","D").filter($"B" === 1 || $"B" === 2) val dfFinal = d

浏览 1提问于2017-07-01得票数 0

1回答

如何在配置单元中从两个集合创建一个集合

、、、

我想从来自两个不同表的列中的元素创建一个集合。对于第一个表table1，我希望根据第一列的值对第二列的元素进行分组；我得到的东西是这样的： |1RT|[ab

浏览 5提问于2019-07-14得票数 2

2回答

、、

我有一个有许多列的数据集，如下所示：(列-name、时间戳、平台、clickcount、id)May 2020-

浏览 1提问于2021-12-23得票数 2

2回答

Spark:按另一列过滤时的GroupBy和collect_list

、、、、

y|| b| 1| y|+-----+-----+------+ 我想按" group“列分组，并按"label”列收集，同时过滤活动列中的值。预期的结果将是 +-----+---------+---------+----------++-----+--------

浏览 46提问于2021-03-31得票数 1

回答已采纳

2回答

根据Presto/Hive中的列值聚合列

、、

我正在尝试创建一个数据集，其中我根据另一个列的值聚合了一个列。，最终创建一个由两个列表组成的数组，按照进攻性列和id对其进行分组，并根据得分值对它们进行排序。，但这是需要的，应该注意的是，id的所有内容都是不同的和唯一的，并且id2都是相同的。我一直在查看presto中的array_agg函数

浏览 0提问于2018-05-28得票数 1

回答已采纳

1回答

蜂巢-数组中相同的记录序列

、

我有一张有小时数据的桌子。我希望找到数组中所有小时的小时数以及col1和col2的值。a || 08 | 0.2 | c |+-----+-----+-----+ 我使用下面的查询来获取数组中的列值')，cast(col1 as String)为col1_arr，map_values(str_to_map(concat_ws('，'

浏览 2提问于2017-03-14得票数 1

回答已采纳

3回答

在Apache Spark中的groupBy之后聚合Map中的所有列值

、、

RDD已经做到了，但它并不是真正的可读性，所以当涉及到代码可读性时，这种方法会更好。取这个初始的和结果的DF，包括开始的DF和我希望在执行.groupBy()之后获得的结果。NY"), "Jordan" -> (18, "NY"))),).toDF() 到目前为止，我尝试的<

浏览 97提问于2019-09-04得票数 1

2回答

如何有效地将列名转换为(column name -> list of column values)的映射

、、、、

我想要实现的是，对于下面的DataFrame：生成以下输出：这是我想出来的Scala代码：我已经尝试了使用RDDs来替代这段代码，不知何故，它们快了大约30%，但问题仍然是一样的:这一切的效率都非常低。我在本地对本地Cassandra运行Spark，该本地Cassandra托管了一个只有1000行的样本数

浏览 11提问于2018-12-17得票数 0

3回答

星星之火(Scala) -在DataFrame中恢复爆炸

、、

= dfExploded.groupBy("Key","PassportNum","Age").agg(collect_set("Email").alias("Emails")) 在这种情况下，这可能不是一种糟糕的方法但在我的实际情况下，我执行爆炸在一个单一的列，我有另外20列，如PassportNum，年龄.它们将被复制。这意味着我需要在groupBy中添加大约20<e

浏览 0提问于2018-04-02得票数 2

回答已采纳

2回答

bigquery中的查询单元

、、

我想要计算一个新的列c1，即collect_set的类型，然后连接collect_set的结果，最后从结果中删除转义。在Hive中，查询是： select distinct numcat,numpl,numcr, natcat, cdvign, translate(concat_ws('!'

浏览 2提问于2020-10-28得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark :对数组值使用collect_set？

在群访问和收集期间，跨列数据的火花维护顺序

Hive:如何消除重复的子字符串

具有聚合唯一值的py烈dataframe群

使用Spark SQL collect_set避免列表中的列表

如何在配置单元中从两个集合创建一个集合

如何在Spark中从逗号分隔字符串中删除重复项？

Pyspark -按列分组，并从整数数组的列中收集唯一的一组值

有没有一种方法可以在HiveQL中对数组使用like操作符？

如何根据星火中的所有内容进行过滤？

按键显示不同值的星火/蜂巢

将scala聚合激发到数组并将其连接起来

Spark:按另一列过滤时的GroupBy和collect_list

根据Presto/Hive中的列值聚合列

蜂巢-数组中相同的记录序列

在Apache Spark中的groupBy之后聚合Map中的所有列值

如何有效地将列名转换为(column name -> list of column values)的映射

星星之火(Scala) -在DataFrame中恢复爆炸

bigquery中的查询单元

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐