腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
collect_set
中
创建
唯一
的
列
值
方式
、
当在聚合函数中使用
collect_set
时,我会得到pyspark
值
的
[],但我想要
的
是None,通常是像[None]
中
的
数组
值
。有没有办法替代它?对于非None
值
,它看起来已经可以了。
浏览 16
提问于2019-09-12
得票数 0
1
回答
Spark :对数组
值
使用
collect_set
?
、
、
我有一个聚合
的
DataFrame,其中有一个使用
collect_set
创建
的
列
。现在我需要在这个DataFrame上再次聚合,并再次将
collect_set
应用于该
列
的
值
。问题是,我需要将
collect_Set
应用到集合
的
值
上--而且我看到
的
唯一
方法就是爆炸聚合
的
DataFrame。有更好
的
办法吗?Canada
浏览 1
提问于2019-02-10
得票数 9
回答已采纳
2
回答
在群访问和收集期间,跨
列
数据
的
火花维护顺序
、
、
Name Code Value1 Person2 B 15df.groupBy("ID").agg(
collect_set
("Code").alias("Code"),
collect_set
("Value").alias("Value"
浏览 3
提问于2020-06-10
得票数 1
回答已采纳
1
回答
Hive:如何消除重复
的
子字符串
、
、
int, s string); (1, "a1&b2"), (2, "c1&d2"), (2, "c1"); S
列
包含由&分隔
的
值
所需
的
输出应按第1
列
分组,并连接s
列
,但只有一个
唯一
的
子字串
值
(用&分隔): i
浏览 100
提问于2020-04-05
得票数 1
回答已采纳
2
回答
具有聚合
唯一
值
的
py烈dataframe群
、
、
、
我查找了任何类似于熊猫df.groupby(upc)['store'].unique()
的
火花放电
的
参考资料,其中df是熊猫
中
的
任何数据。 ])df = spark.createDataFrame(data=data2,schema=schema) 我认识unique_count,但我需要unique_values
的
帮助
浏览 5
提问于2021-12-13
得票数 0
回答已采纳
1
回答
使用Spark SQL
collect_set
避免列表
中
的
列表
、
我正在尝试找到一个有效
的
解决方案来解决Spark SQL
中
的
一个恼人
的
行为。我正在对大量文件进行预处理,以便加载到Druid
中
,这涉及到以下操作:val df = dfIn.select("A","B","C","D").filter($"B" === 1 || $"B" === 2) val dfFinal = d
浏览 1
提问于2017-07-01
得票数 0
1
回答
如何在配置单元
中
从
两个集合
创建
一个集合
、
、
、
我想从来自两个不同表
的
列
中
的
元素
创建
一个集合。对于第一个表table1,我希望根据第一
列
的
值
对第二
列
的
元素进行分组;我得到
的
东西是这样
的
: |1RT|[ab
浏览 5
提问于2019-07-14
得票数 2
2
回答
如何在Spark
中
从
逗号分隔字符串
中
删除重复项?
、
、
这是我
的
数据集
的
一个示例。我想编写Spark,将带有重复
值
的
项目列表更改为
唯一
值
,因此,例如'apple,香蕉,香蕉‘将出现'apple,香蕉’--我在这里编写了代码:FROM dat
浏览 1
提问于2021-11-08
得票数 0
1
回答
Pyspark -按
列
分组,并从整数数组
的
列
中
收集
唯一
的
一组
值
、
、
我有一个有两
列
的
pyspark dataframe: +----------------------+------++---------[1, 2, 3, 4] |group2|+----------------------+------+ 我想通过名为group
的
列
进行分组,并且只
从
列
col_list
中
收集
唯一
值
浏览 3
提问于2020-01-01
得票数 0
回答已采纳
1
回答
有没有一种方法可以在HiveQL
中
对数组使用like操作符?
、
、
、
、
我正在寻找一种使用like操作符查询具有多个
值
的
collect_set
/list
列
的
方法。在下面的示例
中
,我希望获得具有values like '121%'之一
的
行1 ["8001","12100"]3 NULL 4["5671","97
浏览 1
提问于2022-03-09
得票数 2
回答已采纳
1
回答
如何根据星火中
的
所有内容进行过滤?
、
、
("B",11,5), ("B",13,5)|id |
collect_set
(value)| +---+--------------
浏览 0
提问于2018-11-08
得票数 0
回答已采纳
1
回答
按键显示不同
值
的
星火/蜂巢
、
、
、
、
在大数据处理
中
,通常希望在不改变现有查询结构(分组、子查询等)
的
情况下“勾勒”组摘要。在Spark (和HiveQL)
中
,
collect_set
就是这样做
的
一个例子。它构建每个组
列
的
唯一
值
的
数组。我正在寻找一个联非新议程,它为B
列
的
每个
唯一
值
从
A
列
构建一个
唯一
值
的</
浏览 12
提问于2016-12-30
得票数 0
回答已采纳
1
回答
将scala聚合激发到数组并将其连接起来
、
、
我有一个有许多
列
的
数据集,如下所示:(
列
-name、时间戳、平台、clickcount、id)May 2020-
浏览 1
提问于2021-12-23
得票数 2
2
回答
Spark:按另一
列
过滤时
的
GroupBy和collect_list
、
、
、
、
y|| b| 1| y|+-----+-----+------+ 我想按" group“
列
分组,并按"label”
列
收集,同时过滤活动
列
中
的
值
。预期
的
结果将是 +-----+---------+---------+----------++-----+--------
浏览 46
提问于2021-03-31
得票数 1
回答已采纳
2
回答
根据Presto/Hive
中
的
列
值
聚合
列
、
、
我正在尝试
创建
一个数据集,其中我根据另一个
列
的
值
聚合了一个
列
。,最终
创建
一个由两个列表组成
的
数组,按照进攻性
列
和id对其进行分组,并根据得分值对它们进行排序。,但这是需要
的
,应该注意
的
是,id
的
所有内容都是不同
的
和
唯一
的
,并且id2都是相同
的
。我一直在查看presto
中
的
array_agg函数
浏览 0
提问于2018-05-28
得票数 1
回答已采纳
1
回答
蜂巢-数组
中
相同
的
记录序列
、
我有一张有小时数据
的
桌子。我希望找到数组中所有小时
的
小时数以及col1和col2
的
值
。a || 08 | 0.2 | c |+-----+-----+-----+ 我使用下面的查询来获取数组
中
的
列
值
'),cast(col1 as String)为col1_arr,map_values(str_to_map(concat_ws(','
浏览 2
提问于2017-03-14
得票数 1
回答已采纳
3
回答
在Apache Spark
中
的
groupBy之后聚合Map
中
的
所有
列
值
、
、
RDD已经做到了,但它并不是真正
的
可读性,所以当涉及到代码可读性时,这种方法会更好。 取这个初始
的
和结果
的
DF,包括开始
的
DF和我希望在执行.groupBy()之后获得
的
结果。NY"), "Jordan" -> (18, "NY"))),).toDF() 到目前为止,我尝试
的<
浏览 97
提问于2019-09-04
得票数 1
2
回答
如何有效地将列名转换为(column name -> list of column values)
的
映射
、
、
、
、
我想要实现
的
是,对于下面的DataFrame:生成以下输出:这是我想出来
的
Scala代码:我已经尝试了使用RDDs来替代这段代码,不知何故,它们快了大约30%,但问题仍然是一样
的
:这一切
的
效率都非常低。我在本地对本地Cassandra运行Spark,该本地Cassandra托管了一个只有1000行
的
样本数
浏览 11
提问于2018-12-17
得票数 0
3
回答
星星之火(Scala) -在DataFrame
中
恢复爆炸
、
、
= dfExploded.groupBy("Key","PassportNum","Age").agg(
collect_set
("Email").alias("Emails")) 在这种情况下,这可能不是一种糟糕
的
方法但在我
的
实际情况下,我执行爆炸在一个单一
的
列
,我有另外20
列
,如PassportNum,年龄.它们将被复制。这意味着我需要在groupBy
中
添加大约20<e
浏览 0
提问于2018-04-02
得票数 2
回答已采纳
2
回答
bigquery
中
的
查询单元
、
、
我想要计算一个新
的
列
c1,即
collect_set
的
类型,然后连接
collect_set
的
结果,最后
从
结果
中
删除转义。在Hive
中
,查询是: select distinct numcat,numpl,numcr, natcat, cdvign, translate(concat_ws('!'
浏览 2
提问于2020-10-28
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
【Excel】提取一列中的唯一值函数
010 如何从列中找到需要的值
【Excel】提取一列中的不重复值函数
Excel综合应用:如何显著标记出两列数据中的不同值?
夯实基础:Java编程中创建对象的5种方式!
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券