腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
星火结构化流
中
同一数据基/数据集上
的
多个操作/
聚合
apache-spark
、
apache-spark-sql
、
spark-structured-streaming
我用
的
是火花2.3.2。val kafkaSource =
spark
.readStream.option("kafka") ...val但是,当我尝试为每个
聚合
结
浏览 0
提问于2019-03-19
得票数 2
回答已采纳
2
回答
spark
聚合
-
使用
一个
聚合
结果
作为
另一个
聚合
的
输入
(
在
相同
的
groupby
中
)
scala
、
apache-spark
、
apache-spark-sql
我有
一个
巨大
的
数据集(数十亿行)来总结用户行为。我需要找到每个用户,以及每个事件后缀,用户执行最多
的
事件和多少次 因此,
结果
将如下所示 |user ID| event_type | count||user_1 |prefix2_event2|2 ||user_2 |prefix2_event2|2 |
作为
一个
聚合
的</e
浏览 88
提问于2021-01-29
得票数 0
5
回答
星星之火数据帧
的
同一列上
的
多个
聚合
操作
apache-spark
、
dataframe
、
apache-spark-sql
我有三个字符串类型数组,包含以下信息: 操作数组:包含我要执行
的
聚合
操作。我正在尝试
使用
火花数据帧来实现这一点。
Spark
数据帧提供了
一个
agg(),您可以在其中传递
一个
Map
作为
输入
,但是我希望对数据
的
同一列
浏览 8
提问于2016-01-22
得票数 40
回答已采纳
1
回答
火花放电Window.partitionBy对
groupBy
python
、
apache-spark
、
pyspark
、
apache-spark-sql
假设我有
一个
有21亿条记录
的
数据集。 这是
一个
包含客户信息
的
数据集,我想知道他们做了多少次。因此,我应该对ID和sum一列进行分组(它有0和1值,其中1表示
一个
操作)。现在,我可以
使用
一个
简单
的
groupBy
和agg(sum),但据我所知,这并不是真正有效
的
。
groupBy
将在分区之间移动大量数据。或者,我也可以
使用
带partitionBy子句
的
窗口函数,然后对数
浏览 5
提问于2017-11-08
得票数 16
回答已采纳
1
回答
级联
中
GroupBy
-
聚合
的
循环
cascading
当将
GroupBy
上
的
聚合
应用于任何管道时,
结果
字段具有分组键&
聚合
值。除了级联
中
的
聚合
值之外,我还需要所有字段 A|a1|b1|12 A|a3|a3|5正常合计产出:B|10I需要:输出与
输入
相同
,但还需要
聚合
列B|b2|c2|10 A|a3|a3
浏览 0
提问于2016-02-20
得票数 1
1
回答
将MS-SQL查询转换为激发SQL时出现
的
问题
scala
、
apache-spark
、
apache-spark-sql
我想在
Spark
中转换这个基本
的
SQL查询from StudentGrades我已经尝试过
使用
这样
的
窗口函数$"Arrest" ).
group
浏览 2
提问于2018-09-05
得票数 0
回答已采纳
1
回答
Apache
Spark
中
的
agg(计数)不工作
apache-spark
、
pyspark
尝试
使用
聚合
在Apache
Spark
(PySpark)
中
聚合
我
的
数据帧。5| 3||Mark| 5| 5||Mark| 8| 7|我有以下代码,它为我提供了一行记录
的
不同计数:我尝试添加
一个<
浏览 5
提问于2017-02-10
得票数 4
3
回答
如何
使用
spark
sql过滤特定
聚合
的
行?
sql
、
apache-spark
、
aggregate
、
apache-spark-sql
、
spark-dataframe
通常,
一个
组
中
的
所有行都被传递给
一个
聚合
函数。我想
使用
一个
条件来筛选行,以便只将组
中
的
一些行传递给
聚合
函数。
使用
可以进行这样
的
操作。我想用
Spark
SQL DataFrame (
Spark
2.0.0)做同样
的
事情。. // some data frame df.
groupBy
("
浏览 1
提问于2016-09-27
得票数 12
1
回答
如何在SQL中
使用
枢轴(不是
作为
DataFrame分组操作符)?
sql
、
scala
、
apache-spark
、
apache-spark-sql
withColumn("splitted", split($"page_path", ",")) .
groupBy
| a| b| c|| 1| 1| 1| 1|+---+----+---+---+ 我看到这个以sql
的
方式
使用
group b
浏览 0
提问于2020-05-11
得票数 4
回答已采纳
1
回答
Spark
DataFrame:多列上
的
多个
聚合
函数
scala
、
apache-spark
、
dataframe
我有
一个
聚合
函数列表,别名和其他JSON配置,如 "aggregation": [{ "sum": ""alias_column_name2": { }} 目前,我通过以下代码执行了
相同
的</e
浏览 0
提问于2018-10-17
得票数 0
回答已采纳
2
回答
apache
spark
agg( )函数
scala
、
apache-spark-sql
对于示例数据帧scholor,对于上面的,都是下面的,给出
相同
的
输出。那么agg()有什么用呢?scala> scholor.
groupBy
("age").sum("base").show /*with out agg */ scala> scholor.
groupBy
("age").("base")
浏览 1
提问于2017-04-08
得票数 4
回答已采纳
0
回答
spark
Dataframe
中
的
reducebykey和aggregatebykey
apache-spark
、
apache-spark-sql
、
apache-spark-2.0
我正在
使用
spark
2.0从拼图文件
中
读取数据。select( "Currency", val dfSumForeachId=dfSelect.
groupBy
action first()获取它
的
最佳方法吗?
在
spark
2.0
中
,是否可以
使用
groupby</em
浏览 5
提问于2017-01-03
得票数 2
回答已采纳
1
回答
如何在pyspark dataframe中将
groupby
转换为reducebykey?
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
spark-dataframe
我感觉性能受到了group by
的
影响。取而代之
的
是,我想
使用
reducebykey。但我是这个领域
的
新手。请在下面找到我
的
场景,Step2:
输入
列总数为15列,其中5列为关键字段,其余为数值。Step3:除了上面的
输入
列之外,还需要从数值列派生更多
的
列。具有默认值
的
几列。 第四步:我已经<em
浏览 0
提问于2017-09-21
得票数 1
1
回答
将
GroupBy
+aggregate转换为groupByKey
apache-spark
、
pyspark
、
spark-dataframe
我设计了
一个
如下所示
的
DF:|A |B ||1 |"bar"|A |B ||2 |"bar/foo" |df.
groupby
("A&q
浏览 0
提问于2017-08-07
得票数 1
回答已采纳
3
回答
如何选择最独特
的
值或如何在星火中执行内部/嵌套
的
groupBy
?
scala
、
apache-spark
、
apache-spark-sql
3 | 222 || 3 | 222 |
结果
我需要数据| 222 | 3 |以下是我迄今所尝试过
的
val DF = originalDF.agg( max(countDis
浏览 3
提问于2018-02-26
得票数 0
回答已采纳
1
回答
火花多动态
聚合
函数,countDistinct不能工作
scala
、
apache-spark
、
count
、
apache-spark-sql
、
distinct
多个动态
聚合
操作
的
星火数据聚集。1 2 3 49 10 11 12 我正在
使用
的
火花
聚合
浏览 0
提问于2019-04-11
得票数 4
回答已采纳
2
回答
使用
字典应用
聚合
时
的
Pyspark列名别名
python
、
apache-spark
、
pyspark
我正在将
聚合
函数应用于pyspark
中
的
数据框架
中
。我
使用
字典传递列名和
聚合
函数。df.
groupBy
(column_name).agg({"column_name":"sum"}) 现在,我想对
使用
聚合
方法生成
的
这个列应用
一个
别名。有办法吗?我
使用
字典方法
的
原因是
聚合
将根据
输入
参数动态应
浏览 16
提问于2022-02-23
得票数 2
1
回答
使
一个
函数成为.agg()
在
groupBy
语句中
的
组件,将生成
一个
AssertionError
python
、
pandas
、
apache-spark
请注意,只有
在
您已经通过运行以下命令安装
spark
时,您才可以
在
本地运行此命令。否则,
在
Databricks集群上复制该问题,该集群将自动初始化星体上下文。=
spark
.createDataFrame(
spark
_dataframe)我按ID对数据进行分组,并希望将应用于函数
中
的
聚合
。因为
在
许多不同
的
应用程序
中
应用了
相同
的<
浏览 3
提问于2020-07-01
得票数 1
回答已采纳
1
回答
PYSPARK :找到
一个
变量
的
平均值,不包括前1%
的
数据
pyspark
、
apache-spark-sql
、
data-science
我有
一个
按多个变量分组
的
数据集,其中我们找到了mean、std dev等
聚合
。现在我想找出不包括前1%数据
的
变量
的
平均值 我正在尝试像这样
的
东西 df_final=df.
groupby
(groupbyElement).agg(mean('value').alias似乎不能
使用
在同一group语句中定义
的
agg名称。expr('percentile(value,数组(0.99))‘),.a
浏览 22
提问于2020-07-23
得票数 0
回答已采纳
2
回答
查询星火中
的
流数据集
apache-spark
、
pyspark
、
apache-spark-sql
、
dataset
、
spark-structured-streaming
我有
一个
流数据集,其中列有: bag_id、ball_color。我想找出每个包最受欢迎
的
颜色。所以,我试过: .agg(count("color").as("color_count")) .agg(max
浏览 3
提问于2020-01-17
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Pandas分组与聚合(一)
Spark之数据倾斜
漫谈令人敬畏的Tableau LOD表达式
万亿级数据规模下的倾斜调优
1,StructuredStreaming简介
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券