腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
Spark
/
Scala
中
避免
在
聚合
中
使用
像
'
sum
(<
column
>)‘
这样
的
列名
?
scala
、
apache-spark
聚合
df.groupBy($"whatever").
sum
("A","B","C") 生成一个
列名
为
sum
(A)、
sum
(B)和
sum
(C)
的
DataFrame。通常,名称A、B和C已经是最终
聚合
的
正确名称。有没有办法
避免
这样
做: df.groupBy($"whatever").
sum</e
浏览 11
提问于2020-12-07
得票数 0
回答已采纳
1
回答
Spark
DataFrame:多列上
的
多个
聚合
函数
scala
、
apache-spark
、
dataframe
我有一个
聚合
函数列表,别名和其他JSON配置,
如
"aggregation": [{ "
sum
": "}}val col1:
Column
=
sum
(<dataframeName>(<columnName1>)).alia
浏览 0
提问于2018-10-17
得票数 0
回答已采纳
2
回答
Spark
-
scala
聚合
列表
中
的
多个列
scala
、
apache-spark
、
aggregate
我有一个数据帧,其中有几个数值列是不固定
的
(它们
在
每次执行过程中都会发生变化)。假设我有一个带有数字
列名
称
的
Seq对象。我想对这些列
中
的
每一列应用一个
聚合
函数。($"ID").agg(
sum
_ops:_* )
scala
> var avgTktsPerPeriodo = df.groupBy("ID").agg(
sum
_ops:_*),exprs:
浏览 2
提问于2018-09-04
得票数 0
2
回答
apache
spark
agg( )函数
scala
、
apache-spark-sql
对于示例数据帧scholor,对于上面的,都是下面的,给出相同
的
输出。那么agg()有什么用呢?
scala
> scholor.groupBy("age").
sum
("base").show /*with out agg */
scala
> scholor.groupBy("age").agg(
s
浏览 1
提问于2017-04-08
得票数 4
回答已采纳
1
回答
Apache
Spark
多个
聚合
scala
、
apache-spark
、
apache-spark-sql
例如,我
在
Scala
中
使用
Apache
spark
对数据帧
中
的
多个列运行
聚合
select
column
2,
sum
(1) as count from df group by
column
2 实际
的
聚合
比
sum
浏览 1
提问于2015-10-30
得票数 0
1
回答
如何利用星火java api
在
cassandra表中进行avg、max和等编程
java
、
apache-spark
、
cassandra
、
datastax
、
datastax-java-driver
我
在
cassandra db中有大量
的
数据,我想
使用
spark
api进行
聚合
,比如avg,max,和作为
列名
的
sum
。我试过
像
下面
这样
.select("name", "age", "ann_salaray", "dept","bucket", "resourceid&
浏览 4
提问于2018-02-20
得票数 0
回答已采纳
2
回答
为什么$不能处理String类型
的
值(并且只直接处理字符串文本)?
scala
、
apache-spark
、
apache-spark-sql
我有以下对象,它模仿枚举: val JobSeekerID = "JobSeekerID" val Date = "Date"}userJobBehaviourDF.groupBy($(ColumnNames.JobSeekerID))userJobBehaviou
浏览 2
提问于2018-01-11
得票数 2
回答已采纳
1
回答
如
何在
JSON
中
对数组进行
聚合
?
scala
、
apache-spark
、
apache-spark-sql
我有一个关于如
何在
嵌套
的
JSON数组上进行
聚合
的
问题。
Spark
“将给定订单
的
所有行
的
数量之和”?
在
本例
中
,1+3=4 我想写在下面,但没有
像
内置函数支持
的
等价物,它会出现(除非我错过了它,这可能是可能
的
!)(
Scala
)?如果是
这样
/任何例子,这会是什么样子?再深入到筑巢处,把总项目加起来。
浏览 2
提问于2017-05-03
得票数 1
回答已采纳
2
回答
如果
使用
列名
,则火花条件和函数返回null。
apache-spark
、
pyspark
、
apache-spark-sql
我解释说,可以
使用
字符串
列名
。但是,当
使用
column
name或
column
object时,我会看到不同
的
结果。函数
sum
,方法是
使用
类型字符串
的
列名
或类型列
的
列名
。基于此,
在
第一个
聚合
示例
中
,when函数内部
的
条件应该返回列developer名称作为字符串,函数
sum
应该
使用</
浏览 1
提问于2021-03-24
得票数 0
回答已采纳
1
回答
Scala
中
的
Spark
分组贴图UDF
scala
、
dataframe
、
apache-spark
我正在尝试编写一些代码,使我能够在数据帧
的
一组行上计算一些操作。
在
PySpark
中
,这可以通过定义类型为GROUPED_MAP
的
Pandas UDF来实现。然而,
在
Scala
中
,我只找到了一种创建自定义
聚合
器(UDAF)或传统UDF
的
方法。 我
的
临时解决方案是生成一个关键字列表,该列表将对我
的
组进行编码,这将允许我过滤数据帧并对数据帧
的
每个子集执行操作。然而,这种方法并不是最优<e
浏览 2
提问于2020-04-08
得票数 2
1
回答
pyspark agg告诉我
列名
称中有错误
的
字符,但名称似乎是正确
的
apache-spark
、
pyspark
我
使用
的
是
spark
2.3.2,我想
聚合
2列,但是.agg()函数告诉我
列名
有问题,但我没有看到这个问题。df =
spark
.read.parquet('.df2 = df.groupBy(AD_ID).agg({'pagerank':'
sum
','pagerankRAW':'
sum
'}
浏览 48
提问于2019-07-19
得票数 0
回答已采纳
1
回答
spark
自定义
聚合
器>=2.0 (
scala
)
scala
、
apache-spark
、
aggregate-functions
._1).agg(myAvg).collect() import org.apache.
spark
.sql.expressions.Aggregator at org.apache.
浏览 5
提问于2017-07-24
得票数 1
回答已采纳
2
回答
一次
聚合
一个dataframe
的
所有列
r
、
apache-spark
、
pyspark
、
aggregate-functions
我希望
在
一个列上分组一个dataframe,然后在所有列上应用一个
聚合
函数。它
的
R等价值是summarise_all。
在
R.我不想手动
在
浏览 1
提问于2019-05-22
得票数 4
回答已采纳
1
回答
德尔菲:如
何在
TClientDataset
中
仅仅
聚合
远程记录?
delphi
、
tclientdataset
我需要用TClientdataset.做一些
聚合
在SQL
中
,可以
使用
这样
的
脚本来完成这些
聚合
: Select
Sum
(
column
1) from table1 where Date_
Column
< Date_Value因为
在
一个非常长
的
进程和一个非常慢
的
网络
中
,我需要更快
的
速度,所以我想
使用
内存
中
<em
浏览 3
提问于2011-07-06
得票数 6
回答已采纳
2
回答
如何将星火列
的
别名作为字符串?
scala
、
apache-spark
如果我
在
val
中
声明一列,如下所示:val col: org.apache.
spark
.sql.
Column
= count("*").as("col_name")co
浏览 2
提问于2020-07-08
得票数 0
回答已采纳
1
回答
Spark
:
在
流查询中
使用
事件时间滑动窗口时出现问题
apache-spark
、
spark-structured-streaming
我正在做
Spark
2.2
中
的
实时数据流。根据我
的
问题陈述,我想在120秒
的
滑动窗口内查询数据。持续时间。我每隔1秒触发一次streamingquery。因此,理想情况下,查询应该只运行一次之前
的
120秒。数据(更新/更新数据)。 但当我运行查询时,它运行
的
是120秒之前
的
整个数据。(旧)数据。这意味着窗口
在
已经处理
的
数据上滑动。这背后
的
原因可能是什么?如何才能将窗口仅应用于新数据(未处理
浏览 3
提问于2017-05-23
得票数 0
1
回答
使用
列名
数组
聚合
Spark
数据框,并保留这些名称
scala
、
apache-spark
、
apache-spark-sql
、
aggregate-functions
我希望
使用
列名
数组作为输入来
聚合
Spark
数据帧,同时保留列
的
原始名称。这是可行
的
,但不能保留名称。受到找到
的
答案
的
启发,我尝试了一下,但没有成功:error: no `: _*'
浏览 4
提问于2016-09-08
得票数 4
回答已采纳
1
回答
星火ML转换器-
使用
rangeBetween在窗口上
聚合
scala
、
apache-spark-sql
、
spark-dataframe
、
window-functions
、
apache-spark-ml
我想要创建自定义
Spark
转换器,它
使用
构造over window
在
滚动窗口中应用
聚合
功能。我希望能够
在
Spark
管道中
使用
这个变压器。我想要
像
这个答案
中
给出
的
那样,用withColumn很容易地完成一些事情。
在
本例
中
,我对窗口内
的
行进行求和。 是否有可能将
这样</e
浏览 2
提问于2017-11-03
得票数 0
回答已采纳
2
回答
对
Spark
数据帧
的
列求和并创建另一个数据帧
scala
、
apache-spark
、
dataframe
、
sum
我有一个数据框架,如下所示-我正在尝试创建另一个数据帧,它有两列-
列名
和每列
中
的
值
的
总和,如下所示-到目前为止,我已经尝试过了(
在
Spark
2.2.0
中
),但是抛出了一个堆栈跟踪- df.groupBy("id") .agg(
sum
(c) as "s").
浏览 0
提问于2019-03-28
得票数 1
2
回答
spark
中
的
聚合
函数-找不到sql
scala
、
apache-spark
、
apache-spark-sql
我是
Spark
的
新手,我正在尝试
使用
一些
聚合
功能,比如
sum
或avg。我
在
spark
-shell
中
的
查询运行得很好:当我尝试从
scala
项目中运行它时,它不工作,抛出一个错误消息我
浏览 0
提问于2015-07-24
得票数 14
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Pandas与SQL的数据操作语句对照
实现一份数据的梦想,Apache CarbonData里程碑式版本1.3发布
Spark实战(5)_Spark Core核心编程
mysql数据库:查询,删除,插入
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券