腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(5083)
视频
沙龙
6
回答
Spark
DataFrame
:
orderBy
之后
的
groupBy
会
维持
这个
顺序
吗
?
、
、
、
、
我有一个
Spark
2.0数据帧example,结构如下: id, hour, countid1, 1, 55id1, 23, 44id2, 1它包含24个条目,每个id对应一个条目(一天中
的
每个小时一个条目),并使用
orderBy
函数按id、小时排序。我
的
问题是,如果我执行example.
orderBy
($"id",$"hour").
groupBy
("id").agg(g
浏览 304
提问于2016-09-15
得票数 30
回答已采纳
1
回答
SPARK
:
groupBy
在
orderBy
之后
是否
维持
这个
顺序
?
、
、
、
在本例中,
groupBy
在
orderBy
之后
是否维护该
顺序
?id date name1 2020-09-01 name2这是代码: .
orderBy
(col("date")) .agg( ).show() 我期望
的</
浏览 3
提问于2020-11-20
得票数 1
回答已采纳
2
回答
基于Java
DataFrame
的
重复行删除
、
、
、
、
我有一个
DataFrame
,它包含以下细节。UK |new ||2 |Rose|Germany|new |我想创建一个
DataFrame
,如果数据是基于"id“复制
的
,它将选择新版本而不是旧版本,如下所示|1 |Jack|UK |new ||3 |Sam |France |old
浏览 2
提问于2018-02-05
得票数 1
回答已采纳
1
回答
在火花中合并+
orderBy
是可交换
的
吗
?
、
、
、
我想运行以下代码:但是,它
的
执行显然
会
阻碍完成所有排序工作
的
单个任务。我知道可以运行以下命令:但是,我不确定
Spark
是否会在分区崩溃后
维持
顺序
。是
吗
?如果是这样的话,第二个代码将是首选
的
,因为排序将被执行,结果随后
浏览 2
提问于2020-12-15
得票数 0
5
回答
PySpark中
的
Panda
的
value_counts()
的
等价物是什么?
、
、
、
我有以下python/pandas命令:我在这里获取DataFrameGroupBy对象中所有列
的
值计数。
浏览 1
提问于2018-06-27
得票数 32
1
回答
在火花中保存已订购
的
数据
、
、
我
的
代码如下所示:我在两个不同
的
集群上运行相同
的
代码,一个集群使用
Spark
1.5.0,另一个使用- 1.6.0。当使用
Spark
1.5.0在集群上运行时,在磁盘上保存
之后
,它不会保留排序。 在将数据保存到磁盘上时,是否有任何特定
的
群集设置来保留排序?或者
浏览 1
提问于2016-12-28
得票数 6
1
回答
Spark
/Scala
的
groupBy
函数与
DataFrame
的
任何工作差异
、
、
、
我有点好奇地想知道RDD和
DataFrame
的
groupBy
函数。有没有什么性能上
的
差异或者别的什么?请提个建议。
浏览 0
提问于2018-04-23
得票数 0
3
回答
Apache星火窗口函数,FIRST_VALUE不工作。
、
、
、
我有一个窗口函数火花API
的
问题:我有一个数据集:| ID| VALUEE| OTHER|但我不明白为什么第一个不起作用import org.apache.
spark
.sqlschema); dataset.show(
浏览 1
提问于2018-05-15
得票数 0
回答已采纳
2
回答
如何使用Dataset API (如SQL
的
“按1分组”或“按2排序”)使用序数?
、
、
我能够在
Spark
‘文字’查询中使用序数(在GROUP BY和ORDER BY
之后
的
这些整数):但是对于DataFrames/DataSet,我必须始终使用列名: df.select($"ProfileName").
groupBy
($"ProfileName").count().
ord
浏览 3
提问于2017-07-19
得票数 2
回答已采纳
1
回答
Spark
Dataframe
中
的
聚合数组类型
的
Id和性别,然后汇总订单。我正在使用org.apache.
spark
.sql.functions包,代码如下所示:但是,由于列
顺序
的
类型是数组,所以我得到了
这个
异常,因为它需要一个基本类型: User class threw exception: org.apache.
spark
.sql.AnalysisException
浏览 0
提问于2016-06-30
得票数 3
回答已采纳
2
回答
我怎么能一次计算数据中
的
两个不同
的
发生?
、
、
假设我有一个数据,看起来是这样
的
:| Col1 | Col2 || Value 1 | A || Value 4 | C || Value 6 | B |我需要计算A出现
的
次数和B出现
的
次数。目前我只是在做: val aCount =
dataframe
.where("Col2 =
浏览 1
提问于2019-09-24
得票数 1
回答已采纳
1
回答
按表达式对数据进行平添排序
、
、
、
我目前正在阅读
Spark
the definitive guide,并且有一个通过使用expr来实现
DataFrame
的
示例,但是它不起作用: Row("US", "Germany", 5), Row("US", "UK", 10) parallelizedRows =
spark</em
浏览 4
提问于2020-07-27
得票数 0
回答已采纳
1
回答
火花词法运算
顺序
、
我们都知道,在SQL中,通常在编写代码时我们有一个定义
的
词法操作
顺序
:FROM ...WHERE ...HAVING ...我知道这完全是关于特定对象
的
属性,所以如果我可以以不同
的
方式问
这个
问题--对于来自SQL的人来说,在编写
Spark
应用程序时,有什么有用
的
方法来思考词法操作
的
顺序
呢? 来说明我
的
困惑。下面是我
的
测试中<em
浏览 0
提问于2019-06-18
得票数 4
回答已采纳
1
回答
如何对PySpark
DataFrame
的
每一列中
的
数据进行混洗?
、
、
、
、
我是一个用PySpark编程
的
初学者。我在CSV文件中有以下数据,该文件正在被读取到
Spark
Dataframe
中,并且我想从一个小数据集开始生成一个大型数据集。df = (
spark
.readfrom
浏览 16
提问于2020-05-11
得票数 0
1
回答
按聚合(求和)双进行分组在
spark
中产生不一致
的
结果
、
、
、
、
我在Scala和
Spark
2.0中看到了一些不一致
的
行为,它们聚集双倍,然后根据聚合值进行分组。这只发生在集群模式下,我相信这与双数相加产生一个稍微不同
的
数字
的
顺序
有关。(1, "a", 37577661.013538947)).toDF("a", "b", "c") df: org.apache.
spark
.sql.
DataFrame
= [a: int, b: string("
浏览 3
提问于2017-03-07
得票数 0
回答已采纳
1
回答
Apache
的
.Net UDF必须从笔记本中调用
、
、
、
=
spark
.Read().Text("input.txt");
DataFrame
words =
dataFrame
.Select(Functions.Explode(Functions.Col("words")) .
GroupBy
("word")
浏览 2
提问于2022-10-18
得票数 0
回答已采纳
1
回答
TypeError dropDuplicates()接受1到2个位置参数,但给出了3个
、
、
我已经在
Spark
2中播放过流媒体数据。我在
Spark
网站上发现我可以在watermark中使用dropDuplicates。这是我
的
带水印
的
代码,不带dropDuplicates方法: .withWatermark("sourceTimeStamp", "10 minutes") \ window(parsed_op
浏览 50
提问于2019-07-21
得票数 0
回答已采纳
2
回答
在群后添加新列并在列上滚动
我试图在
groupby
和滚动平均
之后
向熊猫数据添加一个新列,但是新生成
的
列在reset_index()
之后
更改了
顺序
。23 B 15 C 37 A 69 B 3在群并滚动
之后
9 4.333333D 10 NaN现在
浏览 0
提问于2019-01-18
得票数 4
回答已采纳
2
回答
apache
spark
agg( )函数
、
对于示例数据帧scholor,对于上面的,都是下面的,给出相同
的
输出。那么agg()有什么用呢?scala> scholor.
groupBy
("age").sum("base").show /*with out agg */ scala> scholor.
groupBy
("age").
浏览 1
提问于2017-04-08
得票数 4
回答已采纳
2
回答
从
Spark
GroupedData对象中选择随机项目
、
、
、
我刚开始在Python中使用
Spark
,并且一直无法解决
这个
问题:在pyspark.sql.
dataframe
.
DataFrame
上运行
groupBy
之后
df.
groupBy
('teamId') 如何从每个结果组(按teamId分组)中选择N随机样本而不进行替换?我基本上是尝试从每个团队中随机选择N用户,也许一开始使用
groupBy
是错误<em
浏览 0
提问于2015-11-17
得票数 21
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券