腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(5083)
视频
沙龙
6
回答
Spark
DataFrame
:
orderBy
之后
的
groupBy
会
维持
这个
顺序
吗
?
scala
、
apache-spark
、
apache-spark-sql
、
spark-streaming
、
spark-dataframe
我有一个
Spark
2.0数据帧example,结构如下: id, hour, countid1, 1, 55id1, 23, 44id2, 1它包含24个条目,每个id对应一个条目(一天中
的
每个小时一个条目),并使用
orderBy
函数按id、小时排序。我
的
问题是,如果我执行example.
orderBy
($"id",$"hour").
groupBy
("id").agg(g
浏览 304
提问于2016-09-15
得票数 30
回答已采纳
1
回答
SPARK
:
groupBy
在
orderBy
之后
是否
维持
这个
顺序
?
scala
、
apache-spark
、
hive
、
apache-spark-sql
在本例中,
groupBy
在
orderBy
之后
是否维护该
顺序
?id date name1 2020-09-01 name2这是代码: .
orderBy
(col("date")) .agg( ).show() 我期望
的</
浏览 3
提问于2020-11-20
得票数 1
回答已采纳
2
回答
基于Java
DataFrame
的
重复行删除
java
、
scala
、
apache-spark
、
dataframe
、
apache-spark-sql
我有一个
DataFrame
,它包含以下细节。UK |new ||2 |Rose|Germany|new |我想创建一个
DataFrame
,如果数据是基于"id“复制
的
,它将选择新版本而不是旧版本,如下所示|1 |Jack|UK |new ||3 |Sam |France |old
浏览 2
提问于2018-02-05
得票数 1
回答已采纳
1
回答
在火花中合并+
orderBy
是可交换
的
吗
?
apache-spark
、
pyspark
、
palantir-foundry
、
commutativity
我想运行以下代码:但是,它
的
执行显然
会
阻碍完成所有排序工作
的
单个任务。我知道可以运行以下命令:但是,我不确定
Spark
是否会在分区崩溃后
维持
顺序
。是
吗
?如果是这样的话,第二个代码将是首选
的
,因为排序将被执行,结果随后
浏览 2
提问于2020-12-15
得票数 0
5
回答
PySpark中
的
Panda
的
value_counts()
的
等价物是什么?
dataframe
、
count
、
pyspark
、
pandas-groupby
我有以下python/pandas命令:我在这里获取DataFrameGroupBy对象中所有列
的
值计数。
浏览 1
提问于2018-06-27
得票数 32
1
回答
在火花中保存已订购
的
数据
hadoop
、
apache-spark
、
dataframe
我
的
代码如下所示:我在两个不同
的
集群上运行相同
的
代码,一个集群使用
Spark
1.5.0,另一个使用- 1.6.0。当使用
Spark
1.5.0在集群上运行时,在磁盘上保存
之后
,它不会保留排序。 在将数据保存到磁盘上时,是否有任何特定
的
群集设置来保留排序?或者
浏览 1
提问于2016-12-28
得票数 6
1
回答
Spark
/Scala
的
groupBy
函数与
DataFrame
的
任何工作差异
apache-spark
、
dataframe
、
spark-dataframe
、
rdd
我有点好奇地想知道RDD和
DataFrame
的
groupBy
函数。有没有什么性能上
的
差异或者别的什么?请提个建议。
浏览 0
提问于2018-04-23
得票数 0
3
回答
Apache星火窗口函数,FIRST_VALUE不工作。
apache-spark
、
apache-spark-sql
、
aggregation
、
window-functions
我有一个窗口函数火花API
的
问题:我有一个数据集:| ID| VALUEE| OTHER|但我不明白为什么第一个不起作用import org.apache.
spark
.sqlschema); dataset.show(
浏览 1
提问于2018-05-15
得票数 0
回答已采纳
2
回答
如何使用Dataset API (如SQL
的
“按1分组”或“按2排序”)使用序数?
apache-spark
、
dataframe
、
apache-spark-sql
我能够在
Spark
‘文字’查询中使用序数(在GROUP BY和ORDER BY
之后
的
这些整数):但是对于DataFrames/DataSet,我必须始终使用列名: df.select($"ProfileName").
groupBy
($"ProfileName").count().
ord
浏览 3
提问于2017-07-19
得票数 2
回答已采纳
1
回答
Spark
Dataframe
中
的
聚合数组类型
apache-spark-sql
的
Id和性别,然后汇总订单。我正在使用org.apache.
spark
.sql.functions包,代码如下所示:但是,由于列
顺序
的
类型是数组,所以我得到了
这个
异常,因为它需要一个基本类型: User class threw exception: org.apache.
spark
.sql.AnalysisException
浏览 0
提问于2016-06-30
得票数 3
回答已采纳
2
回答
我怎么能一次计算数据中
的
两个不同
的
发生?
scala
、
dataframe
、
apache-spark
假设我有一个数据,看起来是这样
的
:| Col1 | Col2 || Value 1 | A || Value 4 | C || Value 6 | B |我需要计算A出现
的
次数和B出现
的
次数。目前我只是在做: val aCount =
dataframe
.where("Col2 =
浏览 1
提问于2019-09-24
得票数 1
回答已采纳
1
回答
按表达式对数据进行平添排序
python
、
dataframe
、
apache-spark
、
pyspark
我目前正在阅读
Spark
the definitive guide,并且有一个通过使用expr来实现
DataFrame
的
示例,但是它不起作用: Row("US", "Germany", 5), Row("US", "UK", 10) parallelizedRows =
spark</em
浏览 4
提问于2020-07-27
得票数 0
回答已采纳
1
回答
火花词法运算
顺序
apache-spark
、
pyspark
我们都知道,在SQL中,通常在编写代码时我们有一个定义
的
词法操作
顺序
:FROM ...WHERE ...HAVING ...我知道这完全是关于特定对象
的
属性,所以如果我可以以不同
的
方式问
这个
问题--对于来自SQL的人来说,在编写
Spark
应用程序时,有什么有用
的
方法来思考词法操作
的
顺序
呢? 来说明我
的
困惑。下面是我
的
测试中<em
浏览 0
提问于2019-06-18
得票数 4
回答已采纳
1
回答
如何对PySpark
DataFrame
的
每一列中
的
数据进行混洗?
apache-spark
、
pyspark
、
apache-spark-sql
、
shuffle
、
databricks
我是一个用PySpark编程
的
初学者。我在CSV文件中有以下数据,该文件正在被读取到
Spark
Dataframe
中,并且我想从一个小数据集开始生成一个大型数据集。df = (
spark
.readfrom
浏览 16
提问于2020-05-11
得票数 0
1
回答
按聚合(求和)双进行分组在
spark
中产生不一致
的
结果
scala
、
apache-spark
、
pivot
、
rounding
、
aggregation
我在Scala和
Spark
2.0中看到了一些不一致
的
行为,它们聚集双倍,然后根据聚合值进行分组。这只发生在集群模式下,我相信这与双数相加产生一个稍微不同
的
数字
的
顺序
有关。(1, "a", 37577661.013538947)).toDF("a", "b", "c") df: org.apache.
spark
.sql.
DataFrame
= [a: int, b: string("
浏览 3
提问于2017-03-07
得票数 0
回答已采纳
1
回答
Apache
的
.Net UDF必须从笔记本中调用
azure
、
apache-spark
、
databricks
、
azure-databricks
=
spark
.Read().Text("input.txt");
DataFrame
words =
dataFrame
.Select(Functions.Explode(Functions.Col("words")) .
GroupBy
("word")
浏览 2
提问于2022-10-18
得票数 0
回答已采纳
1
回答
TypeError dropDuplicates()接受1到2个位置参数,但给出了3个
apache-spark
、
pyspark
、
spark-structured-streaming
我已经在
Spark
2中播放过流媒体数据。我在
Spark
网站上发现我可以在watermark中使用dropDuplicates。这是我
的
带水印
的
代码,不带dropDuplicates方法: .withWatermark("sourceTimeStamp", "10 minutes") \ window(parsed_op
浏览 50
提问于2019-07-21
得票数 0
回答已采纳
2
回答
在群后添加新列并在列上滚动
pandas
我试图在
groupby
和滚动平均
之后
向熊猫数据添加一个新列,但是新生成
的
列在reset_index()
之后
更改了
顺序
。23 B 15 C 37 A 69 B 3在群并滚动
之后
9 4.333333D 10 NaN现在
浏览 0
提问于2019-01-18
得票数 4
回答已采纳
2
回答
apache
spark
agg( )函数
scala
、
apache-spark-sql
对于示例数据帧scholor,对于上面的,都是下面的,给出相同
的
输出。那么agg()有什么用呢?scala> scholor.
groupBy
("age").sum("base").show /*with out agg */ scala> scholor.
groupBy
("age").
浏览 1
提问于2017-04-08
得票数 4
回答已采纳
2
回答
从
Spark
GroupedData对象中选择随机项目
python
、
python-2.7
、
apache-spark
、
apache-spark-sql
我刚开始在Python中使用
Spark
,并且一直无法解决
这个
问题:在pyspark.sql.
dataframe
.
DataFrame
上运行
groupBy
之后
df.
groupBy
('teamId') 如何从每个结果组(按teamId分组)中选择N随机样本而不进行替换?我基本上是尝试从每个团队中随机选择N用户,也许一开始使用
groupBy
是错误<em
浏览 0
提问于2015-11-17
得票数 21
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark之SparkSQL
遇见YI算法之初识Pyspark(二)
你可能不知道的pandas的5个基本技巧
Spark2.0新特性分析,看看你都是用到哪些了?
一文读懂PySpark数据框
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券