腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(7795)
视频
沙龙
1
回答
如
何在
Spark
Scala
中
进行
窗口
划分
并
仅
提取
每个
组
的
唯一
值
、
我在
scala
中使用
窗口
分区排除平局时遇到了一个问题。我想收集
每个
组
的
前2名,不包括平局。因此,如果有三个
值
,对于特定
的
组
,我希望它返回5和3,而不是5和5。这是我到目前为止
的
代码: val dummy_df = Seq(("yankees",5,4),("yankees",3,7),("yankees",5,2),("yankees",3,4),(&
浏览 22
提问于2020-10-15
得票数 0
1
回答
数据过滤给NullPointerException
、
、
、
、
在
Spark
1.6.0
中
,我有一个包含职务描述
的
列
的
数据框架,
如
:bartenderemployee...我使用以下方法从该列检索
唯一
值
列表:然后,对于
浏览 2
提问于2016-02-21
得票数 5
回答已采纳
2
回答
groupby
中
的
scala
spark
reduce列表
、
、
、
我有两列
的
spark
DataFrame colA colB1 22 5for i in collect_list(col("colB")):1 24 278 我如
何在
scala</
浏览 13
提问于2021-10-14
得票数 0
3
回答
星星之火SQL:当另一列是groupBy().agg()
中
的
最大
值
时,获取列
的
值
、
、
我有一个像这样
的
数据文件: |-- value: int (nullable = true)我想返回
值
,其中
的
值
是数据文件
中
的
最新日期我
的
实际问题如下:.filter(df("date")>= somedate && df("date")<= some other date) .group
浏览 3
提问于2020-05-02
得票数 0
回答已采纳
1
回答
Spark
与Hive
的
区别
、
、
你能帮我理解星火SQl和蜂巢
的
区别吗?
浏览 2
提问于2017-06-04
得票数 1
1
回答
使用
Scala
实现Cassandra读取
的
并行性
、
、
、
我正在尝试使用
spark
从Cassandra表调用并行读取。但我不能调用并行性,因为在给定
的
时间内只有一次读取发生。应该遵循什么方法来实现相同
的
目标?
浏览 0
提问于2019-06-18
得票数 3
1
回答
使用
spark
加载由--.so参数分发
的
共享库(文件
、
、
、
问题是,该库
仅
由驱动程序节点加载,并且当任务试图访问我获得
的
本机方法时对我来说
唯一
有效
的
事情是在运行
spark
应用程序之前将.so文件复制到所有工作程序
中
,
并
创建一个
Scala
对象,该对象将在
每个
任务之前加载库(
浏览 2
提问于2017-08-18
得票数 4
回答已采纳
1
回答
在
Scala
中
读取带有属性名称
的
XML
、
、
、
0" Unit="0"/> </ROWDATA>我使用
的
是
Spark
和
Scala
。我希望读取行标记
中
的
每个
字段,
并
通过属性名称
进行
区分。目
浏览 8
提问于2021-05-22
得票数 1
回答已采纳
1
回答
如何用
scala
编写UDF单元测试
、
、
我在
scala
中有一个用户定义
的
函数 val abc: String =这就是我试过
的
。我不知道如何调用它,也不知道如何测试这个特定
的
场景。
浏览 0
提问于2021-06-29
得票数 1
回答已采纳
2
回答
将自定义函数应用于星火数据访问
组
、
、
、
、
我有一个非常大
的
时间序列数据表,其中包含以下列: 我计划在dataframe中使用
spark
,但我对如何对
spark
分组数据执行自定义计算感到困惑。我需要做
的
是: 前
浏览 2
提问于2016-09-20
得票数 10
回答已采纳
1
回答
如
何在
spark
中使用pandas split-apply-combine风格策略和
scala
api?
、
、
、
我有一个
scala
函数,它接受一个
spark
dataframe
并
返回一个单
值
,也就是说两个
值
。这个函数很复杂,使用在DataFrame类
中
定义
的
聚合,调用其他java库,并且不能用SQL表达。它需要整个数据帧
的
内容来
进行
计算,它不能一次添加一行
并
建立一个结果。 我有一个大
的
dataframe,其中包含一个列,我想用它将dataframe分成小块,
并
对
每个
小块执行
浏览 28
提问于2020-04-22
得票数 0
1
回答
Scala
RDD groupbykey不使用groupbykey函数
、
、
我试图在不使用groupbykey
的
情况下获得一个RDD[(String,IterableString)]。这些是我
的
元组:(Group 2, Sam)(Group 3, Pam)(Group 1, List(John, Mary
浏览 4
提问于2022-10-17
得票数 0
1
回答
星星之火--如何使用有状态映射器实现排序RDD
的
平面映射?
、
基本上,我有一个包含一系列事件
的
RDD/DataFrame (带有一些categoryId)。它们是有时间戳
的
,是按时间排列
的
。我想要做
的
是扫描
每个
类别
中
的
所有这些事件,同时保持/更新一些状态,如果看到某个事件,就会记住它。一些例子: 用户执行签出(增加花费
的
钱,以输出rdd添加项目: sessionId+
浏览 1
提问于2015-08-16
得票数 1
回答已采纳
2
回答
星星之火:重分区与partitionBy
中
列参数
的
顺序
、
、
、
考虑
的
方法(
Spark
2.2.1): 返
浏览 3
提问于2018-01-20
得票数 11
回答已采纳
2
回答
使用管道基于分区MLlib创建多个星火DataFrame模型
、
、
、
scala
>
spark
.version res8: String = 2.2.0我不知道如
何在
Scala
中
做到这一点。mydata
进行
分组,并在数据
的
每个
分区上运行管道。val grouped =
浏览 0
提问于2018-04-12
得票数 4
回答已采纳
1
回答
从事件流
中
查找事件
的
子序列。
、
、
下面是我
的
问题
的
缩略版。 我是新手,不认识
Sca
浏览 2
提问于2016-06-20
得票数 4
2
回答
如何迭代分组行以生成火花结构化流
中
的
多行?
、
、
、
3 null 13 list 0 我希望我
的
逻辑可以很容易地扩展,以便在将来增加更多
的
操作。因此,用户定义
的
聚合函数(又名UDAF)是
唯一
可能
的
解决
浏览 0
提问于2018-12-31
得票数 0
回答已采纳
1
回答
如
何在
hdfs
中
设置文件
的
行
组
大小?
、
、
、
我正在对hdfs
中
的
块大小(dfs.block.size)和行
组
大小(parquet.block.size)
进行
一些实验。 我在hdfs中有大量
的
数据,我想用不同
的
块大小和行
组
大小复制数据以
进行
测试。我正在用hdfs dfs -stat验证块大小,用parquet-tools meta验证行
组
大小。事实上,如果我用parquet.block.size替换blah.blah.blah,效果也是一样
的
。我甚至进入shel
浏览 0
提问于2018-11-15
得票数 1
回答已采纳
1
回答
Excel与外部数据保持数据完整性
、
、
我有一个电子表格,它通过连接从另一个电子表格中
提取
数据。我希望将其他数据添加到从外部源
提取
的
每个
条目中,并将其
仅
保存在当前电子表格
中
。问题是,当刷新列表(此列表可以并将更改
值
和顺序)时,添加到本地电子表格
中
的
相应数据更改位置。 据我所知,excel正在删除行
并
使用新数据读取它们。解决方案是将附加数据映射到
每个
条目的
唯一
ID,这是从连接中
提取
的
数据
浏览 4
提问于2016-09-07
得票数 3
1
回答
对RDD元组比较
、
、
、
、
我正在学习如何使用
spark
和
scala
,
并
试图编写一个
scala
程序,该程序接收
并
输入字符串
值
,
如
:13 1415 1617 16我需要创建一个RDD,它有一个或另
浏览 0
提问于2018-10-13
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Spark进行微服务的实时性能分析
教程:Apache Spark SQL入门及实践指南!
Spark实战(5)_Spark Core核心编程
从Storm到Flink:大数据处理的开源系统及编程模型
万字长文,Spark 架构原理和RDD算子详解一网打进!
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券