腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
如
何用
JAVA
实现
Spark
SQL
中
基于
单列
的
重复
行
删除
、
我需要了解如何使用
Java
在
Spark
SQL
中
基于
single从数据框
中
删除
重复
行
。与普通
SQL
中一样,ROW_NUMBER () OVER (PARTITION BY col BY Col DESC)。如何将此步骤转换为
Java
中
的
Spark
SQL
?
浏览 11
提问于2017-07-25
得票数 1
2
回答
如何
删除
流数据
中
的
重复
项?
、
、
我正在使用
spark
-
sql
2.4.1结构化流与kafka,
java
8。例如,我
的
数据集如下所示我需要找出
基于
ColA ColB ColC
的
副本,取其中
基于
ColDate
的
最新副本,并
删除
其余
的
。也就是说,从上面的数据结果应该是如何使用
spark
streaming来
实现
?也就是说,我将在流
中
获取数据,例如...不确定何时出现
重复
浏览 2
提问于2019-08-06
得票数 0
1
回答
如何与CSV文件
中
的
数据集一起使用决策树?
、
、
、
、
我想像下面的代码一样使用
Spark
的
org.apache.
spark
.mllib.tree.DecisionTree,但是编译失败。import org.apache.
spark
.mllib.util.MLUtilsval data = sqlContext
浏览 4
提问于2017-05-22
得票数 0
1
回答
Java
Spark
删除
重复
项/空值并保留顺序
、
我有下面的
Java
Spark
数据集/dataframe。 Col_1 Col_2 Col_3 ...1上
重复
的
记录。如果第二个记录为NULL,则必须
删除
NULL (
如
COl_1 = A),如果有多个有效值(
如
Col_1 =B),则每次只应保留一个有效
的
Col_2 =2和Col_3 =2。它也会完全
删除
空值。如何在
Java
Spark
中
实现
预期
的
浏览 17
提问于2020-11-25
得票数 0
回答已采纳
1
回答
如何优化大窗口上
的
窗口聚合?
、
、
Window .orderBy("timestamp")at org.apache.
spark
.
sql
.execution.ExternalAppendOnlyUnsafeRowArray.add(BufferedRowIterator
浏览 6
提问于2020-01-15
得票数 4
3
回答
删除
字符串
中
的
重复
项。
我想
删除
字符串
中
的
重复
项。例如,Predictive Modeling是第一
行
中
重复
的
值。需要确保
删除
重复
项后,字符串没有额外
的
, mydf <- data.frame(Keyword = c("Predictive Modeling, R, Python, Predictive Modeling,
SQL
, visualization,
Spark</em
浏览 6
提问于2022-03-27
得票数 0
回答已采纳
1
回答
根据条件从
spark
数据帧
中
删除
行
我想根据条件从列表
的
spark
数据帧
中
删除
行
。条件是列表
的
长度是一定长度。我曾尝试将其转换为列表列表,然后使用for循环(如下所示),但我希望在
spark
内
的
一条语句中完成此操作,并
基于
此条件从原始df创建一个新
的
不可变df。subList in newList: finalList.append(subList) 因此,例如,如果datafra
浏览 25
提问于2019-04-30
得票数 0
回答已采纳
1
回答
OrcRelation不能分配给HadoopFsRelation
、
、
、
但我无法理解
的
问题。这是我
的
代码:import org.apache.
spark
.api.
java
.JavaSparkContext;import org.apache.
spark
.
sql
.SparkSession; import org.apache.
spark
.
sql<
浏览 10
提问于2017-02-16
得票数 4
回答已采纳
1
回答
Spark
删除
重复
项并选择具有最大值
的
行
、
、
我正在尝试
删除
基于
column1
的
重复
项,并选择column2
中
具有最大值
的
行
。column2
的
值为"year"(2019,2020等),类型为"String“。我
的
解决方案是,将第2列转换为整数,并选择最大值。 Dataset<Row> ds ; //The dataset with column1,column2(year), column3 etc.newDs =
浏览 0
提问于2020-11-18
得票数 0
2
回答
删除
sparklyr
中
的
重复
行
、
、
、
我需要使用sparklyr根据另一列
中
的
重复
项
删除
在一列
中
重复
的
行
。基R法 这是一个基本
的
R方法,它将
删除
重复
<
浏览 7
提问于2020-01-12
得票数 1
回答已采纳
1
回答
如何将
SQL
表转换为Redis数据
、
、
、
、
嗨,我是新来
的
瑞迪斯,这里需要帮助。我正在使用
java
和server 2008和redis服务器。为了与redis交互,我使用jedis作为
java
。我知道redis被用来存储
基于
键值
的
东西。问题背景: 我有一个表名“用户”,它存储数据,
如
id,姓名,电子邮件,年龄,国家。这是
sql
表
的
架构。现在,这个表有一些
行
(也意味着一些数据)。现在,我
的
主键是id,它用于DB,在应用程序中使用它对我没有任
何用
浏览 1
提问于2014-09-12
得票数 9
2
回答
从Dataframe到DB
的
批处理插入忽略Pyspark
中
失败
的
行
、
、
我正在尝试使用JDBC向Postgres插入
spark
。postgres表对其中一个列具有唯一
的
约束,当要插入
的
df违反约束时,整个批处理将被拒绝,并且火花会话关闭,给出一个错误
的
重复
键值违反唯一约束,这是正确
的
,因为数据是
重复
的
(在数据库
中
已经存在)。需要插入不违反约束
的
数据
行
,忽略失败
的
行
,而不会导致整个批处理失败。所用
的
代码是: mode
浏览 1
提问于2018-07-31
得票数 2
1
回答
以编程方式向
Spark
1.6.2客户端添加Databricks
Spark
、
、
、
这里最重要
的
是,总是在客户机
中
,我不能触发-提交我
的
脚本,但是我需要以Python
的
形式运行这个脚本。 在代码
的
某些地方,我需要将CSV文件作为(即使用
SQL
上下文)加载到HDFS
中
。
如
您所知,
Spark
1.6.2不支持
基于
CSV
的
数据格式,必须使用。我知道数据库
的
火花-csv罐必须下载并放置在某处。问题是:在哪里?这是客户端计算机
中
的
需求,还
浏览 2
提问于2017-11-24
得票数 1
回答已采纳
2
回答
从
SQL
表
中
查找部分和准确
的
重复
、
如下表所示,有一些
基于
Col1和Col2值
的
部分
重复
,还有一些
基于
Col1、Col2和Col3
的
完全
重复
。1002 Tom 1503 Bob 100我想在两个独立
的
输出
中
捕获部分和精确
的
重复
,而忽略像2和4这样
的
非
重复
行
浏览 2
提问于2020-07-05
得票数 0
回答已采纳
2
回答
Spark
联合列顺序
、
、
、
我最近在
Spark
遇到了一些奇怪
的
事情。据我所知,根据
spark
dfs
的
基于
列
的
存储方法,列
的
顺序实际上没有任何意义,它们就像字典
中
的
键。| 1| asd|| 3| f1f||as
浏览 3
提问于2019-07-09
得票数 26
回答已采纳
1
回答
是否有一个等同于“优化”
的
方法,允许从中
的
非托管表
中
删除
副本
、
、
我想从一个非托管表
中
删除
重复
的
行
。,我知道有一些命令,比如,df.dropduplicates(),,可以处理dataframes,但是有一个命令可以对底层数据执行同样
的
操作吗?因此,例如,优化工作如下:
spark
.
sql
("OPTIMIZE <TABLE>") 是否有类似于:
spark
.
sql
("DELETE DUPLICATES <TABLE>")之
浏览 3
提问于2021-07-08
得票数 0
回答已采纳
1
回答
删除
Excel
中
超过第二
行
的
重复
行
,
基于
单列
、
、
我有一个包含
重复
行
的
Excel电子表格,我想为一个给定
的
用户保留最多两
行
。我如何保留两个
重复
的
行
,然后
删除
所有额外
的
行
,如果它们在列C
中
具有相同
的
值?下面是一个示例--我想保留突出显示
的
两
行
,但
删除
其余
行
:
浏览 2
提问于2016-03-23
得票数 0
4
回答
Spark
sql
中
的
变量
、
、
因为在
SQL
Server
中
,我们可以像declare @sparksql='<any query/value/string>'一样声明变量,但是在
spark
sql
中
可以使用什么替代方法。
浏览 541
提问于2020-11-26
得票数 3
4
回答
如何最有效地将Scala DataFrame
的
行
转换为case类?
、
、
一旦我在
Spark
中
获得了一些Row类,无论是Dataframe还是催化剂,我都想在代码中将其转换为case类。这可以通过匹配完成。someRow match {case Row(a:Long,b:String,c:Double) => myCaseClass(a,b,c)} 但是,当一
行
中有大量
的
列时,比如十几个双打,一些布尔人,甚至偶尔
的
空列,情况就变得很糟糕了。我只想能-抱歉-把排到myCaseClass.这是可能
的
,还是我已经有了最经济
的
语法?
浏览 9
提问于2015-01-27
得票数 55
回答已采纳
2
回答
如何在
spark
中用
java
将两个数组列合并成一个
删除
重复
的
数组
、
、
我想用
java
把两个数组合并成一个数组,并在
spark
2.2
中
删除
重复
的
数组。 Dataset.show [1,2,3] | [2,3,5] |[1,2,3,5] 如何才能
实现
这个
spark
java
?.
浏览 2
提问于2018-07-18
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券