腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
基于
多
列
的
Spark
join
2
数据
帧
、
、
我有两个
数据
帧
df1和df
2
。我在map中定义了这些
数据
帧
的
连接条件。但是,连接列名是不同
的
。我知道我可以这样做,val df3 = df
2
.
join
(df1, df
2
("col1") <=> df1("col5") && df
2
("col
2
") <=> df1("col6
浏览 3
提问于2020-06-18
得票数 1
2
回答
在PySpark中将标识符保留在exceptAll中
、
我很好奇是否有一种简单
的
方法可以在PySpark
的
exceptALL命令中保留标识ID。例如,假设我有两个
数据
帧
(DF1,DF
2
),它们都有一个ID
列
和另一个
列
“A”。我希望将值为"A“
的
行保留在DF1中,而不是保留在DF
2
中,因此基本上我尝试使用exceptAll
的
常规输出来保留标识符。我附上了一张具有理想输出
的
图像。 ? 干杯!
浏览 48
提问于2020-01-16
得票数 1
2
回答
Spark
scala将
数据
框
列
复制到新
的
数据
框
、
我已经创建了一个带有模式
的
空
数据
帧
。我正在尝试将新
数据
帧
中
的
列
添加到for循环中
的
现有
列
中。K schema -|ID|DATE|报告ID|SUBMITTEDDATE| val c = df
2
.select(substring(col("value"), str(data)._
2
, str(data)._3).ali
浏览 5
提问于2017-10-03
得票数 0
1
回答
如何在
Spark
中连接其他
数据
帧
时从其中一个
数据
帧
中选择结果
列
?
、
、
、
我有两个
数据
帧
:当我在外部连接中连接这两个
数据
帧
之后,我得到了下面的
数据
帧
。-+ 为了避免在最终输出中出现重复<
浏览 0
提问于2021-04-14
得票数 0
3
回答
如何连接具有相同
列
的
数据
集并选择一个?
、
、
、
我有两个
Spark
数据
帧
,之后我会加入并选择它们。我想选择其中一个
数据
帧
的
特定
列
。但是在另一个中存在相同
的
列名。因此,我得到了一个二义
列
的
异常。我已经尝试过了: d1.as("d1").
join
(d
2
.as("d
2
"), $"d1.id" === $"d
2
.id",
浏览 0
提问于2017-12-28
得票数 5
回答已采纳
2
回答
错误:类型不匹配::找到:布尔值::必需: org.apache.
spark
.sql.Column问题::
Spark
/Scala
、
我在
spark
Df1和Df
2
中有两个
数据
帧
我
基于
一个公共
列
(即Id )连接这两个
数据
帧
,然后添加一个额外
的
列
结果,并使用或条件检查多个
列
。如果有任何
列
数据
匹配,则需要插入新列作为匹配,如果没有匹配
的
条件,则需要在该
列
中传递为“未匹配”。我正在写下面的代码。df1.
join
(df
2
,df1(&
浏览 36
提问于2020-05-15
得票数 0
1
回答
基于
不同类型
列
的
Spark
join
数据
帧
、
、
我有两个
数据
帧
df1和df
2
。我加入了
基于
列
col1和col
2
的
df1和df
2
。然而,col1
的
数据
类型在df1中为string,而col
2
的
类型在df
2
中为int。当我像下面这样尝试加入时, val df3 = df1.
join
(df
2
,df1("col1") === df
2
("
浏览 3
提问于2020-06-19
得票数 0
2
回答
基于
旧dataFrame中
的
重格式化
列
创建新
的
dataFrame
、
、
我从一个
数据
库导入了
数据
"mongodb://127.0.0.1若要删除我们使用
的
特殊字符
浏览 1
提问于2018-07-06
得票数 2
回答已采纳
1
回答
在以下情况下,方法参数不足:
Spark
/scala dataframe
、
、
我在
spark
Df1和Df
2
中有两个
数据
帧
我
基于
一个公共
列
(即Id )连接这两个
数据
帧
,然后添加一个额外
的
列
结果,并使用或条件检查多个
列
。如果有任何
列
数据
匹配,则需要插入新列作为匹配,如果没有匹配
的
条件,则需要在该
列
中传递为“未匹配”。我正在写下面的代码。df1.
join
(df1,df
2
(&
浏览 2
提问于2020-05-15
得票数 1
1
回答
Apache
Spark
SQL -
多
阵列分解和1:1映射
我是Apache
Spark
SQL
的
新手,正在尝试实现以下目标。我有下面的DF文件,我想把它转换成一个中间DF文件,然后再转换成json文件。array [a,b,c,d,e] and array [1,
2
,3,4,5]a 1c 3谢谢你
的
帮助..
浏览 0
提问于2018-04-13
得票数 0
2
回答
如何在apache
spark
中删除两个csv文件中
的
两个重复值?
、
、
、
我想要做
的
是从两个csv文件中删除两个重复
的
密钥。我已经尝试了dropDuplicates()和distinct(),但是所有的工作都是删除一个值。
浏览 10
提问于2017-03-10
得票数 0
2
回答
如何在Scala中连接两个
数据
帧
,并通过索引从
数据
帧
中选择一些
列
?
、
、
我必须连接两个
数据
帧
,这非常类似于这里给出
的
任务我在任何地方都找不到如何根据
数据</em
浏览 1
提问于2017-05-09
得票数 1
1
回答
如何合并或连接
spark
中
列
号不相等
的
数据
帧
、
、
、
、
我正在做一个使用
spark
的
项目。在某些阶段,我需要在单个
数据
帧
中合并或连接3个
数据
帧
。这些
数据
帧
来自
spark
sql表,我使用了联合函数,它已经合并了两个表中具有相同编号
的
列
,但我也需要合并不相等
的
列
值。我现在很困惑,有没有办法在pyspark中合并或连接不相等
的
基于
列
的
数据</e
浏览 13
提问于2016-09-22
得票数 0
1
回答
基于
列
值高效地从宽
Spark
数据
帧
中删除
列
、
、
如果我有一个只包含IP地址
的
宽
数据
帧
(200m cols),并且我想删除包含空值或格式不佳
的
IP地址
的
列
,那么在
Spark
中执行此操作
的
最有效方法是什么?我
的
理解是
Spark
并行地执行
基于
行
的
处理,而不是
基于
列
的
处理。因此,如果我尝试在列上应用转换,将会有大量
的
混洗。首先转置
数据
帧</
浏览 11
提问于2019-10-31
得票数 1
1
回答
连接两个h
2
o
数据
帧
我有两个h
2
o
帧
,我想
基于
这两个
列
中存在
的
一个相同
的
列
来连接它们,我使用Java API并从
spark
dataframes中获取h
2
o
帧
。H
2
OFrame trainDataFrame = h
2
oContext.asH
2
OFrame(train_validation); H
2
OFrame validationDataFrame= h<
浏览 8
提问于2017-06-22
得票数 2
2
回答
在Scala中,通过List[String]过滤
Spark
Cassandra RDD
的
正确方法是什么?
、
、
、
、
我有一个字符串格式
的
I列表,这个列表大约有20,000个I
的
长度:timelineIds = timelineIds.distinct.cachefor later当我在我
的
cassandra表上使用这个列表时,无论timelineIdsString
的<
浏览 33
提问于2021-05-14
得票数 1
回答已采纳
1
回答
Spark
Join
:分析异常引用不明确
、
、
、
您好,我正在尝试连接
spark
中
的
两个
数据
帧
,并收到以下错误:could be: Adapazari#100064, Adapazari#100065.; 根据几个消息来源
的
说法,当您尝试将两个不同
的
数据
帧
连接在一起时,可能会发生这种情况,这两个
数据</
浏览 8
提问于2017-02-14
得票数 1
回答已采纳
1
回答
以列表作为条目的
数据
帧
上
的
联接条件
、
我有两个包含以下条目的
数据
文件: df1-| id1| joinKey1|| id
2
| joinKey
2
| +-----------列表中
的
元素有些相同。我想加入这两个
数据
格式,条件是joinkey1和joinkey
2
至少
浏览 0
提问于2019-01-20
得票数 2
回答已采纳
1
回答
如何更新
Spark
中
的
数据
框
列
、
、
、
我有一个
数据
帧
,其中有
2
个json
列
。我需要更新
基于
j1
列
的
j
2
列
。如果j
2
列
的
元素为空,则从j1
列
中选取元素值。j1为JSON字符串,j
2
为JSON数组。输入
数据
帧
, +---------------------------+---------------------------------------+ |
浏览 22
提问于2021-08-04
得票数 1
回答已采纳
1
回答
Spark
- Executor心跳在X毫秒后超时
我
的
程序从一个目录中
的
文件读取
数据
,这些文件
的
大小是5 GB。我对这些
数据
应用了许多函数。我在一个具有32 GB RAM
的
虚拟机上以独立(本地)方式运行
spark
。使用
的
命令: bin/
spark
-submit --class ripeatlasanalysis.AnalyseTraceroute --master local --driver-memory0.0.5-SNAPSHOT-jar-with-depend
浏览 0
提问于2019-01-04
得票数 3
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
云直播
活动推荐
运营活动
广告
关闭
领券