腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
连接
后
停止
pyspark
返回
两个
'on‘
列
、
、
我在
PySpark
中有
两个
数据帧,并希望对它们执行外
连接
。我需要能够在每个表中不同且可能改变的列名上
连接
它们(因此需要是一个变量,而不是硬编码)。但是,当我此时执行此操作时,
PySpark
返回
一个数据帧,其中包含正在联接的
两个
列
,其中一些值填充了空值。30|+--------+------+--------+-------------+ 如上所述,用于
连接</e
浏览 16
提问于2020-11-08
得票数 1
回答已采纳
1
回答
如何编写一个通用函数来
连接
两个
PySpark
数据格式?
、
、
、
、
如何编写一个通用函数来
连接
两个
PySpark
数据格式? 我想要编写一个函数,在
两个
数据文件上执行内部
连接
,并在加入
后
消除重复的公共
列
。据我所知,没有办法做到这一点,因为我们总是需要在加入时手动定义公共
列
。还是有办法?
浏览 4
提问于2022-07-30
得票数 -1
回答已采纳
1
回答
Teradata和Spark中的相似哈希算法
、
、
因为Teradata中的表包含数十亿行,所以我希望我的
PySpark
脚本能够比较哈希值。Teradata:我的
PySpark
脚本使用JDBC
连接
来调用teradata: .format("jdbc"myDF.createOrReplaceTempView("myDF")我如何才能: 在我对teradata的调
浏览 0
提问于2019-01-16
得票数 5
2
回答
在多个列上使用AWS胶
连接
创建重复
、
、
、
我在AWS、table_1和table_2中有
两个
表,它们的模式几乎相同,但是table_2有
两个
额外的
列
。我试图将这
两个
表
连接
到相同的列上,并为模式不包括这些值的“旧”数据添加对table_2唯一的
列
,并将其为空值。这个调用成功地将表
连接
成一个表,但是,生成的joined_table具有匹配
列
的重复字段。我的
两个
问题是: 我如何利用AWS Glue作业与
Pyspark
连接
跨
两个</em
浏览 0
提问于2018-02-13
得票数 4
2
回答
火花清洗数据的探讨
、
、
、
、
示例数据来自partFitmentDF的选定
列
0450056 44011 OIL现在,我需要将这些多行逐个滚动到一行--不包括(属于一个项目的所有assembly_name和id都应该在一行中),然后执行在最上面列出的task#1、2和3,以清理fits_assembly_name
列
,并将处理过的数据保存到最终的dataframe或带有itemno、fits_assembly_id和fits_assembly_name
列</em
浏览 1
提问于2019-10-31
得票数 0
回答已采纳
1
回答
PySpark
优化
两个
大表的左
连接
、
、
、
我在数据库上使用的是最新版本的
PySpark
。我有
两个
表,每个表的大小约为25-30 25。我想分别在"id“和"id_key”
列
加入Table1和Table2。我可以使用下面的命令做到这一点,但是当我运行我的spark作业时,
连接
是不对称的,导致我在一个执行器上+95%的数据,这使得作业永远不会
停止
。当我尝试在转换数据
后
加载数据时,就会发生这种情况。Table1总共有13
列
,其中" id“列有很多空值和一些实际的id值。 Table2总共
浏览 0
提问于2021-04-28
得票数 0
1
回答
创建一个新
列
,详细说明一个
PySpark
数据row中的行是否与另一
列
中的一个行匹配。
、
、
、
我想要创建一个函数,该函数从
PySpark
中的左联接创建一个新
列
,详细说明一个
列
中的值是否匹配或不匹配另一个dataframe逐行的
列
。例如,我们有一个
PySpark
dataframe (d1)具有
列
ID和名称,另一个
PySpark
dataframe (d2)具有相同的
列
- ID和Name。我试图创建一个
连接
这
两个
表的函数,并创建一个新
列
,如果
两个
数据文件中存在相同的ID,则创
浏览 3
提问于2021-12-11
得票数 0
1
回答
PySpark
动态
连接
条件
、
、
、
我有PK
列
的列表。我在存储主键,因为每个表的主键数可能会发生变化。我想根据pk_list中的
列
连接
两个
数据帧。 pk_list=['col1',col2', ..../yarn/usercache/root/appcache/application_1544185829274_0001/container_1544185829274_0001_01_000001/
pyspark
.zip/
p
浏览 0
提问于2018-12-07
得票数 2
1
回答
如何处理
连接
多个表
后
的空值
、
、
、
、
我正在通过
连接
4个数据帧来创建一个新的数据帧,之后我需要
连接
来自不同数据帧数据的
两个
相同的
列
:Acc1 Acc1 Acc1Acc1null Acc3 Acc3 问题:如果我没有替换null值而进行
连接
;我在
连接
后
丢失了信息;由于
pyspark
不删除公共
列
,我们有
两个
表中的
两个
Account
列
,我尝
浏览 18
提问于2020-06-02
得票数 0
回答已采纳
1
回答
在
pyspark
中
连接
同名的Dataframe
、
、
、
、
我有
两个
数据帧,它们是从
两个
csv文件中读取的。代码dfFinal = dfFinal.join(df2, on=['NUMBER'], how='inner')
连接
这
两个
使用NUMBER coumn的数据,生成的新数据帧如下。30| 4| 70|但我无法将此数据帧写入文件中,因为
连接
后
的数据帧具有重复的
浏览 1
提问于2018-10-03
得票数 1
4
回答
如何在Spark中压缩
两个
数组
列
、
、
、
、
我尝试将包含字符串值的
两个
列
连接
到一个列表中,然后使用zip将列表中的每个元素都用'_‘
连接
起来。我的数据集如下:df['column_2']: '1.0, 2.0, 3.0' 我想将这两
列
连接
到第三
列
中,如下所示,我的每一行数据都是这样的为了提高效率,我想在
PySpark
中做同样的事情。我已经成功
浏览 2
提问于2019-01-21
得票数 9
回答已采纳
2
回答
如何在
pyspark
sql的大表中选择除2
列
以外的所有
列
?
、
、
、
、
在
连接
两个
表时,我想从一个在databricks上的
pyspark
sql上有许多
列
的大表中选择除其中两
列
之外的所有
列
。我的
pyspark
sql: set hive.support.quoted.identifiers=none;谢谢
浏览 5
提问于2020-07-28
得票数 0
1
回答
PySpark
在
连接
后
删除
列
如果我简单地这样做: c=c.drop('adjTransactionDate','GroupByFld') 然后,从数据集中删除这
两个
GroupByFld。
浏览 13
提问于2019-01-04
得票数 0
2
回答
如何使用
PySpark
将这些多个csv文件(大约130,000个)有效地合并为一个大型数据集?
、
、
、
、
如果您打开任何csv文件,您可以看到它们都具有相同的格式,第一
列
用于日期,第二
列
用于数据系列。所以现在我改用
PySpark
,但是我不知道
连接
所有文件的最有效的方法是什么,对于pandas数据帧,我会像这样
连接
单个帧的列表,因为我想让它们在日期上合并: df.show(3) listdf
浏览 14
提问于2020-02-17
得票数 2
回答已采纳
1
回答
枢轴
后
的
PySpark
连接
列
、
, 7), ('2017-01-03', 'C', 9),('date', 'type', 'value')我想将它转换为
列
等于所有唯一的如果有人对我如何在
PySpark
中实现这一点有任何建议的话,那就太好了。
浏览 2
提问于2020-03-18
得票数 1
回答已采纳
1
回答
如何根据
列
值组合对S3输出文件进行分区?
、
、
、
在那里,我使用
PySpark
并将其转换为拼图格式。我的原始数据是CSV,如下所示: id, date, data 1, 202003, x 2, 202003, y 1, 202004, z等...
浏览 7
提问于2020-06-06
得票数 1
回答已采纳
3
回答
对子字符串匹配(或包含)加入
PySpark
数据帧
我想在
两个
数据帧之间执行左
连接
,但是
列
并不完全匹配。第一个数据帧中的联接
列
相对于第二个数据帧有一个额外的后缀。from
pyspark
import SparkContext ['AB-101', 3],
浏览 1
提问于2017-08-08
得票数 3
回答已采纳
2
回答
如何使用monotonically_increasing_id
连接
两个
没有公共
列
的
pyspark
数据帧?
、
、
、
我有
两个
相同行数的
pyspark
dataframe,但它们没有任何公共
列
。因此,我使用monotonically_increasing_id()将新
列
添加到这
两个
列
中cont_data = cont_data.join(df1,df1.match_id==cont_data.match_id, 'inner').dro
浏览 2
提问于2017-06-03
得票数 1
2
回答
使用空值
连接
dataframe
pyspark
中的
列
、
、
、
IndustriesRR Industries.withColumn("Name3",F.concat(F.trim(Name1), F.trim(Name2)))我认为,问题发生在df2和df3中的名称
列
可用于
连接
表之后。在加入之前,它们不包含空值。问题:
连接
后
;由于
pyspark
不会删除公共
列
,我们有
两个
表中的
两个<
浏览 2
提问于2020-06-01
得票数 0
2
回答
两个
数据帧的
Pyspark
连接
导致重复值错误
、
在
连接
两个
数据帧时,我在
pyspark
中遇到了问题。第一个dataframe是一个单列的dataframe "zipcd",第二个是四个
列
的dataframe。每当我试图
连接
两个
dataframe时,问题就会出现,因为
Pyspark
在我的新dataframe中
返回
我,关于zipcd的一
列
,它的所有值都是相同的(第一行在所有行中都是重复的,它不是这样的)。另一个数据帧是zipcd: zip_cd1.show() +-
浏览 30
提问于2021-07-01
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券