腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
合并
具有
相同
列名
的
Pyspark
中
的
数据
帧
、
、
、
在使用
pyspark
join时,后缀有没有什么替代方法?或者在使用spark.sql(query)时
数据
框
具有
相同
的
列,我希望保留它们各自
的
dataFrame名称作为后缀。下面的代码是我在python
中
做
的
。df3')) df = pd.merge(left = df, right = df4, on= 'vin_17', how= 'inner', suffixes= ('',
浏览 23
提问于2021-02-09
得票数 1
1
回答
将多个
PySpark
DataFrames与MergeSchema
合并
、
、
我想将多个
PySpark
数据
帧
合并
到一个
PySpark
数据
帧
中
。它们都来自
相同
的
模式,但是它们可能会有所不同,因为有时会缺少一些列(例如,模式通常包含200个
具有
已定义
数据
类型
的
列,其中dataFrame A有120列,dataFrame B有60列)。是否有可能在不写入和读取所有
数据
帧
的
情况下再次使用merg
浏览 2
提问于2020-06-22
得票数 0
1
回答
如何
合并
或连接spark
中
列号不相等
的
数据
帧
、
、
、
、
我正在做一个使用spark
的
项目。在某些阶段,我需要在单个
数据
帧
中
合并
或连接3个
数据
帧
。这些
数据
帧
来自spark sql表,我使用了联合函数,它已经
合并
了两个表
中
具有
相同
编号
的
列,但我也需要
合并
不相等
的
列值。我现在很困惑,有没有办法在
pyspark
中
合并
或连
浏览 13
提问于2016-09-22
得票数 0
2
回答
如何将Python列表添加到Spark DataFrame?
、
、
我有一个10000*1
的
Python列表,我想把它添加到一个Spark DataFrame
中
,这样DataFrame就有10000行了。我该怎么做?
浏览 6
提问于2017-03-01
得票数 2
1
回答
两个
数据
帧
的
Pyspark
联合
我想做两个
pyspark
数据
帧
的
联合。它们
具有
相同
的
列,但列
的
顺序不同 我试过了 joined_df = A_df.unionAll(B_DF) 但结果是基于列顺序和混合结果
的
。有没有一种方法可以基于
列名
而不是列
的
顺序进行联合。提前感谢
浏览 5
提问于2020-08-24
得票数 1
回答已采纳
1
回答
组合不同列数
的
Spark
数据
帧
、
、
在this问题中,我问过如何组合
具有
不同列数
的
PySpark
数据
帧
。给出
的
答案要求每个
数据
帧
必须
具有
相同
的
列数才能将它们全部
合并
: from
pyspark
.sql import SparkSessionfor x in dfs_
浏览 13
提问于2021-06-28
得票数 1
回答已采纳
2
回答
如何使用
PySpark
将这些多个csv文件(大约130,000个)有效地
合并
为一个大型
数据
集?
、
、
、
、
我之前发布了这个问题,并得到了一些使用
PySpark
的
建议。 下面的压缩文件()包含一个名为data
的
文件夹,其中包含大约130,000个csv文件。我想把它们
合并
到一个单独
的
数据
帧
中
。如果您打开任何csv文件,您可以看到它们都
具有
相同
的
格式,第一列用于日期,第二列用于
数据
系列。所以现在我改用
PySpark
,但是我不知道连接所有文件
的
最有效<e
浏览 14
提问于2020-02-17
得票数 2
回答已采纳
1
回答
如何在
pyspark
中将重复
列名
的
数据
帧
写入csv文件
、
、
、
如何在join操作后将
具有
相同
列名
的
数据
帧
写入csv文件。目前,我正在使用以下代码。write.format('com.databricks.spark.csv').save('/home/user/output/',header = 'true')将在“/home/user/output”
中
写入
数据
帧
&q
浏览 0
提问于2018-10-03
得票数 6
2
回答
根据
数据
帧
转换各个列
的
数据
类型
我有一个包含100个cols
的
pysaprk
数据
帧
:我有另一个
pyspark
dataframedf2,
具有
相同
的
列计数和
列名
称,但
数据
类型不同。df2=[(col1,bigint),(col2,double),(col3,string),..so on] 如何使df2
中
所有cols
的
<
浏览 3
提问于2018-01-03
得票数 0
1
回答
PySpark
数据
帧
写入orc不允许使用连字符
的
列名
、
、
、
、
我是
PySpark
的
新手。我有一个
列名
中
包含连字符
的
csv文件。我可以成功地将文件读取到
数据
帧
中
。然而,当将df写入orc文件时,我得到一个错误,如下所示-当我通过删除连字符来重命名列时,我可以将
数据
帧
写入但是我需要
列名
有连字符,因为我想把这个orc附加到
列名<
浏览 32
提问于2021-02-13
得票数 0
1
回答
检查列是否全部为空
、
、
我有一个
列名
和一个
数据
帧
。我想检查该列
中
的
所有值是否都为空,如果为空,则从
数据
帧
中
删除该列。我所做
的
是检查
具有
非空值
的
列
的
计数,如果count等于0,则删除该列,但在
pyspark
中
这似乎是一个开销很大
的
操作
浏览 0
提问于2019-08-09
得票数 0
1
回答
如何向pandas dataframe to_csv追加不同
的
列
、
、
我有一个熊猫
数据
帧
读取csv文件(data.csv)。在处理
数据
之后,我有另一个
数据
框,它
的
列数少于data.csv文件
中
的
列数,但仍然
具有
相同
的
列名
。现在我想将新
的
数据
框附加到data.csv文件
中
。ID name email 1
浏览 0
提问于2017-12-26
得票数 0
1
回答
对大型
数据
帧
中
的
多个列使用
相同
的
名称
、
我使用19个单独
的
CSV文件创建了一个大型
数据
帧
。所有CSV文件都
具有
相似的
数据
结构/类型,因为这些文件是来自多次运行
的
相同
实验
数据
。在将所有CSV文件
合并
到一个大型
数据
帧
中
之后,我希望更改
列名
。我想对一些列使用
相同
的
名称,例如column 2,5,8,..should有"Counts“作为
列名</e
浏览 0
提问于2019-10-31
得票数 0
1
回答
在
pyspark
中
参数化连接条件
、
、
我有一个
列名
列表,每次
列名
都不同。
列名
存储在列表
中
。因此,我需要传递列表
中
的
列名
(在下面的示例
中
,
列名
是其id和programid id),以便在源
数据
帧
和目标
数据
帧
之间进行比较。在下面的示例
中
,我想检查src_id == id和src_programid == programid是否。from
pyspark
import S
浏览 14
提问于2019-04-13
得票数 0
1
回答
Pyspark
数据
框架操作
的
单元测试用例
、
、
、
我已经用python写了一些带有sql上下文
的
代码,即
pyspark
,通过将csv转换为
pyspark
dataframe来对csv执行一些操作(df操作,如预处理、重命名
列名
、创建新列并将其附加到
相同
的
我没有在
数据
帧
上编写单元测试用例
的
想法。有谁能帮我在
pyspark
的
dataframe上写单元测试用例吗?或者给我一些
数据
帧
上
的
测试用例
浏览 1
提问于2016-04-14
得票数 3
1
回答
给定一个类似csv
的
字符串,如何加载到Spark dataframe
中
?
、
我有一个字符串,格式与csv
相同
,第一行为
列名
,其余记录为
数据
。如何使用
pyspark
将此字符串加载到
数据
帧
中
。
浏览 0
提问于2021-03-07
得票数 0
1
回答
合并
两个
数据
帧
我想
合并
2个
数据
帧
,我已经尝试了下面的代码,但它不起作用,by.companies = "permalink", 一个
数据
帧
具有
超过1,000,000行和8列,而其它
数据
帧
具有
60,000 +行,6列。Permalink是唯一<
浏览 0
提问于2018-05-02
得票数 0
1
回答
使用配置单元元
数据
读取HDFS文件-
Pyspark
、
、
、
、
我是
PySpark
新手,正在尝试读取HDFS文件(上面创建了hive表)并创建
PySpark
数据
帧
。通过
PySpark
读取配置单元表非常耗时。有没有什么方法可以动态获取hive
列名
(用作dataframe
中
的
模式)?我希望将文件位置、表名和
数据
库名作为输入传递给aa程序/函数,以便从配置单元元
数据
(可能是元
数据
xml)
中
获取模式/
列名
称,并作为
浏览 15
提问于2019-03-06
得票数 0
回答已采纳
1
回答
将dataframe元素与list
的
公共
列名
连接起来
、
我有一个包含不同
数据
帧
的
列表,我需要将
具有
相同
列名
的
数据
帧
合并
为一个,并将其写入CSV输出或单个
数据
帧
。有9个
数据
帧
的
MERGED_LIST elements.The
列名
如下 array(
浏览 2
提问于2016-01-19
得票数 2
1
回答
如何使用R计算同一
数据
帧
中
具有
相同
列名
的
列之间
的
差异
首先,我有两个
数据
帧
,我使用公共列删除列
的
后缀来组合
具有
相同
列但不同后缀
的
数据
帧
。现在,我必须计算R
中
数据
帧
中
具有
相同
列名
的
每两列之间
的
差异
浏览 2
提问于2019-05-02
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券