腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
删除
数据
帧
中
的
重
复列
、
我发现很多解决方案都与join
的
情况有关。我
的
问题是,如果
数据
帧
本身
中
存在重复项,如何检测和
删除
它们?下面的例子只是展示了我如何创建一个包含重
复列
的
数据
框。| 2| B| X2| B| B|+---+----+----+-----+-----+ 假设我刚刚获得了df1,我如何
删除
重复
的
列来获得
浏览 7
提问于2018-01-13
得票数 1
回答已采纳
1
回答
如何在
pyspark
中将重
复列
名
的
数据
帧
写入csv文件
、
、
、
如何在join操作后将具有相同列名
的
数据
帧
写入csv文件。目前,我正在使用以下代码。write.format('com.databricks.spark.csv').save('/home/user/output/',header = 'true')将在“/home/user/output”
中
写入
数据
帧
"dfFinal“.But它在
数据</e
浏览 0
提问于2018-10-03
得票数 6
2
回答
Drop函数在连接
数据
帧
的
相同列后不能正常工作
、
、
、
我在连接两个
数据
帧
A、B时也面临着同样
的
问题。对于ex: c = df_a.join(df_b, [df_a.col1 == df_b.col1], how="left").drop(df_b.col1) 当我像上面那样尝试
删除
重
复列
时,该查询不会
删除
df_b
的
col1,相反,当我尝试
删除
df_a
的
col1时,它能够
删除
df_a
的
col1。注意:我在我
的
项目中尝
浏览 14
提问于2019-10-08
得票数 0
回答已采纳
1
回答
使用
pyspark
中
的
列索引
删除
同名
的
列
、
、
、
这是我
的
数据
帧
,我正在尝试使用index
删除
同名
的
重
复列
: df = spark.createDataFrame([(1,2,3,4,5)],['c','b','a','a','b'])| c| b| a| a| b|| 1| 2| 3| 4| 5| +---+---+---+---+---+
浏览 30
提问于2019-12-19
得票数 4
1
回答
windowPartitionBy和
pyspark
中
的
重新分区
、
、
、
我在SparkR中有一个小代码,我想把它转换成
pyspark
。我对这个windowPartitionBy并不熟悉,并且重新分区。你能帮我了解一下这段代码是做什么
的
吗?
浏览 34
提问于2020-12-18
得票数 0
回答已采纳
1
回答
运行spark.read.json时在json中找到重
复列
,即使没有重
复列
、
、
、
在
PySpark
和Synapse
数据
流
中
,我遇到了非常奇怪
的
错误。 AnalysisException:在
数据
模式中找到重
复列
:amendationcommentkey、amendationreasonkey、amendatio
浏览 3
提问于2021-11-25
得票数 0
1
回答
如何从
pyspark
中
删除
数据
帧
来管理内存?
、
、
、
我列出我
的
数据
帧
以丢弃未使用
的
数据
帧
。首先,我使用下面的函数列出了我在其中一篇文章中找到
的
数据
帧
然后我试着从列表
中
删除</
浏览 0
提问于2018-10-31
得票数 4
回答已采纳
2
回答
如何从以2K开头
的
pyspark
数据
帧
中
删除
记录
、
、
我使用
的
是
pyspark
3.0.1。我想从我
的
pyspark
数据
帧
df
的
列group
中
删除
记录以2K开头
的
行。我
的
样本
数据
如下所示John 23 1L12Pat 35 1P28Name A
浏览 1
提问于2021-03-04
得票数 0
1
回答
如何将重复
的
函数应用于
数据
帧
的
列
具体来说,我想知道MARGIN参数是否允许我检查使用duplicated复制
的
列。这是可能
的
代码: [1] 59 130 [1] FALSE FALSE FALSE FALSE FALSE FALSEFALSE FALSE FALSE FALSE将MARGIN从1更改为2没有任何影响,每次我得到59行
的
结果我正在绑定以找到
删除
重
浏览 1
提问于2017-02-16
得票数 1
回答已采纳
1
回答
在Databricks中使用
Pyspark
更新
数据
库表
、
、
、
我在Azure SQL Server
数据
库中有一个表,该表是从我
的
Dataframe填充
的
。我想使用
pyspark
/ pandas基于多条件
数据
库来更新这个表。我是
PySpark
/ Databricks / Pandas
的
新手,有人能告诉我如何更新表吗?我已经将
数据
插入到表
中
-我可以想到
的
一种解决方案是将表
中
的
数据
加载到
数
浏览 2
提问于2020-04-20
得票数 0
2
回答
为什么groupBy()比
pyspark
中
的
distinct()快得多?
当我用groupBy()替换spark
数据
帧
上
的
distinct()时,我在我
的
pyspark
代码中看到了很大
的
性能改进。但是我不能理解背后
的
原因。整个意图是从
数据
帧
中
删除
行级重复项。我尝试在谷歌上搜索groupBy()和distinct()在
pyspark
中
的
实现,但没有找到。 有没有人能给我解释一下或者给我指出正确
的
方向?
浏览 0
提问于2018-09-11
得票数 6
2
回答
如何将唯一
的
重
复列
折叠为R
中
的
唯一列?
、
溶液问题我已经尝试了使用重复()、汇总()、聚合()、lapply()、combin
浏览 1
提问于2019-04-13
得票数 0
回答已采纳
1
回答
如何使用
Pyspark
/SQL/DataFrames SPARK RDD来插入/
删除
DB2源表
数据
?
、
、
、
我尝试运行upsert/delete命令来插入/
删除
DB2
数据
库源表
中
的
一些值,这是DB2上
的
一个现有表。是否可以使用
Pyspark
/Spark SQL/Dataframes。
浏览 2
提问于2019-05-10
得票数 0
1
回答
如何使用
pyspark
合并来自两个不同
数据
帧
的
数据
?
、
、
、
、
我有两个不同
的
(非常大
的
)
数据
帧
(详细信息如下)。我需要合并他们两个人
的
数据
。由于这些
数据
帧
非常庞大(第一个
数据
帧
有数百万行,第二个
数据
帧
有数千行),我尝试使用AWS EMR服务。但我不太明白它是如何在那里完成
的
,我看到
的
教程大多只显示了一个
数据
帧
的
说明。所以,我一直想知道如何使用
py
浏览 11
提问于2021-06-03
得票数 0
回答已采纳
1
回答
从数组
pyspark
中
删除
数组列
、
假设我在
pyspark
数据
帧
中有以下
数据
结构: arr1:array string1:string element:string string2: string 如何从我
的
数据
帧
中
删除
arr2?
浏览 8
提问于2019-10-15
得票数 0
3
回答
取消持久化(py)spark
中
的
所有
数据
帧
、
、
、
、
这通常是在一个大
的
步骤之后,或者缓存一个我想要多次使用
的
状态之后。似乎当我第二次对我
的
数据
帧
调用cache时,一个新
的
副本被缓存到内存
中
。在我
的
应用程序
中
,这会导致在扩展时出现内存问题。尽管在我当前
的
测试
中
,给定
的
数据
帧
最大大约为100MB,但中间结果
的
累积大小超出了executor上分配
的
内存。请参见下面的小
浏览 9
提问于2016-04-28
得票数 39
回答已采纳
1
回答
Spark SQL更新/
删除
、
、
、
、
目前,我正在做一个使用
pySpark
的
项目,它读取一些Hive表,将它们存储为
数据
帧
,并且我必须对它们执行一些更新/过滤。我正在不惜一切代价避免使用Spark语法来创建一个框架,该框架只接受参数文件
中
的
SQL,该参数文件将使用我
的
pySpark
框架运行。现在
的
问题是,我必须在我
的
最终
数据
帧
上执行更新/
删除
查询,是否有任何可能
的
浏览 7
提问于2019-11-15
得票数 1
2
回答
删除
Pandas
中
具有重复值
的
列
、
、
、
我有一个包含以下示例
的
数据
库: 在用Python加载
数据
时生成
数据
帧
,如下代码所示import pandas as pd输出:是否有任何方法可以避免读取Pandas
中
的
重
复列
,
浏览 1
提问于2018-04-10
得票数 3
回答已采纳
1
回答
如何从F.col对象
中
恢
复列
名?
、
简单
的
问题:假设我们那么如何从
pyspark
.sql.column.Column对象F.col('a')
中
恢
复列
名字符串'a‘。
浏览 2
提问于2020-05-10
得票数 0
回答已采纳
1
回答
检查列是否全部为空
、
、
我有一个列名和一个
数据
帧
。我想检查该列
中
的
所有值是否都为空,如果为空,则从
数据
帧
中
删除
该列。我所做
的
是检查具有非空值
的
列
的
计数,如果count等于0,则
删除
该列,但在
pyspark
中
这似乎是一个开销很大
的
操作
浏览 0
提问于2019-08-09
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券