腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
PySpark
在
连接
后
删除
列
b.GroupByFld] c=c.drop('adjTransactionDate','a.GroupByFld') 我发现最后一行从数据集中
删除
了如果我简单地这样做: c=c.drop('adjTransactionDate','GroupByFld') 然后,从数据集中
删除
这两个GroupByFld。如何只
删除
属于源A的GroupByFld?
浏览 13
提问于2019-01-04
得票数 0
1
回答
Pyspark
删除
多
列
连接
后
的
列
、
、
我尝试
在
pyspark
中对两
列
进行左
连接
,其中只有一
列
的名称是相同的: 如何
删除
连接
的数据帧df2.date和df2.accountnr的两
列
dfAll = ( .join(我能想到的唯一解决方案是首先将df2.accountnr重命名为df2.accountnr2,然后使用.drop('date', 'accountnr2') 有没有更好的解决方案直接
删除
py
浏览 30
提问于2019-02-10
得票数 0
1
回答
函数从大型数据集中
删除
重复的
列
。
尝试
在
连接
hdfs表
后
删除
pyspark
df中的重复列名称? 您好,我正在尝试
连接
多个具有200+最终
列
数的数据集。由于要求和大量的
列
,我不能在
连接
时选择特定的
列
。有没有办法
在
连接
后
删除
重复的
列
。我知道有一种方法可以通过spark df的.join方法来做到这一点,但是我加入的基表不是spark df,并且我正在试图避免<em
浏览 20
提问于2018-12-20
得票数 1
2
回答
如何在
pyspark
sql的大表中选择除2
列
以外的所有
列
?
、
、
、
、
在
连接
两个表时,我想从一个
在
databricks上的
pyspark
sql上有许多
列
的大表中选择除其中两
列
之外的所有
列
。我的
pyspark
sql: set hive.support.quoted.identifiers=none;谢谢
浏览 5
提问于2020-07-28
得票数 0
2
回答
使用空值
连接
dataframe
pyspark
中的
列
、
、
、
Industries RR IndustriesRR Industries.withColumn("Name3",F.concat(F.trim(Name1), F.trim(Name2)))我认为,问题发生在df2和df3中的名称
列
可用于
连接
表之后。
在
加入之前,它们不包含空值。问题:
连接
后
;由于
pyspark
不会
删除
浏览 2
提问于2020-06-01
得票数 0
1
回答
如何编写一个通用函数来
连接
两个
PySpark
数据格式?
、
、
、
、
如何编写一个通用函数来
连接
两个
PySpark
数据格式? 我想要编写一个函数,
在
两个数据文件上执行内部
连接
,并在加入
后
消除重复的公共
列
。据我所知,没有办法做到这一点,因为我们总是需要在加入时手动定义公共
列
。还是有办法?
浏览 4
提问于2022-07-30
得票数 -1
回答已采纳
2
回答
如何从以2K开头的
pyspark
数据帧中
删除
记录
、
、
我使用的是
pyspark
3.0.1。我想从我的
pyspark
数据帧df的
列
group中
删除
记录以2K开头的行。我的样本数据如下所示John 23 1L12Pat 35 1P28Name Age
浏览 1
提问于2021-03-04
得票数 0
1
回答
如何处理
连接
多个表
后
的空值
、
、
、
、
我正在通过
连接
4个数据帧来创建一个新的数据帧,之后我需要
连接
来自不同数据帧数据的两个相同的
列
:Acc1 Acc1 Acc1Acc1null Acc3 Acc3 问题:如果我没有替换null值而进行
连接
;我
在
连接
后
丢失了信息;由于
pyspark
不
删除
公共
列
,我们有两个表中的两个Account
列
,我尝试用空字符串替换它
浏览 18
提问于2020-06-02
得票数 0
回答已采纳
1
回答
改变unionAll顺序的火花聚结
DF3=DF1.unionAll(DF2)合并
后
,DF1总是放在DF2下,我看到原因是因为较小的分区位于最后,如下所示:。DF1是第一位的,DF2是合并
后
的。
浏览 5
提问于2022-02-10
得票数 0
回答已采纳
1
回答
枢轴
后
的
PySpark
连接
列
、
, 7), ('2017-01-03', 'C', 9),('date', 'type', 'value')我想将它转换为
列
等于所有唯一的如果有人对我如何在
PySpark
中实现这一点有任何建议的话,那就太好了。
浏览 2
提问于2020-03-18
得票数 1
回答已采纳
1
回答
Spark SQL: INSERT INTO语句语法
、
在
阅读中支持的Spark SQL语法时,我注意到您可以像往常一样使用INSERT语句:
在
Spark2.0 (Python)环境和到Mysql数据库的
连接
中进行测试时,抛出错误: File "/home/yawn/spark-2.0.0-bin-hadoop2.7/python/lib/
pyspark
.zip/
pys
浏览 2
提问于2016-10-24
得票数 7
2
回答
如何根据大小更改
列
值
、
、
、
我
在
PySpark
设置中有一个dataframe。我想更改一个
列
,比如它叫做A,它的数据类型是"string“。我想根据它们的长度来改变它的价值。特别是,如果一行中只有一个字符,则希望将0
连接
到末尾。“修改”
列
的名称必须仍然是A。这是用于使用
PySpark
3的木星笔记本。df.withColumn("A", when(size(df.col("A")) == 1, concat(df.col("A"), lit(&qu
浏览 2
提问于2019-06-17
得票数 1
回答已采纳
1
回答
使用
PySpark
有效地将多个小的csv文件(130,000个,每个列有2
列
)合并成一个大框架
、
、
、
、
在
主目录中列出了它们的子目录,因此第一个单元可能是A/AAAAA,文件位于/data/A/AAA.csv。但是所有的
列
都被命名为VALUE,框架变成了两
浏览 4
提问于2020-02-18
得票数 0
回答已采纳
1
回答
在
Sagemaker笔记本中的
PySpark
内核中安装python包
、
、
有人想出了如何在AWS Sagemaker Notebook实例上安装软件包,以便在
PySpark
内核中可用吗?我现在做了几次尝试,包括生命周期脚本,但似乎就是错过了正确的python env。
浏览 12
提问于2019-12-23
得票数 3
1
回答
在
删除
列
后
不维护顺序的
pyspark
、
、
5|| 8| 8|| 10| 10|| 4| 4|| 11| 11|但是,如果我
删除
一
列
,则其余的
列
将被置换。
浏览 0
提问于2022-02-03
得票数 0
回答已采纳
1
回答
如何在
pyspark
中解压list类型的
列
、
、
、
我
在
pyspark
中有一个dataframe,df有一个数组字符串类型的
列
,所以我需要生成一个包含列表头部的新
列
,还需要包含尾列表
连接
的其他
列
。这是我的原始数据帧:
pyspark
> df.show()| id| lst_col|| 1|[a, b, c,d]|
pyspark
> df.printSchema(
浏览 29
提问于2020-01-24
得票数 0
回答已采纳
1
回答
PySpark
动态
连接
条件
、
、
、
我有PK
列
的列表。我
在
存储主键,因为每个表的主键数可能会发生变化。我想根据pk_list中的
列
连接
两个数据帧。当我运行代码时,我会得到以下错误:
在
join/yarn/usercache/root
浏览 0
提问于2018-12-07
得票数 2
1
回答
在
PySpark
DataFrames中,为什么__setitem__没有完全实现?
、
、
、
在
PySpark
中,我们不能使用传统的熊猫或R风格的符号来根据DataFrame中的旧
列
来制作新的
列
。例如,假设我试图
连接
两
列
:df['newcol'] = F.concat(df['col_1'], df['col_2'])相反,这样做的实现方法是 df = df.withColumn
浏览 1
提问于2016-07-28
得票数 1
回答已采纳
1
回答
要对pandas进行预处理的数据太多了--
pyspark
.sql是一个可行的替代方案吗?[已关闭]
改进此问题 我
在
几个.csv文件中有大约20 GB的数据,并希望对其进行一些常见的预处理步骤,如
连接
、添加
列
、
删除
行/
列
、分组/聚合等。是否值得
在
本地使用
pyspark
(
Pyspark
.sql)来简化预处理,这样我就可以利用所有的逻辑处理器?或者
pyspark
对于这个场景来说不是最好的工具。我对pandas非常熟悉,但对
pyspark
/任何潜在的并行处理工具来说都是非常陌生的,因此,为
浏览 34
提问于2021-02-25
得票数 0
1
回答
字符串中的
Pyspark
双字符替换避免未映射到pandas或rdd的特定单词
、
、
、
、
我继承了一个修改
pyspark
dataframe中一些字符串的程序。其中一个步骤涉及从字符串中的一些单词中
删除
双/三/等字母,以及一个额外的例外列表,即使它们有重复的字母也会保持不变。连续字符
删除
函数逐字读取字符串,检查单词是否
在
例外列表中,如果不在例外列表中,则逐个字符移动,将其与前一个字符进行比较,如果匹配,则检查是否逐个字符创建新词,重复省略操作。下面是
pyspark
dataframe转换为pandas
后
当前实现的MWE。(drop_consecutive_
浏览 7
提问于2021-03-15
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券