腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
如何
从
连接
相同
的
pyspark
dataframe
中
删除
“
重复
”
行
?
、
、
、
、
我需要显示一个由三列组成
的
数据帧。其中两个显示了在一部普通电影
中
工作过的人
的
名字(由第三个代码
中
的
代码表示)name_data_df3 = movie_join_oscar_join_name.filter('NazioneJoan Crawford| tt0022958| Lionel Barrymore|
如何
删除<
浏览 7
提问于2018-02-18
得票数 3
回答已采纳
2
回答
从
PySpark
DataFrame
列
中
删除
元素
我知道
PySpark
DataFrames是不可变
的
,所以我想创建一个新列,该列是根据应用到
PySpark
DataFrame
的
现有列
的
转换生成
的
。我
的
数据太大了,无法使用collect()。该列是唯一int列表(在给定列表
中
不
重复
int),例如:[1,2][2,3] 上面是一个玩具例子,因为我
的
实际
DataFrame
有一个最大长度为52个唯一ints<
浏览 9
提问于2017-01-12
得票数 1
回答已采纳
0
回答
删除
SparkR
DataFrame
中
的
重复
观测
、
、
、
我有一个带有
重复
观察
的
SparkR
DataFrame
。我找不到一种简单
的
方法来
删除
重复
项,而且似乎SparkR
中
没有
PySpark
dropDuplicates()功能。例如,如果我有以下
DataFrame
,
如何
根据fullname被复制这一事实
删除
第2
行
和第4
行
?
浏览 0
提问于2017-06-20
得票数 1
回答已采纳
1
回答
字符串
中
的
Pyspark
双字符替换避免未映射到pandas或rdd
的
特定单词
、
、
、
、
我继承了一个修改
pyspark
dataframe
中一些字符串
的
程序。其中一个步骤涉及
从
字符串
中
的
一些单词
中
删除
双/三/等字母,以及一个额外
的
例外列表,即使它们有
重复
的
字母也会保持不变。目前,这是通过将
dataframe
转换为具有udf
的
pandas,然后在读回
pyspark
之前对生成
的
pandas
浏览 7
提问于2021-03-15
得票数 0
回答已采纳
2
回答
两个数据帧
的
Pyspark
连接
导致
重复
值错误
、
在
连接
两个数据帧时,我在
pyspark
中
遇到了问题。第一个
dataframe
是一个单列
的
dataframe
"zipcd",第二个是四个列
的
dataframe
。每当我试图
连接
两个
dataframe
时,问题就会出现,因为
Pyspark
在我
的
新
dataframe
中
返回我,关于zipcd
的
一列,它
的</em
浏览 30
提问于2021-07-01
得票数 1
2
回答
从
数据帧
中
删除
相同
的
行
-Pandas
、
、
我试图
删除
两个数据帧之间匹配
的
相同
行。无论
如何
,我尝试
相同
数据帧
中
相同
行
的
方法也会被
删除
。但是我想从
相同
的
数据帧中保留
相同
的
行
,并
删除
那些只与其他数据帧匹配
的
行
。
Dataframe
1: ID PID PDate Amou
浏览 0
提问于2021-06-08
得票数 0
回答已采纳
1
回答
在
Dataframe
中
,
如何
根据条件
从
行
中
删除
列?
、
当该行上
的
列值为零时,我想从
行
中
删除
该列。我不想从
Dataframe
中
删除
该列。仅当列值为零时,我才
从
该特定
行
中
删除
该列。我用
的
是
Pyspark
。
浏览 19
提问于2020-04-09
得票数 0
2
回答
pyspark
:
删除
所有
行
中
具有
相同
值
的
列
相关问题:然而,上述问题
的
答案仅适用于熊猫。有没有针对
pyspark
数据帧
的
解决方案?
浏览 1
提问于2018-12-17
得票数 4
2
回答
从
增量表/
pyspark
数据帧
中
删除
多个
行
,给出一个ID列表
、
、
、
我需要找到一种方法,从一个增量表/吡火花数据帧
中
删除
多个
行
,给出标识
行
的
ID列表。据我所知,没有一种方法可以使用一个列表来
删除
它们,但一次只能
删除
一个。任何建议/帮助都将不胜感激。
浏览 8
提问于2022-05-13
得票数 2
1
回答
在Databricks中使用
Pyspark
更新数据库表
、
、
、
我在Azure SQL Server数据库中有一个表,该表是
从
我
的
Dataframe
填充
的
。我想使用
pyspark
/ pandas基于多条件数据库来更新这个表。我是
PySpark
/ Databricks / Pandas
的
新手,有人能告诉我
如何
更新表吗?我已经将数据插入到表
中
-我可以想到
的
一种解决方案是将表
中
的
数据加载到数据帧
中
,
浏览 2
提问于2020-04-20
得票数 0
1
回答
创建一个新列,详细说明一个
PySpark
数据row
中
的
行
是否与另一列
中
的
一个
行
匹配。
、
、
、
我想要创建一个函数,该函数
从
PySpark
中
的
左联接创建一个新列,详细说明一个列
中
的
值是否匹配或不匹配另一个
dataframe
逐行
的
列。例如,我们有一个
PySpark
dataframe
(d1)具有列ID和名称,另一个
PySpark
dataframe
(d2)具有
相同
的
列- ID和Name。我试图创建一个
连接
这两个表
浏览 3
提问于2021-12-11
得票数 0
2
回答
加入来自
相同
来源
的
两个DataFrames
、
、
、
我使用
的
是
pyspark
(Apache Spark)
的
DataFrame
接口,遇到了以下问题:我
从
磁盘加载一个包含n
行
的
DataFrame
: df = sql_context.parquetFil
浏览 1
提问于2015-04-21
得票数 6
2
回答
如何
根据大小更改列值
、
、
、
我在
PySpark
设置中有一个
dataframe
。我想更改一个列,比如它叫做A,它
的
数据类型是"string“。我想根据它们
的
长度来改变它
的
价值。特别是,如果一
行
中
只有一个字符,则希望将0
连接
到末尾。“修改”列
的
名称必须仍然是A。这是用于使用
PySpark
3
的
木星笔记本。这就是我迄今尝试过
的
: df = df.withColumn("A", when(
浏览 2
提问于2019-06-17
得票数 1
回答已采纳
3
回答
如何
将一个
dataframe
中
引用
的
ids更改为
从
第二个
dataframe
中
删除
副本后将保留
的
ids?
、
、
我正在处理两个数据文件:在magazines
dataframe
中有
重复
的
标题。 我不确定
如何
将第一个
dataframe
中
引用
的
I更改为
删除
副本后将保留
的</e
浏览 23
提问于2022-03-19
得票数 0
回答已采纳
1
回答
为什么我得到了TypeError:不能在使用_thread.RLock时选择'_thread.RLock‘对象
、
、
、
、
我用火花来处理我
的
数据,就像这样: url='jdbc:第46
行
,在process() "/private/var/www/http/hawk-scripts/hawk_etl/scripts/spark_rds_to_parquet.py",第36
行
浏览 2
提问于2022-05-11
得票数 0
回答已采纳
1
回答
根据特定列进行
PySpark
重新分区
、
、
、
我正在研究
如何
对数据集进行重新分区(在
PySpark
中
),以便将指定列
中
具有
相同
ID
的
所有
行
移动到
相同
的
分区。实际上,我必须在每个分区
中
运行一个程序,该程序为具有
相同
ID
的
所有
行
计算单个值。我有一个
从
HIVE QL查询构建
的
dataframe
(df) (假设包含10000个不同
的
ID)。我试
浏览 4
提问于2018-05-22
得票数 0
1
回答
如何
根据上一
行
的
值来修改
中
的
值?
、
、
、
|golf |indoor |60129542144|我需要识别
重复
的
数量-类别-活动组合,将
重复
对
中
的
行
取为参与者数量较少
的
行
,并将该行
的
成本设置为0。我最初
的
策略是添加一个索引列,然后使用
pyspark
窗口功能来创建一个新
的
datafr
浏览 1
提问于2022-10-31
得票数 0
1
回答
如何
在使用drop_duplicates (Pandas
DataFrame
)时获得掉
行
?
、
、
、
我使用pandas.
DataFrame
.drop_duplicates()
删除
所有列值
相同
的
行
的
重复
项,但是对于数据质量分析,我需要生成一个带有
删除
的
重复
行
的
DataFrame
。
如何
识别要
删除
的
行
?我想到了比较原始
的
DF和没有
重复
的
新<em
浏览 10
提问于2020-07-06
得票数 1
回答已采纳
1
回答
从
序列
中
删除
连续
重复
项
、
、
我正在尝试运行一些代码,以便
从
dataframe
中
的
序列
中
删除
重复
项。我有大约3000
行
不同
的
序列。我想要做
的
一个例子是把A,B,B,A,D,D,E转换成A,B,A,D,E。我仍然需要保持
相同
的
序列,只需
删除
连续
的
重复
。 我已经尝试过zip_longest,以及迭代工具groupby函数。我遇到
的
问题是,有那么
浏览 2
提问于2022-02-09
得票数 0
2
回答
使用
PySpark
移除至少具有1NA
的
任何
行
、
、
我有一个电火花数据,我想
删除
任何一
行
至少有一个NA。
如何
对
dataframe
的
所有列执行
相同
的
操作?可复制示例from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.functions") \
浏览 14
提问于2022-10-05
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券