腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
通过
比较
同一
dataframe
中
两个
不同
列
之间
的
数据
来
填充
pyspark
dataframe
中
的
列
、
、
、
= 'noUpdateRequired' 我正在尝试使用
pyspark
(3.0.0)和spark(2.4.4)
来
实现这个逻辑,我现在有这个 df = df.withColumn("cdc_statusboolean expressions 因此,基本上我需要一个能够更新
列
cdc_status
的
解决方案,其中new_x !因为它们本质上是敏感
的
,但本质上它们也都是基于字符串
的
列
。我试着到处搜索,但在
pyspark
中<
浏览 100
提问于2021-05-06
得票数 0
回答已采纳
1
回答
迭代
两个
数据
,
比较
和更改熊猫或火星雨中
的
值。
、
、
我有两张
数据
。如果
比较
成功,我需要
比较
两个
dataframe
之间
的
几个
列
,并更改第一个
dataframe
中一个
列
的
值。
Dataframe
1:Pants Germany Red 0我希望检查文章、国家/产地和颜色
列
浏览 3
提问于2019-09-23
得票数 0
回答已采纳
1
回答
比较
Java中使用新
列
打印结果
的
两个
火花
数据
格式
、
、
、
我正在使用Apache,并试图使用
比较
两个
json文件。我有
两个
数据
-- 1)预期
数据
和2)实际
数据
。预期
数据
- table_1 实际
数据
- table_2 差异 我需要它对每一
列
进行
比较
,使之成为确切
的
,并获得预期
的
数据
格式,并在其中包含另一
列
'result‘,其中给出传递或失败。因此,该
列
看起来如
浏览 3
提问于2021-07-26
得票数 1
2
回答
如何使用Numpy矢量化在Pandas中计算
列
、
、
我有一个pd
dataframe
,我想根据
同一
数据
帧
中
的
另外
两个
列
来
计算一
列
。我想使用Numpy矢量化,因为
数据
集很大。以下是
数据
帧: A B1 123 456 A BC1
浏览 1
提问于2020-11-30
得票数 1
1
回答
使用
pyspark
比较
两个
大型
数据
帧
、
、
、
、
我目前正在做一项
数据
迁移任务,试图使用
pyspark
比较
来自
两个
不同
数据
库
的
两个
数据
帧,找出
两个
数据
帧
之间
的
差异,并将结果记录在csv文件
中
,作为
数据
验证
的
一部分。我正在尝试一个性能高效
的
解决方案,因为有
两个
原因。#Approach 2 - Creating row hash
浏览 11
提问于2018-01-31
得票数 1
回答已采纳
2
回答
python熊猫
DataFrame
-按细胞
比较
两个
相同索引和标记
的
数据
单元格
、
、
我有
两个
完全相同
的
索引和
列
的
dataframe
。它们
的
一些值是
不同
的
,我希望生成一个新
的
数据
格式,它具有相同
的
索引和
列
,但每个单元格表示
两个
数据
格式
之间
比较
的
结果。
Dataframe
1:A 1 1
浏览 3
提问于2022-01-11
得票数 1
回答已采纳
1
回答
在
pyspark
的
dataframe
中
迭代
列
,而不为单个
列
生成
不同
的
数据
。
、
、
我们如何在
dataframe
中
的
列
中
迭代以单独对
同一
数据
same
中
的
部分或所有
列
执行计算,而不为单个
列
创建
不同
的
数据
same(类似于map在rdd
中
遍历行,并在行上执行计算而不为每一行创建
不同
的
rddl = list of column names df =
dataframe</em
浏览 3
提问于2017-03-10
得票数 1
1
回答
使用熊猫描述()在
数据
级上
填充
np.nan值
的
前后
比较
、
、
我试图
比较
填充
NA值之前和之后
的
差异,然后使用describe()方法。例如,第一次
数据
访问:1 NA 53 3 35 6 7idx A B23 44 3 3我希望用随机
数据
组合
来
描述
填充
NA值后
数据
之间
的
差异。原来
的
浏览 2
提问于2022-08-27
得票数 0
回答已采纳
1
回答
如何创建一个函数来检查
dataframe
的
PySpark
列
中
的
一行是否与另一个
dataframe
的
同一
列
中
的
另一行匹配?
、
、
如何创建一个函数来检查一个
数据
文件
的
PySpark
列
中
的
一行是否与另一个Pysark
dataframe
的
同一
列
中
的
另一行匹配?我想创建一个新
列
,如果记录
中
的
该值存在于另一个
dataframe
中
,该
列
将显示验证。除了要加入
的
列
之外,data
浏览 5
提问于2021-12-11
得票数 1
回答已采纳
1
回答
数据
库时间戳格式-如何找到准确
的
格式?
、
、
当我尝试
通过
show()和display(
dataframe
)显示来自
pyspark
dataframe
的
date
列
时,这些
数据
列
的
格式是
不同
的
。现在,我们如何得出
数据
帧
中
存在哪种日期格式?
浏览 15
提问于2021-04-23
得票数 2
1
回答
需要
比较
pandas
中
两个
数据
帧
中
的
两
列
、
、
我需要
比较
两个
数据
帧
之间
的
第一
列
值,并
通过
将该值与第二个
数据
帧
的
第二
列
相乘
来
更改第二
列
的
值Money Currency 31 EUR20 JPYCurr ValueJPY 0.78 我
浏览 3
提问于2021-05-10
得票数 0
2
回答
如何添加具有特殊条件
的
不同
行
的
两
列
?
、
、
、
、
你好,我有一个
PySpark
dataframe
。因此,我想从具有特殊条件
的
不同
行
中
添加两
列
。其中一
列
是日期类型。以下是
数据
的
示例:| flag| date | diff |from
pyspark
.sql.functions im
浏览 0
提问于2019-02-19
得票数 0
回答已采纳
1
回答
'
DataFrame
‘对象不支持项分配
、
、
、
、
我将df作为一个
pyspark
.sql.
dataframe
.
DataFrame
导入到Databricks
中
。在这个df
中
,我有3
列
(我已经证实它们是字符串),我希望将它们连接起来。我试过先使用一个简单
的
"+“函数。因此,我试图在每一
列
后面添加.astype(str),但没有结果。最后,我尝试简单地添加另一
列
,其中满是数字5:也收到了同样
的
错误。所以现
浏览 1
提问于2022-12-02
得票数 0
2
回答
如何使用来自另一个
数据
帧
的
随机值更新
PySpark
中
的
数据
帧?
、
、
、
我在
PySpark
中有
两个
数据
帧,如下所示:
Dataframe
A:总共1000条记录 +-----++-----+| b|+-----+
Dataframe
B:共3条记录 +-----++-----+|06901|+-----+ 我需要在
Dataframe
A
中
添加一个名为Zip
的
新
列
,并使用从
Datafram
浏览 12
提问于2021-02-10
得票数 2
回答已采纳
1
回答
创建基于两
列
的
新
列
、
、
、
、
数据
文件中有两
列
。我想要创建第三
列
,这样如果第一
列
>第二
列
大于1 ow 0。如下所示Value1值2.新
列
97. 1
浏览 5
提问于2021-12-13
得票数 -1
1
回答
pyspark
错误:'
DataFrame
‘对象没有属性'map’
、
、
我正在使用
Pyspark
2.0
通过
读取csv
来
创建一个
DataFrame
对象,使用:我使用以下命令找到
数据
的
类型type(data)
pyspark
.sql.
dataframe
.
DataFrame
我正在尝试将
数据
中
的
一些
列
转换为Labele
浏览 4
提问于2016-09-08
得票数 6
3
回答
在熊猫
的
另一个
数据
中
填充
值
、
、
我有两张
数据
。在
dataframe
1
中
,我有一个
列
,其中包含一些空值。我希望使用另一个
数据
帧(即
dataframe
2 )
的
值
来
填充
这些空值,方法是
比较
每个
数据
帧
的
不同
列
的
值。
DataFrame
1:A NullC NUllB 1
浏览 3
提问于2018-01-20
得票数 5
回答已采纳
1
回答
基于关键字段查找
列
差
的
pyspark
数据
比较
、
、
、
、
我必须
比较
两个
数据
格式,以找出基于一个或多个关键字段
的
列
差异,在最高效
的
性能方法中使用
pyspark
,因为我必须处理巨大
的
数据
格式。我已经构建了一个使用散
列
匹配来
比较
两个
数据
流
的
解决方案,没有像data_compare.df_subtract(self.df_db1_hash,self.df_db2_hash)这样
的
键字段匹配,
浏览 0
提问于2018-03-03
得票数 0
1
回答
当
dataframe
和tuple值匹配时,从tuple值中有条件地
填充
dataframe
行
、
、
、
、
我试图
通过
有条件地
填充
列
来
更新我
的
数据
。我希望将
dataframe
行
中
的
值与tuple
中
的
值进行
比较
,然后将
同一
dataframe
行
的
不同
列
与元组
中
的
另一个值进行
填充
。例如: foo = pd.
DataFrame
({&qu
浏览 1
提问于2016-04-07
得票数 1
回答已采纳
2
回答
通过
JDBC从
pyspark
dataframe
插入到外部
数据
库表时
的
重复键更新
、
、
、
、
嗯,我使用
的
是
PySpark
,我有一个Spark
dataframe
,我使用它将
数据
插入到mysql表
中
。df.write.jdbc(url=url, table="myTable", mode="append") 我希望
通过
列
值和特定数字
的
浏览 4
提问于2015-09-16
得票数 12
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何对 dataframe中的某一列数据 开根号呢?
PySaprk之DataFrame
肝了3天,整理了90个Pandas案例
4个解决特定的任务的Pandas高效代码
python数据分析中的相关性和协方差
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券