通过比较同一dataframe中两个不同列之间的数据来填充pyspark dataframe中的列

、、、

= 'noUpdateRequired' 我正在尝试使用pyspark(3.0.0)和spark(2.4.4)来实现这个逻辑，我现在有这个 df = df.withColumn("cdc_statusboolean expressions 因此，基本上我需要一个能够更新列cdc_status的解决方案，其中new_x !因为它们本质上是敏感的，但本质上它们也都是基于字符串的列。我试着到处搜索，但在pyspark中<

浏览 100提问于2021-05-06得票数 0

回答已采纳

1回答

迭代两个数据，比较和更改熊猫或火星雨中的值。

、、

我有两张数据。如果比较成功，我需要比较两个dataframe之间的几个列，并更改第一个dataframe中一个列的值。Dataframe 1：Pants Germany Red 0我希望检查文章、国家/产地和颜色列

浏览 3提问于2019-09-23得票数 0

回答已采纳

1回答

比较Java中使用新列打印结果的两个火花数据格式

、、、

我正在使用Apache，并试图使用比较两个json文件。我有两个数据-- 1)预期数据和2)实际数据。预期数据- table_1 实际数据- table_2 差异我需要它对每一列进行比较，使之成为确切的，并获得预期的数据格式，并在其中包含另一列'result‘，其中给出传递或失败。因此，该列看起来如

浏览 3提问于2021-07-26得票数 1

2回答

如何使用Numpy矢量化在Pandas中计算列

、、

我有一个pd dataframe，我想根据同一数据帧中的另外两个列来计算一列。我想使用Numpy矢量化，因为数据集很大。以下是数据帧： A B1 123 456 A BC1

浏览 1提问于2020-11-30得票数 1

1回答

使用pyspark比较两个大型数据帧

、、、、

我目前正在做一项数据迁移任务，试图使用pyspark比较来自两个不同数据库的两个数据帧，找出两个数据帧之间的差异，并将结果记录在csv文件中，作为数据验证的一部分。我正在尝试一个性能高效的解决方案，因为有两个原因。#Approach 2 - Creating row hash

浏览 11提问于2018-01-31得票数 1

回答已采纳

2回答

python熊猫DataFrame* -按细胞比较两个相同索引和标记的数据单元格*

、、

我有两个完全相同的索引和列的dataframe。它们的一些值是不同的，我希望生成一个新的数据格式，它具有相同的索引和列，但每个单元格表示两个数据格式之间比较的结果。Dataframe 1：A 1 1

浏览 3提问于2022-01-11得票数 1

回答已采纳

1回答

在pyspark的dataframe中迭代列，而不为单个列生成不同的数据。

、、

我们如何在dataframe中的列中迭代以单独对同一数据same中的部分或所有列执行计算，而不为单个列创建不同的数据same(类似于map在rdd中遍历行，并在行上执行计算而不为每一行创建不同的rddl = list of column names df = dataframe</em

浏览 3提问于2017-03-10得票数 1

1回答

使用熊猫描述()在数据级上填充np.nan值的前后比较

、、

我试图比较填充NA值之前和之后的差异，然后使用describe()方法。例如，第一次数据访问：1 NA 53 3 35 6 7idx A B23 44 3 3我希望用随机数据组合来描述填充NA值后数据之间的差异。原来的

浏览 2提问于2022-08-27得票数 0

回答已采纳

1回答

如何创建一个函数来检查dataframe的PySpark列中的一行是否与另一个dataframe的同一列中的另一行匹配？

、、

如何创建一个函数来检查一个数据文件的PySpark列中的一行是否与另一个Pysark dataframe的同一列中的另一行匹配？我想创建一个新列，如果记录中的该值存在于另一个dataframe中，该列将显示验证。除了要加入的列之外，data

浏览 5提问于2021-12-11得票数 1

回答已采纳

1回答

数据库时间戳格式-如何找到准确的格式？

、、

当我尝试通过show()和display( dataframe )显示来自pyspark dataframe的date列时，这些数据列的格式是不同的。现在，我们如何得出数据帧中存在哪种日期格式？

浏览 15提问于2021-04-23得票数 2

1回答

需要比较pandas中两个数据帧中的两列

、、

我需要比较两个数据帧之间的第一列值，并通过将该值与第二个数据帧的第二列相乘来更改第二列的值Money Currency 31 EUR20 JPYCurr ValueJPY 0.78 我

浏览 3提问于2021-05-10得票数 0

2回答

如何添加具有特殊条件的不同行的两列？

、、、、

你好，我有一个PySpark dataframe。因此，我想从具有特殊条件的不同行中添加两列。其中一列是日期类型。以下是数据的示例：| flag| date | diff |from pyspark.sql.functions im

浏览 0提问于2019-02-19得票数 0

回答已采纳

1回答

'DataFrame‘对象不支持项分配

、、、、

我将df作为一个pyspark.sql.dataframe.DataFrame导入到Databricks中。在这个df中，我有3列(我已经证实它们是字符串)，我希望将它们连接起来。我试过先使用一个简单的"+“函数。因此，我试图在每一列后面添加.astype(str)，但没有结果。最后，我尝试简单地添加另一列，其中满是数字5：也收到了同样的错误。所以现

浏览 1提问于2022-12-02得票数 0

2回答

如何使用来自另一个数据帧的随机值更新PySpark中的数据帧？

、、、

我在PySpark中有两个数据帧，如下所示： Dataframe A:总共1000条记录 +-----++-----+| b|+-----+Dataframe B:共3条记录 +-----++-----+|06901|+-----+ 我需要在Dataframe A中添加一个名为Zip的新列，并使用从Datafram

浏览 12提问于2021-02-10得票数 2

回答已采纳

1回答

创建基于两列的新列

、、、、

数据文件中有两列。我想要创建第三列，这样如果第一列>第二列大于1 ow 0。如下所示Value1值2.新列 97. 1

浏览 5提问于2021-12-13得票数 -1

1回答

pyspark错误：'DataFrame‘对象没有属性'map’

、、

我正在使用Pyspark2.0通过读取csv来创建一个DataFrame对象，使用：我使用以下命令找到数据的类型type(data)pyspark.sql.dataframe.DataFrame 我正在尝试将数据中的一些列转换为Labele

浏览 4提问于2016-09-08得票数 6

3回答

在熊猫的另一个数据中填充值

、、

我有两张数据。在dataframe1中，我有一个列，其中包含一些空值。我希望使用另一个数据帧(即dataframe2 )的值来填充这些空值，方法是比较每个数据帧的不同列的值。DataFrame 1：A NullC NUllB 1

浏览 3提问于2018-01-20得票数 5

回答已采纳

1回答

基于关键字段查找列差的pyspark数据比较

、、、、

我必须比较两个数据格式，以找出基于一个或多个关键字段的列差异，在最高效的性能方法中使用pyspark，因为我必须处理巨大的数据格式。我已经构建了一个使用散列匹配来比较两个数据流的解决方案，没有像data_compare.df_subtract(self.df_db1_hash,self.df_db2_hash)这样的键字段匹配，

浏览 0提问于2018-03-03得票数 0

1回答

当dataframe和tuple值匹配时，从tuple值中有条件地填充dataframe行

、、、、

我试图通过有条件地填充列来更新我的数据。我希望将dataframe行中的值与tuple中的值进行比较，然后将同一dataframe行的不同列与元组中的另一个值进行填充。例如： foo = pd.DataFrame({&qu

浏览 1提问于2016-04-07得票数 1

回答已采纳

2回答

通过JDBC从pyspark* dataframe插入到外部数据库表时的重复键更新*

、、、、

嗯，我使用的是PySpark，我有一个Spark dataframe，我使用它将数据插入到mysql表中。df.write.jdbc(url=url, table="myTable", mode="append") 我希望通过列值和特定数字的

浏览 4提问于2015-09-16得票数 12

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

迭代两个数据，比较和更改熊猫或火星雨中的值。

比较Java中使用新列打印结果的两个火花数据格式

如何使用Numpy矢量化在Pandas中计算列

使用pyspark比较两个大型数据帧

python熊猫DataFrame* -按细胞比较两个相同索引和标记的数据单元格*

在pyspark的dataframe中迭代列，而不为单个列生成不同的数据。

使用熊猫描述()在数据级上填充np.nan值的前后比较

如何创建一个函数来检查dataframe的PySpark列中的一行是否与另一个dataframe的同一列中的另一行匹配？

数据库时间戳格式-如何找到准确的格式？

需要比较pandas中两个数据帧中的两列

如何添加具有特殊条件的不同行的两列？

'DataFrame‘对象不支持项分配

如何使用来自另一个数据帧的随机值更新PySpark中的数据帧？

创建基于两列的新列

pyspark错误：'DataFrame‘对象没有属性'map’

在熊猫的另一个数据中填充值

基于关键字段查找列差的pyspark数据比较

当dataframe和tuple值匹配时，从tuple值中有条件地填充dataframe行

通过JDBC从pyspark* dataframe插入到外部数据库表时的重复键更新*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐