Pyspark:查找两个dataframe的交集只返回一个带有值的列

Pyspark是一个基于Python的开源大数据处理框架，它提供了高效的分布式数据处理能力。在Pyspark中，要查找两个DataFrame的交集并且只返回一个带有值的列，可以使用以下步骤：

首先，使用Pyspark的join函数将两个DataFrame连接在一起。连接的条件可以是两个DataFrame共享的列名或者其他条件。
在连接之后，可以使用Pyspark的select函数选择需要返回的列。通过在select函数中指定列名或者使用列的索引，可以选择特定的列。
最后，使用Pyspark的dropDuplicates函数去除重复的行，保留只有值的列。

下面是一个示例代码：

from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建两个示例DataFrame
df1 = spark.createDataFrame([(1, "John"), (2, "Alice"), (3, "Bob")], ["id", "name"])
df2 = spark.createDataFrame([(3, "Bob"), (4, "Charlie"), (5, "Dave")], ["id", "name"])

# 将两个DataFrame连接在一起
joined_df = df1.join(df2, on="id", how="inner")

# 选择需要返回的列
selected_df = joined_df.select("id")

# 去除重复的行
result_df = selected_df.dropDuplicates()

# 打印结果
result_df.show()

上述示例中，df1和df2是两个示例DataFrame，通过join函数将它们连接在一起，连接条件为id列。然后，使用select函数选择了id列。最后，使用dropDuplicates函数去除了重复的行。输出结果将只包含一个带有值的列id。

关于Pyspark和DataFrame的更多详细信息，你可以参考腾讯云的相关产品：Apache Spark。Pyspark是Spark的Python API，可以用于大规模数据处理和分析。

Pyspark:查找两个dataframe的交集只返回一个带有值的列

、、

我有一个数据框，其中包含这些值-商店ID、商品是否可用(0或1)和可用性百分比。可能还有来自这里的第一个表的商店ID-同一个商店销售不同的商品 Store ID Item_2_Available Percent Available700 0 0 0 0 我试着使用spark来做一个交集

浏览 23提问于2021-08-05得票数 0

1回答

如何在PySpark中获取列的最后值

、、

这个问题非常琐碎，但是我在PySpark的世界里是全新的，我面临着很多问题，即使是简单的任务。假设我们有一个带有A列的dataframe df。我想要创建另一个dataframe，它只包含最后一个值为A的一个列(这里的最后一个值是指<em

浏览 1提问于2019-06-21得票数 0

回答已采纳

2回答

Python中的多个子字符串检查

、、

我希望在python dataframe的特定列中查找多个子字符串。条件是，上述两个子字符串都必须存在，而不仅仅是其中的一个，我试过用这个，但它不返回交集结果，而是两个

浏览 5提问于2022-04-04得票数 1

回答已采纳

1回答

Spark DataFrame* ArrayType或MapType用于检查列中的值*

、、、、

我有一个，其中一列是is列表。例如，我想获取其中包含特定ID的行数。c = df.filter(array_contains(df.ids, "123")).count() 我的第一个

浏览 1提问于2018-10-30得票数 2

回答已采纳

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame #

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

Pyspark dataframe:计算列中的唯一值，与其他列中的值独立协作。

、、、

我有一个火花数据框架，包括从不同来源获得的两类分子、调节剂和目标之间相互作用的数十亿预测(这些分子之间没有重叠)。我需要添加一个列，其中包含预测给定的“调节器”和“目标”的至少一个交互的数字资源。换句话说，对于每一对“调节器”和“目标”，我试图获得包含“调节器”和“目标”值的源数，即使不是在一个交互作用中成对。涉及A的相互作用由源x和y预测。它们的<

浏览 2提问于2018-02-22得票数 1

回答已采纳

2回答

如何在pyspark* datafarme中查找重复的列值*

、、

我正在尝试从pyspark中的dataframe中查找重复的列值。例如，我有一个只有一个列'A‘的dataframe，值如下：A1245====5

浏览 0提问于2019-08-27得票数 4

1回答

是否在不使用UDF的情况下向pyspark* dataframe添加新列？*

、、

我目前有一个pyspark dataframe，其中一列包含我想要使用我编写的返回信息字符串的函数查找的数字行。我知道最简单的方法是使用withCoulmn并定义一个UDF来从旧的列创建一个新列，但是我的函数不能将它注册为UDF.Is的方式使我可以基于旧列的

浏览 5提问于2017-08-01得票数 1

回答已采纳

1回答

Excel:匹配两列中的文本，并返回一个相对于交叉点的值

、

这是在处理文本，而Excel的If函数在检查单元格范围内的文本时不希望返回有效的响应。我需要一个单元格来检查数组中可能重复的文本。每当它找到该文本时，它就需要检查另一列中的不同文本。如果它发现这两列都包含两个文本字符串，则需要在其他两列右侧的另一列中返回值。A列中查找"Hi“<em

浏览 1提问于2015-07-17得票数 0

3回答

pyspark:获取dataframe的每一列中的唯一项

、

我有一个包含一百万行和560列的spark数据帧。我需要找到dataframe的每一列中唯一项的计数。我已经编写了以下代码来实现这一点，但它被卡住了，并且执行起来花费了太多的时间： var=count_unique_items.append(data.select(var).distinct().rdd.map(lambda r:r[0])

浏览 9提问于2016-11-29得票数 0

2回答

在pySpark中按条件分割数据

、、、

我有一个dataframe值为false、true或null。我想创建两个dataframes，1)只使用True列名，2)只使用假列名。我最初的想法是创建两个dataframes (因为它们稍后将被附加到一个更大的数据集中)，或者我还考虑将适当的列名转换为一个列表，然后将列表名称转换为列名。我是pySpark新手，我想知道如何在不硬编码任何列名(我有几百

浏览 3提问于2020-05-07得票数 1

回答已采纳

1回答

在单个Dataframe熊猫中的两个列的交集

、、、

import pandas as pd 目标：环境和描述是数据中的两列。目标是创建一个</em

浏览 0提问于2020-08-24得票数 1

回答已采纳

1回答

按交叉口分组pyspark数据

、、、、

我需要按列中数组的交集对PySpark数据进行分组。例如，像这样的dataframe：v2 | [4, 5]其结果应是：[v2] | [4, 5]因为第1行和第3行具有相同的值1。是否有类似于分组的方法在什么时候交叉？提前感谢您的意见和建议，如何解决这一问题。

浏览 1提问于2019-06-23得票数 0

回答已采纳

3回答

检查其他列pyspark* df中是否存在列pyspark df的值*

、、、、

我有2个pyspark数据格式，我想要检查一个列的值是否存在于另一个dataframe的列中。df_A["column1"].isin(d

浏览 4提问于2020-11-27得票数 2

回答已采纳

1回答

如何在pyspark中实现多个array_union和array_intersection

、、、

假设我有一个pyspark数据帧，其中包含以下列:数组类型的c1、c2、c3、c4和c5。现在我要做的是：(c1)交集(c2 union c3)交集(c2 union c4 union c5) 我可以在一个循环中的两个列上使用array_union，并在withColumn的帮助下不断添加一列，然后以类似的方式进行一轮交集。如何在PySpark中高效地完成此操作？

浏览 21提问于2019-10-31得票数 0

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

、、、

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark datafra

浏览 3提问于2021-12-11得票数 0

1回答

PySpark访问DataFrame列的foreachPartition()自定义函数

、、、、

我有一个叫做“内部”的函数。我想要将这个函数应用到中。为此，我在我创建的dataframe上调用"foreachPartition(inside)“方法。"inside“函数需要dataframe值。dataframe如下所示：DataFrame[lon: double, lat: double, t: bigint]def inside(iteratortest=sm

浏览 1提问于2018-05-22得票数 0

回答已采纳

5回答

DataFrame对象没有属性“col”

在“火花:最终指南”中，它说： df.col("count") 但是，当我在包含列count的dataframe上运行后的代码时，就会得到错误'DataFrame' object has no如果我尝试column，

浏览 2提问于2018-08-12得票数 9

1回答

如何检查星火中两个DataFrame列的交集

、、

使用pyspark或sparkr (最好两者兼而有之)，如何获得两个DataFrame列的交集？columnshead(newSalesHire) 如何让intersect为单个列工作？

浏览 1提问于2017-05-24得票数 6

回答已采纳

3回答

我可以询问一个PySpark* DataFrame来获取引用列的列表吗？*

、、

给定一个，是否可以获得DataFrame引用的源列的列表？import pyspark.sql.functions as func+----------+--------+ | f

浏览 8提问于2022-11-28得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Pyspark:查找两个dataframe的交集只返回一个带有值的列

相关·内容

Pyspark:查找两个dataframe的交集只返回一个带有值的列

如何在PySpark中获取列的最后值

Python中的多个子字符串检查

Spark DataFrame* ArrayType或MapType用于检查列中的值*

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

Pyspark dataframe:计算列中的唯一值，与其他列中的值独立协作。

如何在pyspark* datafarme中查找重复的列值*

是否在不使用UDF的情况下向pyspark* dataframe添加新列？*

Excel:匹配两列中的文本，并返回一个相对于交叉点的值

pyspark:获取dataframe的每一列中的唯一项

在pySpark中按条件分割数据

在单个Dataframe熊猫中的两个列的交集

按交叉口分组pyspark数据

检查其他列pyspark* df中是否存在列pyspark df的值*

如何在pyspark中实现多个array_union和array_intersection

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

PySpark访问DataFrame列的foreachPartition()自定义函数

DataFrame对象没有属性“col”

如何检查星火中两个DataFrame列的交集

我可以询问一个PySpark* DataFrame来获取引用列的列表吗？*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐